AI 多代理系統總是「集體擺爛」?賓州大學與 Duke 聯手開發自動化除錯機制
編輯核心觀點
- ✦大型語言模型多代理系統在協作時常發生任務失敗,卻難以追蹤是哪個環節出錯。
- ✦研究團隊定義了「自動化失敗歸因」問題,並推出首個基準測試資料集 Who&When。
- ✦實驗顯示即便使用 GPT-4o 或 o1 等頂尖模型,在精確定位錯誤步驟上的準確率仍極低,顯示該任務具備高度挑戰性。

多代理系統的「除錯黑洞」
隨著大型語言模型(LLM)多代理系統(Multi-Agent Systems)在處理複雜任務上的應用日益廣泛,開發者面臨一個棘手的挑戰:當系統在協作過程中失敗時,往往難以判斷究竟是哪一個代理(Agent)在何時出了差錯。這種「大海撈針」式的除錯過程,不僅極度耗時,也嚴重阻礙了系統的迭代與優化。
為了突破此瓶頸,來自賓州大學(Penn State University)與杜克大學(Duke University)的研究團隊,聯合 Google DeepMind 等機構,正式定義了「自動化失敗歸因(Automated Failure Attribution)」這一研究課題。該研究成果已獲選為機器學習頂級會議 ICML 2025 的 Spotlight 發表項目。
首個基準資料集:Who&When
研究團隊建構了名為 Who&When 的基準資料集,這是目前首個針對多代理系統失敗歸因的評測標準。該資料集收錄了 127 個 LLM 多代理系統的失敗日誌,這些日誌包含演算法生成與專家手動編寫的案例,確保了數據的真實性與多樣性。每一筆失敗紀錄皆標註了以下關鍵資訊:
- Who: 導致失敗的具體代理。
- When: 發生決定性錯誤的互動步驟。
- Why: 導致失敗原因的自然語言解釋。
三種自動化歸因方法的實測表現
研究團隊利用 Who&When 資料集,測試了三種不同的自動化歸因方法:
1. All-at-Once(一次性歸因): 將完整的失敗日誌一次輸入 LLM 進行判斷。此方法成本最低,但在處理長上下文時,難以精確定位錯誤點。
2. Step-by-Step(逐步歸因): 模擬人工除錯,讓 LLM 逐一審查互動日誌。此法在定位錯誤步驟上更精確,但成本較高且存在錯誤累積風險。
3. Binary Search(二分搜尋): 透過將日誌不斷對半分割,由 LLM 判斷錯誤位於哪個區段。這是一種在成本與效能間取得平衡的策略。
研究發現:頂尖模型仍面臨挑戰
實驗結果顯示,即便使用 GPT-4o 等主流模型,目前的自動化歸因技術仍有極大的進步空間。研究指出,最佳單一方法的代理識別準確率僅約 53.5%,而精確定位錯誤步驟的準確率更低至 14.2%。
「即使是最先進的推理模型,如 OpenAI o1 和 DeepSeek R1,在面對此任務時仍感到吃力。」
研究進一步發現,上下文長度是影響準確度的關鍵因素,隨著日誌長度增加,所有方法的表現皆會下滑。此外,透過提示詞要求 LLM 進行「顯式推理(Explicit Reasoning)」能有效提升表現,而混合使用不同方法(如先用 All-at-Once 鎖定代理,再用 Step-by-Step 定位錯誤)雖能提升績效,卻伴隨著顯著的計算成本增加。



