AI 多代理系統頻頻出包？賓州大學與 Duke 聯手開發「自動化故障歸因」技術

隨著大型語言模型（LLM）驅動的「多代理系統（Multi-Agent Systems）」在解決複雜任務上展現潛力，開發者也面臨了一項棘手挑戰：當系統協作失敗時，究竟是哪一個代理（Agent）在什麼時間點出了錯？由於代理間的自主協作與長資訊鏈特性，目前的除錯過程多仰賴開發者手動翻閱冗長的互動日誌，不僅耗時且極度依賴人工經驗。

定義「自動化故障歸因」：從大海撈針到系統化分析

為了改善此現狀，來自賓州大學（Penn State University）與杜克大學（Duke University）的研究團隊，聯合 Google DeepMind 等機構，正式提出了「自動化故障歸因（Automated Failure Attribution）」這一研究課題。該研究已被機器學習頂級會議 ICML 2025 錄取為 Spotlight 發表。

研究團隊構建了業界首個基準測試資料集 Who&When，收錄了來自 127 個多代理系統的故障日誌，並由專家進行細緻標註，包含：

Who：對失敗負有責任的代理。
When：導致任務失敗的關鍵互動步驟。
Why：對失敗原因的自然語言解釋。

三種除錯方法的效能評測

研究團隊針對自動化歸因設計了三種方法，並以 GPT-4o 為主要模型進行評估：

All-at-Once：將完整日誌一次性交給 LLM 判斷。此法成本最低，但在長文本中定位精確錯誤的能力較弱。
Step-by-Step：模擬人工除錯，逐步審查互動日誌。此法在定位「何時（When）」出錯時更精確，但成本較高且存在錯誤累積風險。
Binary Search（二分搜尋）：將日誌不斷對半分割，遞迴尋找錯誤區段。這是一種在成本與效能間取得平衡的折衷方案。

實驗結果：頂尖模型仍面臨挑戰

研究發現，即便使用當前最先進的模型，自動化故障歸因依然困難重重。實驗數據顯示，表現最好的單一方法在識別責任代理上的準確率僅約 53.5%，而在定位確切錯誤步驟上，準確率更低至 14.2%。

即使是 OpenAI o1 與 DeepSeek R1 等具備強大推理能力的模型，在處理此類任務時仍顯得吃力，這凸顯了故障歸因任務對推理深度的高要求。

此外，研究指出混合策略（如先用 All-at-Once 鎖定代理，再用 Step-by-Step 定位步驟）雖能提升效能，但會大幅增加運算成本。同時，隨著日誌上下文長度增加，所有方法的準確率均呈現下滑趨勢。該研究的程式碼與資料集目前已全數開源，為提升多代理系統的可靠性與可解釋性提供了基礎。

AI 多代理系統頻頻出包？賓州大學與 Duke 聯手開發「自動化故障歸因」技術

編輯核心觀點

定義「自動化故障歸因」：從大海撈針到系統化分析

三種除錯方法的效能評測

實驗結果：頂尖模型仍面臨挑戰

資料來源

相關文章

AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題

參數僅 3B 卻能挑戰千億級模型！微博團隊發表 VibeThinker-3B，揭開「推理特化」新路徑

NVIDIA 發表 SpatialClaw：讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題

AI 實戰能力大崩盤：最新基準測試揭露模型處理複雜工作的真實極限