AI 多代理系統總是出包?賓州大學與 Duke 等團隊開發「自動故障歸因」技術,揪出幕後黑手
編輯核心觀點
- ✦大型語言模型多代理系統在協作時常發生任務失敗,開發者過去僅能透過人工檢視日誌,效率極低。
- ✦研究團隊定義了「自動故障歸因」問題,並推出首個基準數據集 Who&When,旨在精確定位失敗的代理與錯誤步驟。
- ✦實驗顯示即使是 GPT-4o 或 DeepSeek R1 等頂尖模型,在執行此任務時仍面臨挑戰,顯示該領域仍有大幅提升空間。

隨著大型語言模型(LLM)驅動的多代理(Multi-Agent)系統在處理複雜任務上展現巨大潛力,開發者卻面臨一個棘手的現實:當系統協作失敗時,往往難以追溯究竟是哪一個代理在什麼環節出了錯。這種「在大海撈針」的除錯過程,嚴重拖慢了系統迭代與優化的速度。
定義「自動故障歸因」:從人工除錯到系統化分析
為了突破這一瓶頸,來自賓州大學(Penn State University)與杜克大學(Duke University)的研究團隊,聯合 Google DeepMind、華盛頓大學、Meta 等機構,正式提出「自動故障歸因(Automated Failure Attribution)」這一研究課題。該研究已被機器學習頂級會議 ICML 2025 接收為 Spotlight 發表。
研究團隊指出,現有的除錯方式高度依賴開發者的經驗,必須手動審閱冗長的互動日誌,不僅耗時且極度缺乏效率。為了解決此問題,團隊建構了首個基準數據集 Who&When,該數據集包含 127 個 LLM 多代理系統的失敗日誌,並由專家進行細緻標註,明確指出:
- Who:導致任務失敗的責任代理。
- When:發生決定性錯誤的互動步驟。
- Why:導致失敗原因的自然語言解釋。
三種自動歸因方法的效能評估
研究團隊針對 Who&When 數據集,評估了三種自動化歸因策略:
All-at-Once:一次性提供所有日誌給 LLM 進行判斷,成本較低但難以處理長文本中的精確錯誤。
Step-by-Step:模擬人工除錯,逐步審閱互動日誌,精確度較高但成本昂貴且容易累積錯誤。
Binary Search:將日誌二分法遞迴搜尋,在成本與效能間取得平衡。
實驗結果顯示,目前的技術距離完美仍有長路。即便表現最好的單一方法,在識別責任代理的準確率僅約 53.5%,而定位具體錯誤步驟的準確率更低至 14.2%。研究發現,即使是 OpenAI o1 或 DeepSeek R1 等頂尖推理模型,面對此任務時依然感到吃力,這反映了自動故障歸因需要比一般任務更高層次的推理能力。
未來展望:提升系統可靠性的關鍵
研究指出,混合使用不同方法(例如先用 All-at-Once 鎖定代理,再用 Step-by-Step 定位錯誤)雖能提升效能,但會大幅增加運算成本。此外,隨著日誌長度增加,所有方法的準確度皆會顯著下降。該研究成果現已完全開源,為未來構建更可靠、具備高度可解釋性的多代理系統奠定了基礎。



