AI 多代理系統崩潰誰該負責?賓州大學與 Duke 聯手打造「自動化歸因」新標準
編輯核心觀點
- ✦大型語言模型多代理系統協作複雜,一旦任務失敗,開發者往往難以從龐大日誌中找出錯誤源頭。
- ✦研究團隊定義「自動化失敗歸因」問題,並發布首個基準數據集 Who&When,旨在將除錯過程系統化。
- ✦實驗顯示即使是頂尖模型如 GPT-4o、o1 與 DeepSeek R1,在辨識錯誤代理與關鍵步驟上仍面臨極高挑戰。

多代理系統的除錯困境:大海撈針
隨著大型語言模型(LLM)驅動的多代理(Multi-Agent)系統在處理複雜任務時展現出強大協作潛力,開發者也面臨了嚴峻的技術挑戰。當系統在執行過程中失敗,開發者往往必須進行繁瑣的「手動日誌考古」,不僅耗時且高度依賴開發者的個人經驗。這種缺乏系統化診斷工具的現狀,成為阻礙系統迭代與可靠性提升的主要瓶頸。
定義新研究領域:自動化失敗歸因
為了克服上述障礙,來自賓州大學(Penn State University)與杜克大學(Duke University)的研究團隊,聯合 Google DeepMind 等機構,正式定義了「自動化失敗歸因(Automated Failure Attribution)」這一研究課題。這項研究已獲選為機器學習頂級會議 ICML 2025 的 Spotlight 發表項目。
研究團隊的核心貢獻在於構建了首個基準數據集 Who&When,該數據集收錄了 127 個 LLM 多代理系統的失敗日誌,並由專家進行細緻標註,明確定義了三個關鍵維度:
- Who(誰): 導致任務失敗的具體代理。
- When(何時): 觸發錯誤的關鍵互動步驟。
- Why(為何): 導致失敗的自然語言解釋。
三種自動化歸因方法的實測表現
研究團隊針對 Who&When 數據集評估了三種自動化歸因策略,並發現各具優劣:
- All-at-Once(一次性分析): 將完整日誌輸入模型,成本較低,但難以精確定位長上下文中的錯誤。
- Step-by-Step(逐步分析): 模擬人工除錯,逐步審查日誌,在定位「何時(When)」出錯時較精確,但成本高昂且存在錯誤累積風險。
- Binary Search(二分搜尋): 將日誌分段進行遞迴搜尋,在成本與精確度之間取得了平衡。
實驗結果:頂尖模型仍面臨挑戰
研究顯示,目前的自動化歸因技術距離完美仍有很大差距。在測試中,表現最好的單一方法在辨識責任代理時準確率僅約 53.5%,而在定位具體錯誤步驟時更低至 14.2%。
即使是 OpenAI o1 與 DeepSeek R1 等頂尖推理模型,在面對此項任務時也表現得相當吃力,這凸顯了自動化失敗歸因需要比一般任務更高層次的推理能力。
此外,研究發現隨著日誌上下文長度增加,所有方法的準確率皆會下降,且模型若能被要求「明確解釋推理過程」,其表現會有所提升。混合使用不同方法(如先用 All-at-Once 鎖定代理,再用 Step-by-Step 定位步驟)雖能改善結果,但會顯著增加運算成本。



