AI 多代理系統頻頻出錯?賓州大學與 Duke 等頂尖團隊提出「自動化故障歸因」新解方
編輯核心觀點
- ✦大型語言模型多代理系統因協作複雜,導致除錯極度困難,研究團隊正式定義「自動化故障歸因」任務以解決此痛點。
- ✦團隊發布首個基準數據集 Who&When,涵蓋 127 個系統的故障日誌,並評估了三種自動化歸因方法。
- ✦實驗顯示即使是 GPT-4o 或 DeepSeek R1 等頂尖模型,在精確定位錯誤步驟的準確率仍偏低,證明此任務具高度挑戰性。

多代理系統的除錯困境:大海撈針
隨著大型語言模型(LLM)驅動的「多代理系統(Multi-Agent Systems)」在解決複雜問題上展現潛力,開發者卻面臨一項棘手挑戰:當系統執行失敗時,往往難以追溯是哪一個代理(Agent)在何時犯錯。這種「代理間協作」與「長資訊鏈」的特性,使得傳統的除錯方式——如手動審閱冗長的互動日誌——不僅耗時,且高度依賴開發者的個人經驗,嚴重拖慢了系統的迭代與優化速度。
定義「自動化故障歸因」
為了克服此瓶頸,來自賓州大學(Penn State University)、杜克大學(Duke University)的研究團隊,攜手 Google DeepMind 等機構,正式提出「自動化故障歸因(Automated Failure Attribution)」研究課題。該研究已獲選為機器學習頂級會議 ICML 2025 的 Spotlight 發表項目。
研究團隊的核心貢獻包括:
- 建立首個基準數據集 Who&When:該數據集包含 127 個多代理系統的故障日誌,由演算法生成或專家手動編撰,並針對「誰(Who)負責」、「何時(When)出錯」以及「為什麼(Why)出錯」進行了細緻的人工標註。
- 評估三種自動化歸因方法:
1. All-at-Once:將完整日誌一次性交給 LLM 判斷,成本低但難以處理長文本中的精確錯誤。
2. Step-by-Step:模擬人工除錯,逐步審查互動過程,精確度較高但成本昂貴且存在誤差累積風險。
3. Binary Search:採取二分法遞迴搜尋錯誤區段,在成本與效能間取得平衡。
實驗結果:頂尖模型仍面臨挑戰
研究針對 GPT-4o、OpenAI o1 及 DeepSeek R1 等模型進行測試,結果顯示該任務的難度遠超預期。數據指出,目前表現最好的單一方法在識別責任代理時,準確率僅約 53.5%,而在定位確切錯誤步驟時,準確率更低至 14.2%。
「即使是目前最強大的推理模型,在處理自動化故障歸因時仍顯得吃力,這凸顯了該任務需要比傳統任務更高層次的推理能力。」
研究發現,雖然混合使用不同方法(如先用 All-at-Once 定位代理,再用 Step-by-Step 尋找錯誤)可提升表現,但會顯著增加運算成本。此外,隨著日誌上下文長度增加,所有方法的準確率皆會下降。這項研究為提升多代理系統的可靠性開闢了新路,將除錯過程從「憑感覺的謎團」轉化為可量化、可分析的科學問題。



