AI 多代理系統頻頻出錯？賓州大學與 Duke 等頂尖團隊提出「自動化故障歸因」新解方

多代理系統的除錯困境：大海撈針

隨著大型語言模型（LLM）驅動的「多代理系統（Multi-Agent Systems）」在解決複雜問題上展現潛力，開發者卻面臨一項棘手挑戰：當系統執行失敗時，往往難以追溯是哪一個代理（Agent）在何時犯錯。這種「代理間協作」與「長資訊鏈」的特性，使得傳統的除錯方式——如手動審閱冗長的互動日誌——不僅耗時，且高度依賴開發者的個人經驗，嚴重拖慢了系統的迭代與優化速度。

定義「自動化故障歸因」

為了克服此瓶頸，來自賓州大學（Penn State University）、杜克大學（Duke University）的研究團隊，攜手 Google DeepMind 等機構，正式提出「自動化故障歸因（Automated Failure Attribution）」研究課題。該研究已獲選為機器學習頂級會議 ICML 2025 的 Spotlight 發表項目。

研究團隊的核心貢獻包括：

建立首個基準數據集 Who&When：該數據集包含 127 個多代理系統的故障日誌，由演算法生成或專家手動編撰，並針對「誰（Who）負責」、「何時（When）出錯」以及「為什麼（Why）出錯」進行了細緻的人工標註。
評估三種自動化歸因方法：
1. All-at-Once：將完整日誌一次性交給 LLM 判斷，成本低但難以處理長文本中的精確錯誤。

2. Step-by-Step：模擬人工除錯，逐步審查互動過程，精確度較高但成本昂貴且存在誤差累積風險。

3. Binary Search：採取二分法遞迴搜尋錯誤區段，在成本與效能間取得平衡。

實驗結果：頂尖模型仍面臨挑戰

研究針對 GPT-4o、OpenAI o1 及 DeepSeek R1 等模型進行測試，結果顯示該任務的難度遠超預期。數據指出，目前表現最好的單一方法在識別責任代理時，準確率僅約 53.5%，而在定位確切錯誤步驟時，準確率更低至 14.2%。

「即使是目前最強大的推理模型，在處理自動化故障歸因時仍顯得吃力，這凸顯了該任務需要比傳統任務更高層次的推理能力。」

研究發現，雖然混合使用不同方法（如先用 All-at-Once 定位代理，再用 Step-by-Step 尋找錯誤）可提升表現，但會顯著增加運算成本。此外，隨著日誌上下文長度增加，所有方法的準確率皆會下降。這項研究為提升多代理系統的可靠性開闢了新路，將除錯過程從「憑感覺的謎團」轉化為可量化、可分析的科學問題。

AI 多代理系統頻頻出錯？賓州大學與 Duke 等頂尖團隊提出「自動化故障歸因」新解方

編輯核心觀點

多代理系統的除錯困境：大海撈針

定義「自動化故障歸因」

實驗結果：頂尖模型仍面臨挑戰

資料來源

相關文章

AI 多代理系統總是「集體擺爛」？賓州大學與 Duke 聯手開發自動化除錯機制

Perplexity 大升級！Deep Research 導入「程式碼驅動搜尋」，串聯 20 款 AI 模型自動產出報表

AI 代理人「針」防不住？最新研究揭 GPT-5、Gemini 仍難逃提示詞注入攻擊

AI 代理人走出雲端！Moonshot AI 推 Kimi Work，讓 300 個子代理人直接在你的電腦上工作