AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題

多代理系統的除錯困境：大海撈針

隨著大型語言模型（LLM）多代理（Multi-Agent）系統在複雜任務上的應用日益廣泛，開發者面臨一個棘手的挑戰：當系統執行失敗時，往往難以釐清究竟是哪一個代理（Agent）在哪個環節出了錯。由於代理間的自主協作與長資訊鏈特性，開發者過去只能依賴「人工日誌考古」，不僅耗時費力，更嚴重拖慢了系統迭代與優化的進程。

為了克服此瓶頸，來自賓州州立大學（Penn State University）與杜克大學（Duke University）的研究團隊，攜手 Google DeepMind、華盛頓大學、Meta 等機構，正式提出「自動化故障歸因（Automated Failure Attribution）」研究課題，並於機器學習頂級會議 ICML 2025 中發表相關成果。

首個基準測試集 Who&When

研究團隊建構了業界首個針對此任務的基準測試資料集 Who&When。該資料集收錄了 127 個 LLM 多代理系統的故障日誌，這些日誌包含演算法生成與專家手動編寫的案例，確保了場景的真實性與多樣性。每一筆故障紀錄皆包含詳細的人工標註，明確指出：

Who： 導致故障的責任代理。
When： 發生決定性錯誤的互動步驟。
Why： 關於故障原因的自然語言解釋。

三種自動化歸因方法的實測表現

研究團隊基於 Who&When 資料集，評估了三種自動化歸因策略，並發現各有利弊：

1. 一次性分析（All-at-Once）：將完整的故障日誌一次交由 LLM 分析。此方法成本較低，但在長文本中難以精確定位錯誤。

2. 逐步分析（Step-by-Step）：模擬人工除錯，逐步審查互動日誌。此法在定位錯誤步驟時精確度較高，但成本昂貴且存在錯誤累積風險。

3. 二分搜尋（Binary Search）：將日誌反覆對半分割，由 LLM 判斷錯誤所在的區段。這是一種在成本與效能間取得平衡的折衷方案。

實驗結果顯示，目前的技術距離完美仍有相當距離。即便表現最好的單一方法，在識別責任代理的準確率上也僅達 53.5%，而精確定位錯誤步驟的準確率更低至 14.2%。研究指出，即使是 OpenAI o1 或 DeepSeek R1 等頂尖推理模型，在處理此任務時仍顯得吃力，顯示自動化故障歸因需要比一般任務更高層次的推理能力。

此外，研究發現若要求 LLM 在分析時同時輸出「推理過程（Explicit Reasoning）」，能有效提升表現。然而，隨著日誌上下文長度增加，所有歸因方法的效能皆會下降，特別是在定位錯誤步驟時影響最為顯著。

AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題

編輯核心觀點

多代理系統的除錯困境：大海撈針

首個基準測試集 Who&When

三種自動化歸因方法的實測表現

資料來源

相關文章

參數僅 3B 卻能挑戰千億級模型！微博團隊發表 VibeThinker-3B，揭開「推理特化」新路徑

諾貝爾獎得主出走！AlphaFold 核心推手 John Jumper 離開 Google DeepMind 加入 Anthropic

Google AI 影像生成器殺價搶市：極速、超低價背後，是與好萊塢的矛盾與「AI 劣質內容」的挑戰

NVIDIA 發表 SpatialClaw：讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題