AI 多代理系統頻頻出包?賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題
編輯核心觀點
- ✦大型語言模型多代理系統在協作時常發生故障,開發者過往僅能透過人工檢視日誌進行除錯,效率極低。
- ✦研究團隊定義了「自動化故障歸因」任務,並推出首個基準測試資料集 Who&When,旨在精確定位故障代理與錯誤步驟。
- ✦實驗顯示,即使是 GPT-4o 或 DeepSeek R1 等頂尖模型,在執行此任務時仍面臨挑戰,精確定位錯誤步驟的準確率僅約 14.2%。

多代理系統的除錯困境:大海撈針
隨著大型語言模型(LLM)多代理(Multi-Agent)系統在複雜任務上的應用日益廣泛,開發者面臨一個棘手的挑戰:當系統執行失敗時,往往難以釐清究竟是哪一個代理(Agent)在哪個環節出了錯。由於代理間的自主協作與長資訊鏈特性,開發者過去只能依賴「人工日誌考古」,不僅耗時費力,更嚴重拖慢了系統迭代與優化的進程。
為了克服此瓶頸,來自賓州州立大學(Penn State University)與杜克大學(Duke University)的研究團隊,攜手 Google DeepMind、華盛頓大學、Meta 等機構,正式提出「自動化故障歸因(Automated Failure Attribution)」研究課題,並於機器學習頂級會議 ICML 2025 中發表相關成果。
首個基準測試集 Who&When
研究團隊建構了業界首個針對此任務的基準測試資料集 Who&When。該資料集收錄了 127 個 LLM 多代理系統的故障日誌,這些日誌包含演算法生成與專家手動編寫的案例,確保了場景的真實性與多樣性。每一筆故障紀錄皆包含詳細的人工標註,明確指出:
- Who: 導致故障的責任代理。
- When: 發生決定性錯誤的互動步驟。
- Why: 關於故障原因的自然語言解釋。
三種自動化歸因方法的實測表現
研究團隊基於 Who&When 資料集,評估了三種自動化歸因策略,並發現各有利弊:
1. 一次性分析(All-at-Once):將完整的故障日誌一次交由 LLM 分析。此方法成本較低,但在長文本中難以精確定位錯誤。
2. 逐步分析(Step-by-Step):模擬人工除錯,逐步審查互動日誌。此法在定位錯誤步驟時精確度較高,但成本昂貴且存在錯誤累積風險。
3. 二分搜尋(Binary Search):將日誌反覆對半分割,由 LLM 判斷錯誤所在的區段。這是一種在成本與效能間取得平衡的折衷方案。
實驗結果顯示,目前的技術距離完美仍有相當距離。即便表現最好的單一方法,在識別責任代理的準確率上也僅達 53.5%,而精確定位錯誤步驟的準確率更低至 14.2%。研究指出,即使是 OpenAI o1 或 DeepSeek R1 等頂尖推理模型,在處理此任務時仍顯得吃力,顯示自動化故障歸因需要比一般任務更高層次的推理能力。
此外,研究發現若要求 LLM 在分析時同時輸出「推理過程(Explicit Reasoning)」,能有效提升表現。然而,隨著日誌上下文長度增加,所有歸因方法的效能皆會下降,特別是在定位錯誤步驟時影響最為顯著。


