返回首頁

AI 多代理系統頻頻出包?賓州大學與 Duke 聯手開發「自動化故障歸因」技術

編輯核心觀點

  • 大型語言模型多代理系統協作複雜,一旦任務失敗,開發者往往難以從龐大日誌中定位錯誤源頭。
  • 研究團隊正式定義「自動化故障歸因」問題,並推出首個基準測試資料集 Who&When,旨在量化並分析系統失敗原因。
  • 實驗顯示,即便是 GPT-4o 或 DeepSeek R1 等頂尖模型,在識別錯誤代理與關鍵步驟上的表現仍有極大提升空間。
AI 多代理系統頻頻出包?賓州大學與 Duke 聯手開發「自動化故障歸因」技術

隨著大型語言模型(LLM)驅動的「多代理系統(Multi-Agent Systems)」在解決複雜任務上展現潛力,開發者也面臨了一項棘手挑戰:當系統協作失敗時,究竟是哪一個代理(Agent)在什麼時間點出了錯?由於代理間的自主協作與長資訊鏈特性,目前的除錯過程多仰賴開發者手動翻閱冗長的互動日誌,不僅耗時且極度依賴人工經驗。

定義「自動化故障歸因」:從大海撈針到系統化分析

為了改善此現狀,來自賓州大學(Penn State University)與杜克大學(Duke University)的研究團隊,聯合 Google DeepMind 等機構,正式提出了「自動化故障歸因(Automated Failure Attribution)」這一研究課題。該研究已被機器學習頂級會議 ICML 2025 錄取為 Spotlight 發表。

研究團隊構建了業界首個基準測試資料集 Who&When,收錄了來自 127 個多代理系統的故障日誌,並由專家進行細緻標註,包含:

  • Who:對失敗負有責任的代理。
  • When:導致任務失敗的關鍵互動步驟。
  • Why:對失敗原因的自然語言解釋。

三種除錯方法的效能評測

研究團隊針對自動化歸因設計了三種方法,並以 GPT-4o 為主要模型進行評估:

  • All-at-Once:將完整日誌一次性交給 LLM 判斷。此法成本最低,但在長文本中定位精確錯誤的能力較弱。
  • Step-by-Step:模擬人工除錯,逐步審查互動日誌。此法在定位「何時(When)」出錯時更精確,但成本較高且存在錯誤累積風險。
  • Binary Search(二分搜尋):將日誌不斷對半分割,遞迴尋找錯誤區段。這是一種在成本與效能間取得平衡的折衷方案。

實驗結果:頂尖模型仍面臨挑戰

研究發現,即便使用當前最先進的模型,自動化故障歸因依然困難重重。實驗數據顯示,表現最好的單一方法在識別責任代理上的準確率僅約 53.5%,而在定位確切錯誤步驟上,準確率更低至 14.2%。

即使是 OpenAI o1 與 DeepSeek R1 等具備強大推理能力的模型,在處理此類任務時仍顯得吃力,這凸顯了故障歸因任務對推理深度的高要求。

此外,研究指出混合策略(如先用 All-at-Once 鎖定代理,再用 Step-by-Step 定位步驟)雖能提升效能,但會大幅增加運算成本。同時,隨著日誌上下文長度增加,所有方法的準確率均呈現下滑趨勢。該研究的程式碼與資料集目前已全數開源,為提升多代理系統的可靠性與可解釋性提供了基礎。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章