AI 多代理系統總是「集體擺爛」？賓州大學與 Duke 聯手開發自動化除錯機制

多代理系統的「除錯黑洞」

隨著大型語言模型（LLM）多代理系統（Multi-Agent Systems）在處理複雜任務上的應用日益廣泛，開發者面臨一個棘手的挑戰：當系統在協作過程中失敗時，往往難以判斷究竟是哪一個代理（Agent）在何時出了差錯。這種「大海撈針」式的除錯過程，不僅極度耗時，也嚴重阻礙了系統的迭代與優化。

為了突破此瓶頸，來自賓州大學（Penn State University）與杜克大學（Duke University）的研究團隊，聯合 Google DeepMind 等機構，正式定義了「自動化失敗歸因（Automated Failure Attribution）」這一研究課題。該研究成果已獲選為機器學習頂級會議 ICML 2025 的 Spotlight 發表項目。

首個基準資料集：Who&When

研究團隊建構了名為 Who&When 的基準資料集，這是目前首個針對多代理系統失敗歸因的評測標準。該資料集收錄了 127 個 LLM 多代理系統的失敗日誌，這些日誌包含演算法生成與專家手動編寫的案例，確保了數據的真實性與多樣性。每一筆失敗紀錄皆標註了以下關鍵資訊：

Who： 導致失敗的具體代理。
When： 發生決定性錯誤的互動步驟。
Why： 導致失敗原因的自然語言解釋。

三種自動化歸因方法的實測表現

研究團隊利用 Who&When 資料集，測試了三種不同的自動化歸因方法：

1. All-at-Once（一次性歸因）： 將完整的失敗日誌一次輸入 LLM 進行判斷。此方法成本最低，但在處理長上下文時，難以精確定位錯誤點。

2. Step-by-Step（逐步歸因）： 模擬人工除錯，讓 LLM 逐一審查互動日誌。此法在定位錯誤步驟上更精確，但成本較高且存在錯誤累積風險。

3. Binary Search（二分搜尋）： 透過將日誌不斷對半分割，由 LLM 判斷錯誤位於哪個區段。這是一種在成本與效能間取得平衡的策略。

研究發現：頂尖模型仍面臨挑戰

實驗結果顯示，即便使用 GPT-4o 等主流模型，目前的自動化歸因技術仍有極大的進步空間。研究指出，最佳單一方法的代理識別準確率僅約 53.5%，而精確定位錯誤步驟的準確率更低至 14.2%。

「即使是最先進的推理模型，如 OpenAI o1 和 DeepSeek R1，在面對此任務時仍感到吃力。」

研究進一步發現，上下文長度是影響準確度的關鍵因素，隨著日誌長度增加，所有方法的表現皆會下滑。此外，透過提示詞要求 LLM 進行「顯式推理（Explicit Reasoning）」能有效提升表現，而混合使用不同方法（如先用 All-at-Once 鎖定代理，再用 Step-by-Step 定位錯誤）雖能提升績效，卻伴隨著顯著的計算成本增加。

AI 多代理系統總是「集體擺爛」？賓州大學與 Duke 聯手開發自動化除錯機制

編輯核心觀點

多代理系統的「除錯黑洞」

首個基準資料集：Who&When

三種自動化歸因方法的實測表現

研究發現：頂尖模型仍面臨挑戰

資料來源

相關文章

AI 代理人「針」防不住？最新研究揭 GPT-5、Gemini 仍難逃提示詞注入攻擊

AI 代理人走出雲端！Moonshot AI 推 Kimi Work，讓 300 個子代理人直接在你的電腦上工作

足球數據革命：KU Leuven 實驗室如何用 AI 破解綠茵場上的隱形戰術？

OpenAI 收購 Ona，意圖讓 AI 寫程式從「單次對話」進化為「長期自主任務」