AI 實戰能力大崩盤：最新基準測試揭露模型處理複雜工作的真實極限

AI 處理複雜工作的真實表現：僅 3% 任務達標

儘管大型語言模型在各類測試中頻頻取得高分，但面對真實世界的「知識型工作（knowledge work）」時，表現卻遠不如預期。根據 Artificial Analysis 推出的全新基準測試 AA-Briefcase，即使是目前表現最好的模型，在處理長達數週、涉及數千份碎片化來源檔案（如 Slack 訊息、電子郵件、會議記錄與大型數據導出檔）的專案時，能完全符合所有標準的任務比例僅有 3%。

這項測試揭露了 AI 在處理複雜專案時的嚴峻挑戰。在總計 91 項任務中，有 31 項任務顯示沒有任何模型能達到 50% 的完成度。目前測試中表現領先的為 Anthropic 的 Claude Fable 5，儘管其在評分標準中取得最高通過率，但若以「完全解決任務」作為嚴格標準，其成功率依然僅有 3%。

強大模型與弱小模型的錯誤模式差異

研究指出，隨著模型能力的提升，其犯錯的型態也隨之改變。較弱的模型通常在基礎執行階段就面臨崩潰，表現為遺漏相關檔案或產出無法使用的結果。相對地，較強的模型則會出現更隱蔽的失敗：它們往往能滿足顯而易見的需求，卻在需要整合多個來源資訊才能發現的細節上出錯。

成本結構的巨大鴻溝

除了效能表現，AI 在處理這些任務時的成本差異也極為驚人。根據測試數據，單一任務的執行成本差距超過 800 倍。其中，DeepSeek V4 Flash 的單次任務成本約為 0.04 美元，而表現最頂尖的 Claude Fable 5 則高達 31 美元以上。這種巨大的成本落差，反映了當前 AI 模型在處理複雜知識型任務時，不僅在準確度上存在瓶頸，在經濟效益的配置上也尚未達到成熟水準。

AI 實戰能力大崩盤：最新基準測試揭露模型處理複雜工作的真實極限

編輯核心觀點

AI 處理複雜工作的真實表現：僅 3% 任務達標

強大模型與弱小模型的錯誤模式差異

成本結構的巨大鴻溝

資料來源

相關文章

OpenRouter 推 Fusion API：用「AI 聯合艦隊」挑戰 Claude 5，成本砍半效能不打折

AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題

參數僅 3B 卻能挑戰千億級模型！微博團隊發表 VibeThinker-3B，揭開「推理特化」新路徑

美國商務部解除禁令，Anthropic AI 模型 Claude Fable 5 將於 7 月 1 日恢復服務