AI 實戰能力大崩盤:最新基準測試揭露模型處理複雜工作的真實極限
編輯核心觀點
- ✦最新 AA-Briefcase 基準測試顯示,頂尖 AI 模型在處理多週期知識型工作時,僅有 3% 的任務能完全達成所有要求。
- ✦模型效能存在明顯落差,強大模型雖能滿足基本需求,卻常在整合多來源資訊的細節上出現隱蔽性錯誤。
- ✦AI 處理單一任務的成本差距極大,從 DeepSeek V4 Flash 的 0.04 美元到 Claude Fable 5 的 31 美元,價差超過 800 倍。

AI 處理複雜工作的真實表現:僅 3% 任務達標
儘管大型語言模型在各類測試中頻頻取得高分,但面對真實世界的「知識型工作(knowledge work)」時,表現卻遠不如預期。根據 Artificial Analysis 推出的全新基準測試 AA-Briefcase,即使是目前表現最好的模型,在處理長達數週、涉及數千份碎片化來源檔案(如 Slack 訊息、電子郵件、會議記錄與大型數據導出檔)的專案時,能完全符合所有標準的任務比例僅有 3%。
這項測試揭露了 AI 在處理複雜專案時的嚴峻挑戰。在總計 91 項任務中,有 31 項任務顯示沒有任何模型能達到 50% 的完成度。目前測試中表現領先的為 Anthropic 的 Claude Fable 5,儘管其在評分標準中取得最高通過率,但若以「完全解決任務」作為嚴格標準,其成功率依然僅有 3%。
強大模型與弱小模型的錯誤模式差異
研究指出,隨著模型能力的提升,其犯錯的型態也隨之改變。較弱的模型通常在基礎執行階段就面臨崩潰,表現為遺漏相關檔案或產出無法使用的結果。相對地,較強的模型則會出現更隱蔽的失敗:它們往往能滿足顯而易見的需求,卻在需要整合多個來源資訊才能發現的細節上出錯。
成本結構的巨大鴻溝
除了效能表現,AI 在處理這些任務時的成本差異也極為驚人。根據測試數據,單一任務的執行成本差距超過 800 倍。其中,DeepSeek V4 Flash 的單次任務成本約為 0.04 美元,而表現最頂尖的 Claude Fable 5 則高達 31 美元以上。這種巨大的成本落差,反映了當前 AI 模型在處理複雜知識型任務時,不僅在準確度上存在瓶頸,在經濟效益的配置上也尚未達到成熟水準。



