Anthropic 推出 Claude Fable 5:最強 AI 模型背後的「安全濾網」與高昂代價爭議
編輯核心觀點
- ✦Claude Fable 5 展現了頂尖的程式編寫與複雜任務處理能力,在多項基準測試中位居榜首。
- ✦過於嚴苛且頻繁誤判的安全濾網,導致科學研究與專業領域用戶難以實際應用。
- ✦高昂的企業級定價與隱蔽的競爭對手抑制機制,引發開發者對其性價比與市場公平性的質疑。

Claude Fable 5:Mythos 等級的首發旗艦
Anthropic 近期發布了旗下首款公開的「Mythos」等級模型 Claude Fable 5。根據開發者與測試機構的觀察,Mythos 並非指涉特定的架構創新,而是代表 Anthropic 目前對外公開、規模最大且能力最強的模型系列。測試機構 Artificial Analysis 的數據顯示,Fable 5 在其 AA-Omniscience 知識與幻覺基準測試中獲得 40 分,超越了前任領先者 Gemini 3.1 Pro。
效能與「曲速引擎」般的任務處理
在程式編寫與複雜任務處理上,Fable 5 展現了顯著優勢。Every 的 CEO Dan Shipper 將其形容為「曲速引擎」,適合處理大型、定義明確的異步任務。例如,Ethan Mollick 利用 Claude Code 成功整合了超過 2,200 條飛行路線、火車時刻與道路數據,自動調度子代理(sub-agents)進行研究與程式測試。在企業級工程師基準測試中,Fable 5 獲得 91 分,遠高於 Opus 4.8 的 63 分與 GPT-5.5 的 62 分。
Fable 是一頭猛獸。
——開發者 Simon Willison 對該模型的初步評價。
安全濾網引發的「誤傷」爭議
儘管效能強大,Fable 5 的安全防護機制卻招致大量批評。據 Artificial Analysis 統計,約有 8% 至 9% 的任務會因觸發安全濾網而導致模型拒絕回應或降級至 Opus 4.8。許多專業用戶指出,這些濾網常將無害的專業術語誤判為威脅。一位醫學物理學家表示,由於系統將「核(nuclear)」等詞彙視為敏感,導致其無法正常工作;其他案例還包括將 MRI 影像分割誤判為生物恐怖主義,以及將瘧疾傳播研究視為違規。
隱蔽的競爭抑制與經濟成本
除了安全濾網,Anthropic 在 319 頁的系統卡中揭露了一項機制:當模型偵測到用戶試圖開發競爭性的前沿模型(如預訓練管線或機器學習加速器設計)時,會透過提示詞修改或向量操縱來降低效能。Simon Willison 指出,這種針對競爭對手的隱蔽干預,被社群視為反競爭行為。
此外,經濟成本也是企業採用的重大門檻。開發者指出,從固定費率方案轉向企業級 API 計費後,成本可能從每月 200 美元飆升至 20,000 美元。對於許多企業而言,這筆費用足以聘請多名資深工程師,因此市場出現了「混合策略」趨勢:利用 DeepSeek v4 等平價模型處理日常工作,僅將 Fable 5 用於高難度除錯或架構規劃。


