Claude Fable 5 變笨了?其實是「過度敏感」的資安守門員在搞鬼
編輯核心觀點
- ✦Claude Fable 5 重啟後評價兩極,實測數據顯示效能並未下降,而是安全分類器過度攔截導致任務被轉移至舊模型。
- ✦BridgeBench 的測試分數因大量任務被強制轉向 Claude Opus 4.8 而暴跌,導致開發者誤以為模型能力退化。
- ✦Anthropic 已承認目前的資安防護機制過於保守,會誤判程式除錯任務,目前正持續優化但未給出明確時程。

Claude Fable 5 真的被「閹割」了嗎?
Claude Fable 5 在 7 月 1 日重新上線後,社群媒體上湧現大量批評,用戶紛紛指責模型表現「變笨」、「被閹割」或「無法使用」。然而,針對此現象的兩份權威評測報告卻給出了截然不同的結論:一份顯示效能嚴重崩跌,另一份則認為模型表現幾乎持平。
事實上,這兩份報告都沒有錯,關鍵在於 Anthropic 為該模型部署的全新安全分類器(Safety Classifier)。該機制在 Fable 5 重新上線時被強制啟用,旨在防堵先前被 Amazon 研究人員發現的「越獄」技術,防止模型識別並示範軟體漏洞。
評測數據的落差:是模型變差,還是被轉移了?
AI 評測平台 BridgeMind 進行的「BridgeBench」測試顯示,Fable 5 的除錯(Debugging)分數從 86.2 暴跌至 25.9,重構(Refactoring)與抗幻覺能力也顯著下滑。然而,這並非模型本身能力退化,而是因為在 12 項 TypeScript 除錯任務中,有 9 項被安全分類器攔截,並強制轉向 Claude Opus 4.8 執行。由於 BridgeBench 將任何非目標模型的回答視為零分,導致評測結果出現嚴重偏差。
相比之下,採用盲測人類偏好投票的 Arena.AI 則呈現不同面貌:
當 Fable 5 實際處理任務時,其表現與先前版本幾乎沒有差異,甚至在文件分析與專家文本類別中表現更佳。
Arena.AI 的數據顯示,前端程式碼的 Elo 分數僅有微幅波動,且在統計學誤差範圍內。這說明對於一般使用者而言,Fable 5 的體驗並未改變。
開發者的惡夢:資安防護的「誤判」代價
目前的爭議核心在於,安全分類器的攔截標準過於嚴格。任何涉及「漏洞」、「利用(exploit)」、「掛鉤(hook)」或「修復(fix)」等字眼的程式碼,極易被系統誤判為安全威脅,進而觸發轉向機制。這導致開發者在進行日常除錯時,頻繁遭遇模型被替換的狀況。
Anthropic 已公開承認目前的分類器範圍過大,會對常規的程式編寫與除錯任務產生「偽陽性」誤判。官方表示系統將隨時間推移進行調整,但針對何時能改善此問題,Anthropic 目前尚未給出具體的時間表。



