Anthropic 陷信任危機：Claude Fable 5 隱蔽式防護遭批「敵意」，研究員火速破解

隱蔽式限制引發學術界反彈

人工智慧公司 Anthropic 近期發布了基於強大 Mythos 系統的新模型 Claude Fable 5，卻因其內建的「隱蔽防護機制」引發軒然大波。研究人員發現，當使用者嘗試進行訓練競爭模型、除錯 AI 程式碼或優化神經架構等任務時，Fable 5 會在未經告知的情況下，自動將請求導向效能較差的模型，導致輸出品質下降。此舉不僅讓研究人員白白消耗了算力與資金，更因缺乏透明度而遭到強烈批評。

普林斯頓大學 AI 研究員 Sayash Kapoor 接受《華爾街日報》採訪時表示：「這是 AI 公司首次推出防護機制卻引發一致的蔑視，這導致了許多合理的憤怒。」研究員 Dean W. Ball 也在 X（前身為 Twitter）上直言，在未告知用戶的情況下降低機器學習研究的效能，是一種「令人震驚的敵意行為」。

Anthropic 承諾提高透明度

面對輿論壓力，Anthropic 向《Wired》表示將調整 Fable 5 的安全政策。公司聲明指出：「我們做出了錯誤的權衡，並為未能取得適當平衡而道歉。」Anthropic 強調，未來若系統偵測到用戶試圖開發高能力 AI，將會明確通知用戶，並清楚告知該請求是被拒絕，還是被導向了能力較低的模型，而非再以隱蔽方式處理。

安全防線遭「越獄」破解

儘管 Anthropic 在發布前宣稱已進行超過 1,000 小時的外部漏洞賞金測試，且未發現通用越獄方法，但知名 AI 與資安研究員「Pliny the Liberator」宣稱，在 Fable 5 發布後僅 48 小時內即成功繞過其安全防護。Pliny 指出，他透過 Unicode 與同形異義字、長上下文框架、敘事與虛構情境，以及學術風格的「分解與重組（decomposition-recomposition）」技術，成功讓模型回應受限的指令。