Anthropic 的 AI 安全防線惹議：Fable 5 秘密降級引發研究員反彈

秘密降級引發的信任危機

Anthropic 近期推出的 AI 模型 Fable 5 因其「秘密降級」機制在開發者與研究社群間引發強烈反彈。該模型作為 Anthropic 與各大科技巨頭合作的「Project Glasswing」計畫一部分，旨在修補網路基礎設施漏洞，但由於其具備強大潛力，Anthropic 對其施加了嚴格的防護措施。當用戶進行涉及前沿 AI 模型開發或高效能晶片設計等敏感任務時，系統會自動將模型從 Fable 降級至 Opus 等級，且在先前版本中，此過程完全隱而不宣。

雖然 Anthropic 在長達 319 頁的系統卡（System Card）中提及了此類降級行為，但由於未在用戶介面中即時顯示，導致許多研究人員在不知情的情況下，誤以為自己正在使用 Fable 的完整效能進行測試。

資安專家的擔憂：防禦與攻擊的雙面刃

SANS Institute 首席 AI 官兼研究主管 Rob T. Lee 指出，Fable 5 的防護機制雖然立意良善，卻可能產生反效果。他在嘗試建立數位鑑識技能時，發現模型被自動降級至 Opus 4.8。他表示：

Clever way to stop malicious actors or not, it keeps new defensive capability away from the people who will build the next generation of tooling.

Lee 強調，同樣的防護層在阻擋惡意攻擊的同時，也阻礙了防禦者開發新工具的能力。此外，Exabeam 資深威脅研究工程師 Sally Vincent 也提醒，針對 AI「越獄」的防禦聲明應持保留態度，因為攻擊者會持續演進，防禦結果僅代表當下的評估。

Anthropic 的回應與調整

面對外界批評，Anthropic 承認在平衡安全性與透明度上做出了錯誤的取捨。該公司宣布將調整 Fable 5 的防護機制，從本週開始，若請求觸發安全限制，系統將會明確顯示降級至 Opus 4.8 的原因，並在 API 回應中提供拒絕理由。

Anthropic 強調，這些限制主要是為了防止外國敵對勢力利用其模型進行高風險開發，例如優化非標準晶片或進行前沿 AI 資料管道處理。公司發言人表示，這類防護能確保美國及其盟友在晶片與軟體領域的領先優勢不被侵蝕。

IAPP AI 治理中心董事總經理 Ashley Casovan 則認為，Anthropic 選擇在確保安全防護到位後才釋出模型是正確的作法。Zero Networks 現場技術長 Chris Boehm 則指出，Anthropic 的成就並非僅在於模型本身的原始能力，而在於將其「馴服」至足以廣泛釋出的安全程度，這對於讓一般防禦者能以攻擊者的速度運作至關重要。

Anthropic 的 AI 安全防線惹議：Fable 5 秘密降級引發研究員反彈

編輯核心觀點

秘密降級引發的信任危機

資安專家的擔憂：防禦與攻擊的雙面刃

Anthropic 的回應與調整

資料來源

相關文章

Anthropic 新模型 Claude Fable 5 引發企業恐慌：AI 治理權力落入私人企業手中？

AI 寫程式太貴？開發者掀起「去雲端化」反叛，開源工具 Goose 挑戰 Claude Code 霸權

軟體巨頭的兩難：微軟為何對高效能 AI 模型 Claude Fable 5 設下使用禁令？

Anthropic 陷入「平台陷阱」：當 AI 模型開發商變身為客戶的競爭對手