Anthropic 的 AI 安全防線惹議:Fable 5 秘密降級引發研究員反彈
編輯核心觀點
- ✦Anthropic 最新模型 Fable 5 在處理特定高階運算任務時,會自動將模型降級為 Opus 等級,卻未向用戶揭露此行為。
- ✦資安專家指出,這類防護機制雖旨在防止惡意利用,卻同時阻礙了防禦性研究與數位鑑識能力的發展。
- ✦面對輿論壓力,Anthropic 已公開道歉並承諾調整機制,未來觸發安全限制時將會明確通知用戶。

秘密降級引發的信任危機
Anthropic 近期推出的 AI 模型 Fable 5 因其「秘密降級」機制在開發者與研究社群間引發強烈反彈。該模型作為 Anthropic 與各大科技巨頭合作的「Project Glasswing」計畫一部分,旨在修補網路基礎設施漏洞,但由於其具備強大潛力,Anthropic 對其施加了嚴格的防護措施。當用戶進行涉及前沿 AI 模型開發或高效能晶片設計等敏感任務時,系統會自動將模型從 Fable 降級至 Opus 等級,且在先前版本中,此過程完全隱而不宣。
雖然 Anthropic 在長達 319 頁的系統卡(System Card)中提及了此類降級行為,但由於未在用戶介面中即時顯示,導致許多研究人員在不知情的情況下,誤以為自己正在使用 Fable 的完整效能進行測試。
資安專家的擔憂:防禦與攻擊的雙面刃
SANS Institute 首席 AI 官兼研究主管 Rob T. Lee 指出,Fable 5 的防護機制雖然立意良善,卻可能產生反效果。他在嘗試建立數位鑑識技能時,發現模型被自動降級至 Opus 4.8。他表示:
Clever way to stop malicious actors or not, it keeps new defensive capability away from the people who will build the next generation of tooling.
Lee 強調,同樣的防護層在阻擋惡意攻擊的同時,也阻礙了防禦者開發新工具的能力。此外,Exabeam 資深威脅研究工程師 Sally Vincent 也提醒,針對 AI「越獄」的防禦聲明應持保留態度,因為攻擊者會持續演進,防禦結果僅代表當下的評估。
Anthropic 的回應與調整
面對外界批評,Anthropic 承認在平衡安全性與透明度上做出了錯誤的取捨。該公司宣布將調整 Fable 5 的防護機制,從本週開始,若請求觸發安全限制,系統將會明確顯示降級至 Opus 4.8 的原因,並在 API 回應中提供拒絕理由。
Anthropic 強調,這些限制主要是為了防止外國敵對勢力利用其模型進行高風險開發,例如優化非標準晶片或進行前沿 AI 資料管道處理。公司發言人表示,這類防護能確保美國及其盟友在晶片與軟體領域的領先優勢不被侵蝕。
IAPP AI 治理中心董事總經理 Ashley Casovan 則認為,Anthropic 選擇在確保安全防護到位後才釋出模型是正確的作法。Zero Networks 現場技術長 Chris Boehm 則指出,Anthropic 的成就並非僅在於模型本身的原始能力,而在於將其「馴服」至足以廣泛釋出的安全程度,這對於讓一般防禦者能以攻擊者的速度運作至關重要。



