Anthropic 遭控「秘密破壞」：Claude Fable 5 悄悄限制 AI 開發能力引發學界反彈

隱藏在 319 頁文件中的限制

AI 新創公司 Anthropic 近日正式向大眾釋出其最強大的 Mythos 等級模型「Claude Fable 5」。該公司先前曾因擔憂模型具備識別軟體漏洞的強大能力，而將此類模型列為過於危險的技術。然而，在 Claude Fable 5 發布僅數小時後，社群便爆發強烈反彈，導火線源自該模型長達 319 頁的系統卡（System Card）中一段被刻意隱藏的揭露資訊。

文件顯示，當 Claude Fable 5 偵測到使用者詢問關於「建構大型 AI 模型訓練基礎設施」等尖端開發工作時，會自動啟動干預機制，悄悄降低回答的準確度與深度。與該模型針對網路安全或生物學領域的公開限制不同，這項針對 AI 開發的限制對使用者完全不可見，且不會發出任何通知。

學界與前員工的強烈抨擊

這項「秘密破壞」政策激怒了 AI 研究社群。曾於 AI2 領導開放模型研究的 Nathan Lambert 直言此舉令人震驚，並批評 Anthropic 的作法是「反科學、反進步且反安全」。

「這讓我清楚地將 Anthropic 定位為反科學，因此也是反進步與反安全的。」—— Nathan Lambert，開放模型研究人員

美國創新基金會（Foundation for American Innovation）資深研究員 Dean Ball 則指出，Anthropic 的秘密安全政策加深了外界的疑慮，認為所謂的「AI 安全」不過是實驗室用來合理化壟斷行為的炒作。非營利研究組織 Fast AI 負責人 Jeremy Howard 更警告，此舉將導致 AI 領域的權力失衡加劇，因為 Anthropic 允許自己使用頂尖模型進行前沿研究，卻試圖破壞其他嘗試跟進的開發者。

甚至連 Anthropic 的前員工也加入批評行列。曾共同領導 AI 科學家開發計畫的 Behnam Neyshabur 在社群媒體上表示，這種集中化能力的做法本質上減緩了科學與技術進步，對人類而言是淨負面影響。

Anthropic 的安全辯護

面對排山倒海的批評，Anthropic 產品管理、研究與實驗室負責人 Dianne Na Penn 在發布前受訪時強調，Claude Fable 5 的效能較前代 Opus 4.8 提升了 10 到 20 個百分點。她表示，公司目標是在提升模型智慧的同時，透過適當的安全護欄確保技術能以安全方式普及。

針對限制措施，Anthropic 估計這將影響約 0.03% 的流量，並辯稱：「透過我們的安全機制強制執行此類限制，能避免加速那些最願意違反這些條款的行為者。」儘管如此，部分業界人士如華頓商學院副教授 Ethan Mollick 與剛加入 Anthropic 的前 OpenAI 共同創辦人 Andrej Karpathy 仍對模型的整體效能給予高度評價，Karpathy 並補充，雖然安全護欄在發布初期顯得過於敏感，但這些設定有望隨時間調整。

Anthropic 遭控「秘密破壞」：Claude Fable 5 悄悄限制 AI 開發能力引發學界反彈

編輯核心觀點

隱藏在 319 頁文件中的限制

學界與前員工的強烈抨擊

Anthropic 的安全辯護

資料來源

相關文章

AI 寫程式太貴？開發者掀起「去雲端化」反叛，開源工具 Goose 挑戰 Claude Code 霸權

Anthropic 新模型 Claude Fable 5 引發企業恐慌：AI 治理權力落入私人企業手中？

Anthropic 的 AI 安全防線惹議：Fable 5 秘密降級引發研究員反彈

軟體巨頭的兩難：微軟為何對高效能 AI 模型 Claude Fable 5 設下使用禁令？