最強AI僅存活三天：Anthropic Fable 5 遭美國政府勒令下架，AI 競賽版圖驟變

人工智慧領域的競爭版圖，在短短三天內經歷了一場戲劇性的轉變。Anthropic 公司於 6 月 9 日發布了其首款 Mythos 等級的公開模型 Fable 5，該模型在多項關鍵基準測試中展現出超越 OpenAI GPT 5.5 的驚人實力。然而，僅僅三天後，美國政府便於 6 月 12 日發布出口管制指令，勒令 Anthropic 立即將 Fable 5 及其更廣泛的 Mythos 5 模型家族下架，讓這款被譽為「有史以來最強大」的 AI 模型，在公眾視野中曇花一現。

Fable 5 的驚人實力與短暫輝煌

Fable 5 在其短暫的公開期間，迅速在多個重要指標上證明了其領先地位。在衡量模型解決開源程式碼庫中真實軟體工程問題能力的 SWE-Bench Pro 基準測試中，Fable 5 獲得 80.3% 的分數，遠高於 GPT 5.5 的 58.6%，兩者之間有著 22 個百分點的顯著差距。在 SWE-Bench Verified 這個經過篩選的子集測試中，Fable 5 更達到 95.0% 的高分。

程式碼相關的基準測試也呈現類似結果。Fable 5 在 Code Arena 領先 GPT 5.5 達 98 個 Elo 點，分數為 1,665 對 1,501。針對最困難程式設計任務的 FrontierCode Diamond 測試，Fable 5 取得 29.3%，而 GPT 5.5 僅為 5.7%。在更廣泛的 Chatbot Arena 排行榜上，Fable 5 穩居榜首，GPT 5.5 則位居第四。

Fable 5 的技術規格也令人印象深刻，它提供了一百萬個 token 的上下文視窗和 128,000 個輸出 token。Anthropic 原計劃向 Pro、Max、Team 和 Enterprise 訂閱用戶提供免費使用至 6 月 22 日的推廣期，但這項政府指令讓推廣期在三天後戛然而止。

儘管 Fable 5 表現卓越，GPT 5.5 仍有其優勢領域。在評估互動式終端程式碼任務的 Terminal-Bench 2.0 測試中，GPT 5.5 獲得 82.7%，Fable 5 約為 88.0%，差距較小。此外，GPT 5.5 在價格上更具競爭力，每百萬輸入 token 5 美元，輸出 token 30 美元，約是 Fable 5（輸入 10 美元，輸出 50 美元）的一半。對於性能差異不那麼關鍵而成本敏感的應用開發者而言，GPT 5.5 仍是務實的選擇。

政府介入：出口管制指令與「越獄」爭議

美國政府於 6 月 12 日發出的出口管制指令，成為 Fable 5 下架的直接原因。根據 Anthropic 的說法，該指令援引國家安全權力，禁止任何外國國民（無論身在美國境內或境外）存取 Fable 5 和 Mythos 5，甚至包括 Anthropic 自己的外國籍員工。由於 Anthropic 無法即時區分美國用戶與外國國民，為確保合規，公司不得不全面停用這兩款模型。

政府聲稱停用理由是存在「越獄」漏洞，即繞過模型安全防護以引發被限制行為的方法。據報導，有另一家公司宣稱已成功「越獄」Mythos 模型，此說法引發了官員對潛在國家安全風險的擔憂。有消息指出，亞馬遜執行長安迪·賈西（Andy Jassy）在觸發政府審查的過程中扮演了一定角色。

然而，Anthropic 對此提出異議。公司在公開聲明中表示，所識別出的漏洞是輕微且公開已知的，並且在 GPT 5.5 等其他公開模型上也無需任何繞過技術即可實現。Anthropic 認為，政府的指令與其所稱的漏洞嚴重性不成比例，並稱這可能是一場誤解。公司強調，這種「越獄」技術範圍狹窄且不具普遍性，主要涉及要求模型閱讀程式碼庫並修復缺陷。Anthropic 警告，若以此標準全面召回模型，將可能阻礙整個產業的新模型部署。

Anthropic 的防護機制與業界影響

作為 Mythos 等級模型，Fable 5 採用了多層次的防護策略以確保其安全。它配備了獨立的 AI 分類器系統，用於偵測網絡安全、生物與化學、以及「蒸餾」（distillation）等領域的潛在濫用查詢。一旦查詢被標記，Fable 5 會自動回退至 Claude Opus 4.8 處理，並通知用戶。Anthropic 表示，回退情況僅發生在不到 5% 的會話中。

公司還實施了「深度防禦」策略，旨在使「越獄」變得困難或成本高昂，並透過 30 天的數據保留來偵測新型攻擊（這些數據不會用於訓練新模型）。在發布前，Anthropic 投入數千小時與美國政府、英國 AI 安全研究所（UK AISI）及外部組織進行紅隊測試。一項外部漏洞懸賞計畫在超過 1,000 小時的測試中，也未能發現任何廣泛繞過安全防護的「通用越獄」方法。

Fable 5 的下架對早期採用者和研究人員造成了直接影響。許多開發者和研究人員被迫回歸使用 GPT 5.5 或 Anthropic 較早的 Opus 模型。對於依賴程式碼的複雜工作流程而言，這是一次顯著的「降級」。例如，在 SWE-Bench Pro 上 22 個百分點的差距，意味著模型解決真實世界軟體問題的能力，從五分之四下降到約五分之三。

許多實際應用案例因此中斷。Stripe 曾利用 Fable 5 將數個月的工程工作壓縮至數天，成功在一個擁有 5,000 萬行 Ruby 程式碼的基礎上進行了全面的程式碼遷移。在金融領域，Hebbia 將 Fable 5 評為其基準測試中的最高分。在視覺應用方面，Fable 5 能夠從螢幕截圖重建網頁應用程式的程式碼，甚至僅憑視覺介面就成功玩通了《寶可夢火紅》。此外，Mythos 5 透過「玻璃之翼計畫」（Project Glasswing）推動科學研究，內部專家將藥物設計的部分流程加速了約十倍，Mozilla 等合作夥伴也利用 Mythos 級模型修復了數百個軟體漏洞，這些防禦性工作目前都因下架而暫停。

AI 競賽的意外插曲與未來展望

Fable 5 的意外退場，讓 OpenAI 的 GPT 5.5 意外地成為市場上最強大的可用模型，並非因為其自身性能提升，而是因為唯一的真正競爭對手被移除。這場事件凸顯了 AI 領域在快速發展的同時，也面臨著日益複雜的監管挑戰，特別是涉及國家安全和出口管制的問題。

Fable 5 是否能重返市場，將取決於 Anthropic 與美國政府之間關於出口管制分類的談判結果。Anthropic 已公開主張，政府的指令不合比例，所引用的漏洞不足以完全下架模型。在爭議解決之前，GPT 5.5 將繼續「預設」佔據領先地位，成為市場上最佳的「可用」模型，而非「存在」的最佳模型。

最強AI僅存活三天：Anthropic Fable 5 遭美國政府勒令下架，AI 競賽版圖驟變

編輯核心觀點

Fable 5 的驚人實力與短暫輝煌

政府介入：出口管制指令與「越獄」爭議

Anthropic 的防護機制與業界影響

AI 競賽的意外插曲與未來展望

資料來源

相關文章

美國祭出AI出口管制禁令！Anthropic兩款先進模型遭下架，科技界憂慮「國家隊」干預衝擊創新

美國政府突襲禁令重創 Anthropic 前沿 AI 模型，IPO 前市場應聲下跌，揭示 AI 監管新戰場

亞馬遜示警引爆華府對 Anthropic AI 模型出手：安全疑慮與去中心化代幣的意外狂潮

遭美政府以國安為由強行下架：Anthropic 緊急關閉 Fable 5 與 Mythos 5 模型全球存取權