AI 巨頭 Anthropic 的道德兩難:一面助攻國安局網路戰,一面疾呼全球暫停 AI 開發?
編輯核心觀點
- ✦AI 開發商 Anthropic 一方面將其最先進的 AI 模型「Mythos」部署於美國國安局的網路攻擊行動,可能目標鎖定中國與伊朗。
- ✦另一方面,Anthropic 卻公開警告 AI 恐將走向「遞歸式自我改進」的失控風險,呼籲全球主要 AI 實驗室應協調暫停開發。
- ✦此舉引發業界質疑,認為這家正準備首次公開募股(IPO)的公司,其警示背後可能存在自利考量。

在人工智慧(AI)領域快速發展的浪潮中,領先的 AI 開發商 Anthropic 正面臨一場引人注目的道德與策略兩難。這家公司一方面將其最先進的 AI 模型「Mythos」部署於美國國家安全局(NSA)的網路作戰行動,另一方面卻又公開疾呼全球應暫停前沿 AI 的開發,以避免潛在的失控危機。這兩項看似矛盾的舉動,正值 Anthropic 準備進行首次公開募股(IPO),預計市值可能突破一兆美元之際,引發了廣泛的討論與質疑。
秘密任務:助攻美國國安局網路作戰
根據《金融時報》報導,Anthropic 已派遣約六名工程師進駐美國國家安全局,協助部署其最先進的 AI 模型「Mythos」,用於執行攻擊性網路行動。消息人士透露,這項技術可能被用於滲透中國和伊朗等國家的網路。值得注意的是,Mythos 是 Anthropic 內部能力最強大的 AI 模型,該公司以「誤用風險」為由,一直拒絕向公眾發布,僅透過「Project Glasswing」這項限制性合作計畫,提供給經過審核的合作夥伴,其中包括微軟、蘋果和亞馬遜等科技巨頭。
Anthropic 與美國政府的關係錯綜複雜。今年二月下旬,美國國防部長 Pete Hegseth 曾將 Anthropic 列為「供應鏈風險」公司,此標籤過往多用於華為等外國對手,起因是一份價值兩億美元的合約破局。Anthropic 當時拒絕讓美國國防部將其 Claude 模型用於全自主武器或國內大規模監控。然而,據《Decrypt》報導,與國安局的合約卻不受此禁令限制。儘管加州法官一度阻止了這項黑名單,但華盛頓特區上訴法院駁回了 Anthropic 在訴訟期間暫停黑名單的請求。在此期間,國安局仍持續使用 Mythos。
公開呼籲:全球暫停 AI 開發以防「遞歸式自我改進」危機
就在國安局合作消息曝光的同一天,Anthropic 內部研究機構發表了一份名為《當 AI 自我建構》(When AI Builds Itself)的報告,探討其 Claude 模型在自動化開發方面的進展。報告中,該公司主張全球應暫停 AI 軍備競賽,甚至將其比擬為冷戰時期美國與俄羅斯簽訂的核武條約。
Anthropic 研究所負責人 Marina Favaro 和共同創辦人 Jack Clark 在報告中指出,Claude 模型目前已能撰寫 Anthropic 生產程式碼中超過 80% 的內容,相較於 2025 年初 Claude Code 推出前的低個位數百分比,呈現爆炸性成長。工程師每天發布的程式碼量,也比 2024 年增加了約八倍。他們認為,這種發展軌跡正走向所謂的「遞歸式自我改進」(recursive self-improvement):AI 系統將自主設計、建構並訓練其繼任者,而人類在每個步驟中的作用將日益減少。
報告中提出一個關鍵數據點:今年四月,Claude 代理程式被賦予一個開放的 AI 安全問題——較弱的模型能否可靠地監督較強的模型。人類研究人員花費約一週時間,彌補了模型之間 23% 的性能差距;而 AI 代理程式則在累積 800 小時的運算時間後,彌補了 97% 的差距。人類設定了問題,但代理程式設計了所有實驗。這是首次公開證實 Claude 能夠行使研究判斷,而不僅僅是執行他人指定的任務。Anthropic 擔憂,一旦 AI 開始選擇哪些實驗值得運行,而非僅僅執行,人類將失去開發循環中最後一個有意義的角色。現有模型中微小的偏差,可能會在自我改進的世代中不斷累積,最終變得無人能糾正。
為此,Anthropic 提出的解決方案是「可驗證的全球暫停」——多個前沿實驗室同時停止開發,並有獨立機構驗證各方確實停止。Anthropic 表示願意加入這樣的倡議,但也承認單方面的減速只會讓領先地位拱手讓人。不過,Anthropic 的一位發言人向《商業內幕》澄清,該公司並非呼籲立即暫停,而是希望領先的競爭對手能建立一套機制,以便在必要時能夠暫停,並在限制措施被認為必要之前,就此議題進行研究。
業界反響與道德爭議:是警世預言還是自利操作?
Anthropic 的提案一出,立即引發科技界兩極化的反應。許多人認為,這家正準備 IPO 的領先 AI 公司,其呼籲背後可能存在自利考量。
前美國參議員、2012 年共和黨總統候選人 Mitt Romney 在 X 平台上寫道:「開發 AI 防護措施是我們最高且最緊迫的國家優先事項。AI 武器、病原體、大規模失業、監控甚至滅絕的風險,絕不能繼續被大體忽視。」
然而,前白宮加密貨幣與 AI 沙皇 David Sacks 則對 Anthropic 的建議提出嚴厲批評。他曾公開指責 Anthropic 進行「監管俘虜」(regulatory capture)計畫,這次雖未直接點名,但其矛頭所指顯而易見。
Sacks 在 X 平台上表示:「你可能正試圖讓你的前沿 AI 實驗室被國有化的跡象:你將它比作核武……威脅到一半的白領工作……警告遞歸式自我改進可能終結人類……然後自己卻仍舊加速前進。換句話說,你希望政府來拯救我們……免於你。」
史丹佛大學政治經濟學教授 Andrew B. Hall 則持較為中立的看法。他提到 Google DeepMind 執行長 Demis Hassabis 曾表示,若所有前沿開發者都遵守,他將支持全球暫停。Hall 認為,鑑於近期美國政府的行政命令、Project Glasswing 以及 OpenAI 提出的模型審查建議,全球暫停的想法已不再那麼遙不可及。但他對暫停的實際運作方式表示懷疑,特別是如何應用於中國公司或開源模型。Hall 建議,至少可以同意將模型「消費者發布」與「開發」分開,減緩消費者發布的速度。
科技記者 Tae Kim 則直言 Anthropic 正在助長不必要的恐慌情緒。而 Inworld AI 執行長 Kylan Gibbs 認為,Anthropic 正在為塑造有利於自身的 AI 監管環境鋪路。
為什麼重要?
Anthropic 的案例凸顯了當前 AI 發展中一個深刻的悖論:領先的 AI 公司一方面與國家安全機構合作,將其最尖端技術用於潛在的網路戰,另一方面卻又向全球發出最嚴峻的 AI 倫理警告。這種雙重角色不僅引發了對其動機的質疑,也暴露了在缺乏全球統一監管框架下,AI 技術發展所面臨的複雜倫理、安全與地緣政治挑戰。當 AI 巨頭自身都無法停止開發,並同時參與高風險應用時,如何有效應對 AI 可能帶來的「遞歸式自我改進」威脅,將是人類社會必須正視的關鍵議題。



