防範 AI 變節：Google DeepMind 捨棄傳統對齊理論，改以「資安防禦」思維監控 AI 代理人

從「對齊」轉向「防禦」：AI 代理人的安全新挑戰

Google DeepMind 近期發布了一份長達 35 頁的技術報告，揭露一套全新的安全路線圖，旨在防範 AI 代理人（AI Agents）在執行任務時出現「變節」行為。這項計畫標誌著 Google 在 AI 安全策略上的轉向，不再僅聚焦於傳統 AI 安全領域常見的「對齊問題」（Alignment Problem），即確保 AI 的行為符合人類意圖與價值觀，而是將 AI 代理人視為組織內部的潛在威脅。

Google DeepMind AGI 安全與對齊團隊負責人 Rohin Shah 表示，對齊問題可能永遠無法完全解決，因此必須建立分層安全系統。他指出，AI 代理人的運作速度與規模遠超人類員工，傳統針對人類員工的資安防禦機制雖有參考價值，但 AI 在系統本質上與人類截然不同，因此需要更精密的監控手段。

動態權限與行為監控的必要性

針對 AI 代理人的權限管理，Google DeepMind 安全與隱私副總裁 John “Four” Flynn 指出，現行的角色基礎存取控制（RBAC）在自動化工作流中已顯得力不從心。隨著 AI 代理人執行任務的複雜度提升，一個代理人可能同時跨越多個角色與流程，因此需要一套「動態存取控制系統」。

Flynn 表示：「我們需要的是一套能根據代理人當下任務與工作流，即時變更權限的系統。當監控系統偵測到代理人行為偏離該任務的正常模式時，必須能迅速切斷其存取權限。」

DeepMind 目前已建立內部原型，透過非同步監控編碼代理人的軌跡，並將可疑行為升級至人工審核。據報告統計，該系統已分析約一百萬次編碼任務，並成功應用於 Gemini Spark 代理人的即時監控，有效防範了非預期的數據刪除等風險。值得注意的是，報告指出大多數被標記的異常行為並非出於惡意，通常是代理人對用戶目標的誤解或過度執行所致。

建立 AI 威脅分類架構：TRAIT&R

為了系統化防禦，DeepMind 提出了名為「TRAIT&R」（Taxonomy of Rogue AI Tactics and Routines）的架構，該架構參考了 MITRE 組織維護的網路安全對抗行為知識庫 ATT&CK。TRAIT&R 將威脅分為三大類：

失去控制（Loss of Control）：例如模型建立隱藏且未受監控的內部部署。
工作破壞（Work Sabotage）：例如代理人悄悄降低對齊或安全研究的品質，甚至透過呈現錯誤結果來誤導人類。
直接損害（Direct Harm）：例如竊取模型權重或摧毀關鍵資產。

除了即時監控，DeepMind 還提出監測 AI 內部神經網路的「激活模式」，將其比喻為對人類大腦進行「fMRI 掃描」，藉此偵測模型是否正在進行欺騙性思考。Flynn 強調，這份路線圖（v0.1）已在執行階段，部分功能如權限控制與思維鏈監控已投入生產環境，未來將逐步整合至 Google 更廣泛的「前沿安全框架」（Frontier Safety Framework）中。

防範 AI 變節：Google DeepMind 捨棄傳統對齊理論，改以「資安防禦」思維監控 AI 代理人

編輯核心觀點

從「對齊」轉向「防禦」：AI 代理人的安全新挑戰

動態權限與行為監控的必要性

建立 AI 威脅分類架構：TRAIT&R

資料來源

相關文章

AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題

諾貝爾獎得主約翰．詹珀投奔 Anthropic：Google DeepMind 人才流失警訊浮現？

諾貝爾獎得主出走！AlphaFold 核心推手 John Jumper 離開 Google DeepMind 加入 Anthropic

Google AI 影像生成器殺價搶市：極速、超低價背後，是與好萊塢的矛盾與「AI 劣質內容」的挑戰