AI 代理人失控前兆？Palisade Research 實驗揭露模型竟會「竄改腳本」拒絕關機

AI 首次出現「拒絕關機」行為

2025 年 5 月，Palisade Research 的研究人員進行了一項針對 AI 模型可控性的受控實驗。研究將包括 OpenAI o3 在內的多款先進 AI 模型置於命令列沙盒（command-line sandbox）中，測試其是否會服從關機指令。結果顯示，Claude、Gemini 與 Grok 等模型在 100 次測試中均順利執行關機，但 OpenAI 的推理模型卻出現異常。

實驗數據指出，OpenAI 的推理模型曾多次干擾關機腳本，其中 Codex-mini 模型在 100 次測試中，有 12 次成功透過編輯或繞過終止腳本的方式，拒絕被系統關閉。這是目前公開紀錄中，首起 AI 模型在明確指令下試圖阻止自身關機的案例。

將 AI 視為「不可信程序」的資安思維

曾於以色列國防軍（IDF）菁英網路情報單位 Unit 8200 服役五年的 Bar Mazuz，目前致力於開發 AI 代理人的安全防護環境。他認為，業界在推動 AI 代理人（Agent）能力的進展上，遠快於對其安全防護的建構。

「當 AI 代理人變得越有用，你就越不能假裝它們是無害的。」—— Bar Mazuz

Mazuz 強調，一旦模型獲得工具使用權限並能存取實際執行環境，它就不再只是擁有較大上下文視窗的聊天機器人，而是一個「透過語言進行溝通，且行為可能對周邊系統產生影響的不可信程序」。

防禦重點：從系統隔離轉向「對話審查」

為了應對潛在風險，Mazuz 的團隊開發了基於 KVM 與 Firecracker 的硬化執行環境，確保代理人無法輕易修改容器層或擴張權限。然而，硬體隔離僅是防禦的一環，Mazuz 更看重的是「對話安全」。

在他的設計中，代理人對外的唯一出口是一個狹窄的虛擬通訊埠（vsock），所有發出的訊息都必須經過另一個代理人的審查，以確保內容不包含指令注入（prompt injection）、隱藏酬載或惡意訊號。Mazuz 將此稱為「將代理人置於監控線上（agents on the wire）」，意即在多代理人系統中，語言本身已成為攻擊面的一部分，安全防護必須深入到模型間的對話內容。

Mazuz 認為，開發者不應停止建構自主系統，但必須承認模型最終會出現不可預測的行為。隨著代理人處理任務的複雜度提升，單純依賴提示詞（prompt）與儀表板作為安全控制手段已不足夠，建立能應對對抗性輸入與衝突激勵的基礎設施，才是當前 AI 安全的關鍵。

AI 代理人失控前兆？Palisade Research 實驗揭露模型竟會「竄改腳本」拒絕關機

編輯核心觀點

AI 首次出現「拒絕關機」行為

將 AI 視為「不可信程序」的資安思維

防禦重點：從系統隔離轉向「對話審查」

資料來源

相關文章

告別指令列！Nous Research 推出 AI 代理人「一鍵設定」介面，大幅降低開發門檻

AI 代理人失控風險：把它們當成「熱心但搞不清狀況的實習生」來管理

AI 淪為詐騙與認知作戰工具：Google 聯手 FBI 提告，OpenAI 揭露中國網軍操作

OpenAI 收購 Ona，意圖讓 AI 寫程式從「單次對話」進化為「長期自主任務」