當 AI 代理人成群結隊：Google DeepMind 投入千萬美元，防範多代理系統失控風險

AI 代理人互動的連鎖反應

Google DeepMind 近期將「代理人（Agent）」工具視為發展重心，然而隨著這些 AI 代理人被大規模部署，其協同運作可能帶來的風險也引發擔憂。為了防範潛在的不安全情境，Google DeepMind 攜手 Schmidt Sciences、英國政府的 ARIA、Cooperative AI 基金會以及 Google.org，共同宣布投入 1,000 萬美元資金，資助學術界研究「多代理系統（multi-agent systems）」的行為模式。

Google DeepMind 研究員 Shah 指出，目前學術界尚未針對多代理安全性建立完整的研究領域，這筆資金旨在鼓勵企業實驗室以外的學術單位進行長遠的風險評估。他認為，當 AI 代理人被廣泛部署於經濟體系中，其互動可能產生類似人類社會機構般、單一個體無法達成的高複雜度行為，若缺乏事前防範，數位公共空間恐陷入無政府狀態。

從網路詐騙到系統劫持

這項研究計畫關注的核心風險，大多是現有網路威脅的「強化版」。Shah 與 Schmidt Sciences 信任 AI 科學計畫負責人 James Fox 擔心，AI 代理人可能被用於大規模詐騙、提示詞注入（prompt injection）攻擊，甚至被惡意指令轉化為自我導向的惡意軟體。

我們擁有一個對社會運作至關重要的數位公共空間，必須確保它不會淪為絕對的無政府狀態。——James Fox, Schmidt Sciences 信任 AI 科學計畫負責人

研究團隊認為，要預測大量 AI 代理人互動後的結果，唯一途徑是進行逼真的模擬實驗。Fox 強調，不能假設基於大型語言模型（LLM）的 AI 代理人總是理性行事，且系統的複雜性源自於海量的同步互動。部分研究人員甚至推測，未來的通用人工智慧（AGI）可能並非單一強大模型，而是由多個代理人組成的「蜂巢心智（hive mind）」，其整體能力遠大於個體總和。

資安防禦的典範轉移

面對 AI 代理人帶來的威脅，業界已開始尋求對策。Anthropic 近期發布了基於「零信任（zero trust）」架構的代理人部署指南，假設系統本身脆弱、代理人即是潛在攻擊者。以色列資安公司 Akeyless 的共同創辦人兼 CTO Refael Angel 對此表示認同，他認為傳統資安假設軟體由人類編寫、行為路徑固定，但 AI 代理人完全打破了這些前提。