當 AI 代理人成群結隊:Google DeepMind 投入千萬美元,防範多代理系統失控風險
編輯核心觀點
- ✦Google DeepMind 聯合多家機構設立 1,000 萬美元研究基金,旨在探討多個 AI 代理人互動時可能引發的安全隱憂。
- ✦研究核心在於透過沙盒模擬,預防 AI 代理人被惡意指令劫持或演變成大規模網路犯罪與詐騙工具。
- ✦資安專家指出,AI 代理人具備推理與即興能力,徹底打破了傳統軟體依賴人為預設路徑的資安防禦假設。

AI 代理人互動的連鎖反應
Google DeepMind 近期將「代理人(Agent)」工具視為發展重心,然而隨著這些 AI 代理人被大規模部署,其協同運作可能帶來的風險也引發擔憂。為了防範潛在的不安全情境,Google DeepMind 攜手 Schmidt Sciences、英國政府的 ARIA、Cooperative AI 基金會以及 Google.org,共同宣布投入 1,000 萬美元資金,資助學術界研究「多代理系統(multi-agent systems)」的行為模式。
Google DeepMind 研究員 Shah 指出,目前學術界尚未針對多代理安全性建立完整的研究領域,這筆資金旨在鼓勵企業實驗室以外的學術單位進行長遠的風險評估。他認為,當 AI 代理人被廣泛部署於經濟體系中,其互動可能產生類似人類社會機構般、單一個體無法達成的高複雜度行為,若缺乏事前防範,數位公共空間恐陷入無政府狀態。
從網路詐騙到系統劫持
這項研究計畫關注的核心風險,大多是現有網路威脅的「強化版」。Shah 與 Schmidt Sciences 信任 AI 科學計畫負責人 James Fox 擔心,AI 代理人可能被用於大規模詐騙、提示詞注入(prompt injection)攻擊,甚至被惡意指令轉化為自我導向的惡意軟體。
我們擁有一個對社會運作至關重要的數位公共空間,必須確保它不會淪為絕對的無政府狀態。——James Fox, Schmidt Sciences 信任 AI 科學計畫負責人
研究團隊認為,要預測大量 AI 代理人互動後的結果,唯一途徑是進行逼真的模擬實驗。Fox 強調,不能假設基於大型語言模型(LLM)的 AI 代理人總是理性行事,且系統的複雜性源自於海量的同步互動。部分研究人員甚至推測,未來的通用人工智慧(AGI)可能並非單一強大模型,而是由多個代理人組成的「蜂巢心智(hive mind)」,其整體能力遠大於個體總和。
資安防禦的典範轉移
面對 AI 代理人帶來的威脅,業界已開始尋求對策。Anthropic 近期發布了基於「零信任(zero trust)」架構的代理人部署指南,假設系統本身脆弱、代理人即是潛在攻擊者。以色列資安公司 Akeyless 的共同創辦人兼 CTO Refael Angel 對此表示認同,他認為傳統資安假設軟體由人類編寫、行為路徑固定,但 AI 代理人完全打破了這些前提。
代理人會推理、會即興發揮,甚至可能因為被要求讀取的一份文件中埋藏的一句話,就遭到劫持。——Refael Angel, Akeyless 共同創辦人兼 CTO
儘管 Angel 樂見這筆研究資金的投入,但他同時提醒,研究人員應避免過度關注遙遠的假設性風險,而忽略了當下已經存在的資安漏洞。Fox 則回應,許多幾年前被視為假設性的風險,如今已成為現實,科技發展的速度往往超乎預期。



