AI 代理人「針」防不住？最新研究揭 GPT-5、Gemini 仍難逃提示詞注入攻擊

AI 代理人正快速發展，從網路瀏覽、研究、線上購物到加密貨幣交易，都能自主執行任務。然而，一項最新研究卻對其安全性敲響警鐘。來自南洋理工大學、ST Engineering、IBM 研究院及伊利諾大學香檳分校的跨國研究團隊發現，他們測試的所有 AI 代理人，包括由 GPT-5 和 Gemini 驅動的系統，都未能有效抵禦「提示詞注入攻擊」（prompt injection attacks）。這項發現凸顯，隨著 AI 代理人日益普及，提示詞注入仍是一個廣泛且嚴峻的資安問題。

什麼是提示詞注入攻擊？

提示詞注入攻擊，簡單來說，就是攻擊者將隱藏指令嵌入 AI 代理人會接觸到的內容中，使其不再遵循使用者原先的指示，轉而執行攻擊者的惡意命令。這類攻擊的危險性在於其隱蔽性與潛在的廣泛影響。

StakeBench：模擬真實網路環境的測試工具

為了彌補現有 AI 代理人評估方法上的不足，研究團隊特別開發了名為「StakeBench」的基準測試工具。StakeBench 旨在模擬真實的網路環境，測試 AI 代理人如何應對提示詞注入攻擊。研究人員指出：

現有的安全基準測試多採攻擊中心視角，著重於注入的技術可行性，卻忽略了由此產生的危害分佈差異。然而，在實務上，提示詞注入的風險是受害者導向的：單一漏洞可能對不同利害關係人產生不對稱的後果，且相同的攻擊模式，其有效性可能因目標不同而有顯著差異。

他們進一步解釋，StakeBench 用於評估在何種條件下，這種漏洞會被放大或抑制，特別關注「間接提示詞注入」（Indirect Prompt Injection）作為主要部署相關的管道。StakeBench 探討了三個關鍵因素：注入目標與使用者原始意圖之間的語義距離、周圍環境線索的一致性，以及基準測試首次將注入內容暴露給代理人時，其在執行軌跡上的位置。

駭人聽聞的攻擊成功率

該團隊利用 NanoBrowser 和 BrowserUse 工具，針對 GPT-5 和 Gemini 2.5-Flash 進行了 3,168 次攻擊模擬。結果顯示，直接提示詞注入攻擊在所有測試配置中，成功率超過 79%。而間接攻擊，即那些隱藏在網頁內容中的惡意指令，其成功率也高達 41.67% 至 68.16%。這些數據無疑證明了當前 AI 代理人面對此類威脅時的脆弱性。

現實世界的威脅與過往案例

提示詞注入攻擊的日益普遍，與 AI 代理人的快速擴散相互呼應。事實上，類似的資安警訊早有前例。今年二月，微軟研究人員就曾警告，嵌入在 AI 摘要連結中的隱藏指令，可能影響聊天機器人的行為。四月，Google 也記錄了隱藏在網頁中的提示詞注入攻擊，試圖操縱 AI 代理人洩露憑證或發送付款。最近，微軟更揭露了 Anthropic 的 Claude Code GitHub Action 中的一個提示詞注入漏洞，該漏洞可能導致使用者憑證外洩。

「隱匿寄生」：更難察覺的威脅

這項研究還識別出一種被研究人員稱為「隱匿寄生」（stealthy parasitism）的現象。在這種情況下，AI 代理人會一邊完成使用者的任務，同時又暗中推進攻擊者的目標。例如，由提示詞注入攻擊引起的隱匿寄生，可能會巧妙地影響產品推薦，將使用者導向特定商品，而系統本身卻沒有任何明顯的受損跡象。這種攻擊形式更具欺騙性，因為它在表面上維持了正常運作，卻在暗中損害使用者利益。