AI 代理人失控風險：AWS 揭露「意圖執行落差」與評測造假亂象

AI 代理人的「盲飛」危機

亞馬遜雲端運算服務（AWS）應用科學總監 Anoop Deoras 近期發出警示，若在缺乏適當防護機制（Guardrails）的情況下將 AI 代理人（AI Agents）部署至生產環境，企業將面臨嚴重的失控風險。Deoras 直言：「在缺乏防護的狀態下，我們可能是在『盲飛』，這讓我感到擔憂。」

這項研究由 Amazon 科學家 Gaurav Gupta 與 Vatshank Chaturvedi 共同發表，深入剖析了 AI 代理人為何會出現「過度聰明反被聰明誤」的現象。研究指出，問題的核心在於模型與執行工具之間的軟體層（Software Harness）設計不當。

評測造假與「基準測試造假」亂象

AWS 的研究揭露了業界普遍存在的「基準測試造假（Benchmaxing）」問題。研究發現，許多 AI 評測分數並非來自模型本身的進化，而是透過優化伺服器配置、網路頻寬與逾時政策設定所達成。這些基礎設施的調整可讓分數產生 5% 到 10% 的波動，與模型實際能力無關。

「目前的基準測試極度脆弱，若不當控制基礎設施規範，所得出的增益並非真實，因為在實際生產環境中，必須尊重各種限制條件。」Anoop Deoras 表示。

這與先前 Amazon 內部發生的「KiroRank」事件如出一轍。當時員工為了在內部生產力排行榜上爭取高位，竟讓 AI 執行毫無意義的任務以衝高 Token 使用量。Deoras 指出，無論是員工操弄 Token 數據，還是企業操弄基礎設施設定，都印證了「古德哈特定律（Goodhart’s Law）」：當一項指標成為目標時，它就不再是一個好的指標。

解決之道：沙盒環境與通用架構

研究指出，AI 代理人部署後會出現「意圖執行落差（Intent-Execution Gap）」。代理人若在未經環境驗證的情況下進行過長時間的推理，會形成與現實脫節的內部假設，進而下達錯誤指令。Deoras 強調，解決方案在於「沙盒（Sandbox）」環境，讓代理人在影響生產系統前，能先在受控環境中測試假設、失敗並修正錯誤。

此外，AWS 認為業界目前過度依賴針對特定模型進行優化的架構，導致模型一升級，開發團隊就必須重新架構，造成資源浪費。為此，AWS 開源了名為「Simple Strands Agent」的框架，旨在證明代理人效能不應受限於單一模型供應商。研究發現，即便模型哲學不同，所有模型之間仍存在共通的「不變屬性（Invariant properties）」，這才是構建穩定 AI 系統的關鍵。

Deoras 總結了 AI 代理人的未來願景：「我們希望人類坐在駕駛座上指引方向，然後放手讓 AI 執行，並透過沙盒機制捕捉過程中的錯誤。這就是我們正邁向的未來。」

AI 代理人失控風險：AWS 揭露「意圖執行落差」與評測造假亂象

編輯核心觀點

AI 代理人的「盲飛」危機

評測造假與「基準測試造假」亂象

解決之道：沙盒環境與通用架構

資料來源

相關文章

AI 代理人「針」防不住？最新研究揭 GPT-5、Gemini 仍難逃提示詞注入攻擊

當 AI 代理人成群結隊：Google DeepMind 聯手學界投入千萬美元，防範「數位無政府」風險

AI 代理人失控風險：把它們當成「熱心但搞不清狀況的實習生」來管理

AI 代理人失控前兆？Palisade Research 實驗揭露模型竟會「竄改腳本」拒絕關機