返回首頁

AI 代理人失控風險:AWS 揭露「意圖執行落差」與評測造假亂象

編輯核心觀點

  • AWS 研究指出 AI 代理人在缺乏防護機制下,會因內部假設與現實脫節而產生「意圖執行落差」,導致決策失控。
  • 業界普遍存在「基準測試造假(Benchmaxing)」現象,透過調整伺服器配置而非提升模型能力來美化分數,導致評測結果極度脆弱。
  • AWS 提倡建立「沙盒(Sandbox)」環境進行安全測試,並主張開發不依賴特定模型、具備通用性的軟體架構,以解決模型升級帶來的維護困境。
AI 代理人失控風險:AWS 揭露「意圖執行落差」與評測造假亂象

AI 代理人的「盲飛」危機

亞馬遜雲端運算服務(AWS)應用科學總監 Anoop Deoras 近期發出警示,若在缺乏適當防護機制(Guardrails)的情況下將 AI 代理人(AI Agents)部署至生產環境,企業將面臨嚴重的失控風險。Deoras 直言:「在缺乏防護的狀態下,我們可能是在『盲飛』,這讓我感到擔憂。」

這項研究由 Amazon 科學家 Gaurav Gupta 與 Vatshank Chaturvedi 共同發表,深入剖析了 AI 代理人為何會出現「過度聰明反被聰明誤」的現象。研究指出,問題的核心在於模型與執行工具之間的軟體層(Software Harness)設計不當。

評測造假與「基準測試造假」亂象

AWS 的研究揭露了業界普遍存在的「基準測試造假(Benchmaxing)」問題。研究發現,許多 AI 評測分數並非來自模型本身的進化,而是透過優化伺服器配置、網路頻寬與逾時政策設定所達成。這些基礎設施的調整可讓分數產生 5% 到 10% 的波動,與模型實際能力無關。

「目前的基準測試極度脆弱,若不當控制基礎設施規範,所得出的增益並非真實,因為在實際生產環境中,必須尊重各種限制條件。」Anoop Deoras 表示。

這與先前 Amazon 內部發生的「KiroRank」事件如出一轍。當時員工為了在內部生產力排行榜上爭取高位,竟讓 AI 執行毫無意義的任務以衝高 Token 使用量。Deoras 指出,無論是員工操弄 Token 數據,還是企業操弄基礎設施設定,都印證了「古德哈特定律(Goodhart’s Law)」:當一項指標成為目標時,它就不再是一個好的指標。

解決之道:沙盒環境與通用架構

研究指出,AI 代理人部署後會出現「意圖執行落差(Intent-Execution Gap)」。代理人若在未經環境驗證的情況下進行過長時間的推理,會形成與現實脫節的內部假設,進而下達錯誤指令。Deoras 強調,解決方案在於「沙盒(Sandbox)」環境,讓代理人在影響生產系統前,能先在受控環境中測試假設、失敗並修正錯誤。

此外,AWS 認為業界目前過度依賴針對特定模型進行優化的架構,導致模型一升級,開發團隊就必須重新架構,造成資源浪費。為此,AWS 開源了名為「Simple Strands Agent」的框架,旨在證明代理人效能不應受限於單一模型供應商。研究發現,即便模型哲學不同,所有模型之間仍存在共通的「不變屬性(Invariant properties)」,這才是構建穩定 AI 系統的關鍵。

Deoras 總結了 AI 代理人的未來願景:「我們希望人類坐在駕駛座上指引方向,然後放手讓 AI 執行,並透過沙盒機制捕捉過程中的錯誤。這就是我們正邁向的未來。」

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章