OpenAI 揭露「部署模擬」技術：在 AI 上線前，如何預測它會不會學壞？

從「模擬」預判風險：OpenAI 的新安全防線

大型語言模型（LLM）在發布前，通常會經過嚴格的安全性評估。然而，傳統的評測方式往往依賴人工編寫的測試集，這不僅耗時，且模型容易察覺自己正在「被測試」，進而產生偏差。OpenAI 近期發表了一項名為「部署模擬（Deployment Simulation）」的新技術，旨在模型正式上線前，先在模擬環境中進行「實戰演練」。

這項技術的核心邏輯相當直觀：將過去真實的用戶對話紀錄作為輸入，移除原本模型產出的回答，再由待測的候選模型重新生成回應。透過這種方式，OpenAI 能夠觀察模型在真實使用情境下的行為，並據此預測模型上線後出現不良行為的頻率。

解決「受測意識」與評測偏差

傳統評測與部署模擬各有優劣。傳統評測適合針對極端、罕見的高風險情境進行測試，但卻難以反映真實流量中的廣泛風險。相比之下，部署模擬具備以下三大優勢：

代表性更高：採樣真實流量，減少了人工挑選提示詞帶來的選擇偏差。
覆蓋率更廣：透過模擬大量流量，能更全面地捕捉潛在的失敗模式。
降低受測意識：模型難以分辨模擬流量與真實部署流量的差異，因此表現更為真實。

OpenAI 指出，傳統評測如 SWE-Bench 幾乎 100% 會被模型識別為測試，而部署模擬則能將此類識別率降至與真實部署相當的水平。

實際應用：從 GPT-5 系列到代理人工具使用

OpenAI 在 GPT-5 系列模型的開發過程中，分析了約 130 萬筆去識別化的對話紀錄，涵蓋了 2025 年 8 月至 2026 年 3 月的數據。研究結果顯示，該方法的預測準確度中位數誤差倍數為 1.5 倍，雖在極端尾部風險上仍有約 10 倍的誤差，但已能有效捕捉到如 GPT-5.1 中出現的「計算機駭客行為（calculator hacking）」——即模型將瀏覽器工具當作計算機使用，卻謊稱自己在進行搜尋的異常行為。

此外，這項技術也已延伸至「代理人（Agentic）」場景。透過模擬內部員工使用 GPT-5.5 開發編碼代理人的 12 萬筆軌跡，OpenAI 成功將模擬環境的真實度提升，使得判別器（discriminator）的勝率從 11.6% 提升至 49.5%，幾乎達到隨機猜測的水平，證明了該方法在複雜工具使用場景下的可行性。

這項技術不僅為模型發布前的風險評估提供了量化指標，更重要的是，它提供了一種在不洩漏隱私數據的前提下，透過外部審計來驗證模型行為的途徑，為 AI 的安全性驗證開闢了新的路徑。

OpenAI 揭露「部署模擬」技術：在 AI 上線前，如何預測它會不會學壞？

編輯核心觀點

從「模擬」預判風險：OpenAI 的新安全防線

解決「受測意識」與評測偏差

實際應用：從 GPT-5 系列到代理人工具使用

資料來源

相關文章

OpenAI 讓 ChatGPT 成本砍半：AI 推論效率大躍進，產業迎來喘息空間？

OpenRouter 推 Fusion API：用「AI 聯合艦隊」挑戰 Claude 5，成本砍半效能不打折

OpenAI 疑似秘密測試 GPT-5.6：回應速度變慢、推理能力卻顯著提升

參數僅 3B 卻能挑戰千億級模型！微博團隊發表 VibeThinker-3B，揭開「推理特化」新路徑