返回首頁

OpenAI 文件揭示 GPT-5.6 Pro 新策略:頂級模型不再獨尊,走向三路並進

編輯核心觀點

  • 一份來自 OpenAI 的基準測試文件透露,其 GPT-5.6 Pro 模型可能將推出三種變體,打破過去單一頂級模型的策略。
  • 這三款 Pro 模型分別是 Luna Pro、Terra Pro 和 Sol Pro,旨在提供速度、處理量和極致推理能力的不同選擇。
  • 儘管 Sol Pro 在測試中表現最強,但數據也顯示較弱的標準模型在升級為 Pro 後,效能提升幅度更為顯著。
OpenAI 文件揭示 GPT-5.6 Pro 新策略:頂級模型不再獨尊,走向三路並進

自 OpenAI 在六月底正式發表 GPT-5.6 系列模型以來,該公司便將其劃分為三種標準版本:專為處理最艱鉅任務的 Sol、鎖定高流量商業工作負載的 Terra,以及負責更快、更經濟日常查詢的 Luna。然而,當時並未提及任何 Pro 級別的變體。

如今,一份關於基因組學基準測試的 OpenAI 論文,首次揭示了這些 Pro 模型的存在。該論文的結果表格中,明確列出了「GPT-5.6 Luna Pro」、「Terra Pro」和「Sol Pro」等項目,並標註為「Pro (Extended)」運行。

Pro 模型不再是單一頂級選項

這項發現意味著 ChatGPT Pro 的結構可能將迎來首次重大變革。過去,ChatGPT Pro 始終作為單一、最頂級的模型存在,凌駕於所有其他版本之上。然而,這份論文暗示,OpenAI 正準備推出一個由三種平行 Pro 變體組成的產品線,以呼應標準 GPT-5.6 系列的劃分:一個強調速度、一個側重高處理量,另一個則追求極致性能。

在基準測試中,Sol Pro 取得了 31.5% 的通過率,使其成為所有 60 個受測模型中最為強大的存在。它不僅超越了標準版 Sol 的 28.7%,也大幅領先非 GPT 模型中的佼佼者 Claude Opus 4.8(16.0%)。這裡的「通過率」衡量的是模型在沒有錯誤的情況下,完成完整多步驟分析並得出正確最終答案的頻率。

論文進一步比較了每個標準模型在最高推理設定(「max」)下,與其對應 Pro 變體的效能提升:

GPT-5.6 模型通過率比較(129 項任務套件)

模型層級 | 標準版 (max) | Pro 版 (Extended) | 差距
GPT-5.6 Luna | 16.5% | 23.6% | +7.1 點
GPT-5.6 Terra | 23.3% | 28.5% | +5.2 點
GPT-5.6 Sol | 28.7% | 31.5% | +2.8 點

從數據中可以看出一個有趣的趨勢:Pro 版本的效能提升幅度,會隨著模型本身能力的增強而縮小。例如,Luna Pro 相較於其標準版提升了整整 7 個百分點,而 Sol Pro 的提升則不到 3 個百分點。這表明額外的運算資源對較弱的模型層級助益更大,甚至讓 Terra Pro 的通過率達到 28.5%,幾乎與標準版 Sol 的 28.7% 持平,意味著一個高處理量的 Pro 變體,其表現幾乎能媲美最佳的標準旗艦模型。

未來 ChatGPT Pro 的選擇更多元?

如果這項分級策略最終實施,將是 ChatGPT Pro 服務自推出以來,首次出現的重大結構性變革。使用者將不再僅限於一個昂貴的頂級模型,而是能在一個由三種模型組成的 Pro 系列中,根據手邊任務的具體需求,選擇最適合的速度、處理量或最大推理能力。

然而,這份論文並未明確指出這種分級結構是否會實際應用於 ChatGPT 產品中,目前這些名稱僅出現在基準測試表格中。此外,一個關鍵細節仍未公開:標準 GPT 模型會報告平均代幣使用量作為運算成本的粗略指標(例如 Sol 在最高設定下約為 33,200 個代幣),但 Pro 版本的這項數據卻付之闕如。論文作者表示無法提供可比較的代幣使用量數據,但外界普遍認為更可能的原因是 OpenAI 不願公開這些數字。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章