返回首頁

告別「純推理」時代:前 Qwen 技術負責人林俊揚揭示 AI 從模型訓練轉向代理人訓練的關鍵路徑

編輯核心觀點

  • 前阿里巴巴 Qwen 專案技術負責人林俊揚指出,單純增加推理軌跡長度並不能讓模型更聰明,應根據任務需求調整思維模式。
  • AI 訓練典範正從追求內部邏輯推理的「推理思維」,轉向與環境互動、具備工具使用能力的「代理人思維」。
  • 代理人系統的開發難點在於基礎設施,需將訓練與推理過程解耦,並優化環境品質以防止獎勵劫持。
告別「純推理」時代:前 Qwen 技術負責人林俊揚揭示 AI 從模型訓練轉向代理人訓練的關鍵路徑

從模型訓練到代理人訓練

曾任阿里巴巴 Qwen 專案技術負責人、於 2026 年 3 月離職的林俊揚(Junyang Lin),近期透過公開演講與技術文章,詳細剖析了 Qwen 模型家族的演進路徑。他明確指出,AI 領域的未來核心已從「訓練模型」轉向「訓練代理人(Agents)」。

在 Qwen3 的架構中,林俊揚展示了混合思維模式的實作:模型可切換「逐步推理模式」與「即時反應模式」,並支援動態思維預算,讓開發者能限制模型的思考深度。Qwen3 涵蓋了從 0.6B 到 235B 參數的多種規模,並提供多種量化格式,全數採用 Apache 2.0 授權。

混合思維的實作困境

林俊揚坦言,將「指令遵循(Instruct)」與「推理(Thinking)」兩種截然不同的模式合併極具挑戰。強大的指令模型追求直接與簡潔,而推理模型則需消耗大量 Token 進行深度思考。若合併不當,兩者表現皆會下滑。Qwen3 曾嘗試透過四階段後訓練流程進行融合,但最終在 2025 年的 2507 版本中,轉而採取提供獨立的 Instruct 與 Thinking 變體,這顯示出這本質上是一個數據問題,而非單純的模型架構問題。

他以 Anthropic 的 Claude 3.7 Sonnet 為例,認為其允許使用者設定思維預算的作法是正確的修正方向。他強調:「更長的推理軌跡並不代表模型更聰明,思維模式應由目標工作負載決定,而非由基準測試決定。」

推理思維 vs. 代理人思維

林俊揚將 AI 發展劃分為兩個時代:

  • 推理思維(Reasoning Thinking):以 OpenAI o1 與 DeepSeek-R1 為代表,核心在於數學、程式碼與邏輯的驗證,重點是模型內部的審慎思考。
  • 代理人思維(Agentic Thinking):以行動為導向,模型需在封閉迴路中與環境互動,包括制定計畫、使用工具、讀取回饋並修正錯誤。

代理人思維必須處理純推理模型無需面對的複雜挑戰,例如:決定何時停止思考並採取行動、選擇工具順序、處理環境中的雜訊,以及在多次工具調用中維持連貫性。

基礎設施的關鍵瓶頸

林俊揚指出,代理人訓練的基礎設施挑戰遠高於推理模型。在推理訓練中,評估通常是封閉且乾淨的;但在代理人環境中,模型處於工具伺服器、瀏覽器與沙盒組成的複雜框架內。若未將訓練與推理過程解耦,當代理人等待測試執行結果時,推理過程將會停滯,導致 GPU 利用率大幅下降。

他建議,在代理人時代,團隊應將優化重心從「數據多樣性」轉向「環境品質」,包括環境的穩定性、真實性與抗攻擊性。他特別警告「獎勵劫持(Reward hacking)」是目前最嚴峻的問題,因為工具存取權限的開放,擴大了模型透過操縱環境來獲取虛假高分的攻擊面。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章