告別「純推理」時代：前 Qwen 技術負責人林俊揚揭示 AI 從模型訓練轉向代理人訓練的關鍵路徑

從模型訓練到代理人訓練

曾任阿里巴巴 Qwen 專案技術負責人、於 2026 年 3 月離職的林俊揚（Junyang Lin），近期透過公開演講與技術文章，詳細剖析了 Qwen 模型家族的演進路徑。他明確指出，AI 領域的未來核心已從「訓練模型」轉向「訓練代理人（Agents）」。

在 Qwen3 的架構中，林俊揚展示了混合思維模式的實作：模型可切換「逐步推理模式」與「即時反應模式」，並支援動態思維預算，讓開發者能限制模型的思考深度。Qwen3 涵蓋了從 0.6B 到 235B 參數的多種規模，並提供多種量化格式，全數採用 Apache 2.0 授權。

混合思維的實作困境

林俊揚坦言，將「指令遵循（Instruct）」與「推理（Thinking）」兩種截然不同的模式合併極具挑戰。強大的指令模型追求直接與簡潔，而推理模型則需消耗大量 Token 進行深度思考。若合併不當，兩者表現皆會下滑。Qwen3 曾嘗試透過四階段後訓練流程進行融合，但最終在 2025 年的 2507 版本中，轉而採取提供獨立的 Instruct 與 Thinking 變體，這顯示出這本質上是一個數據問題，而非單純的模型架構問題。

他以 Anthropic 的 Claude 3.7 Sonnet 為例，認為其允許使用者設定思維預算的作法是正確的修正方向。他強調：「更長的推理軌跡並不代表模型更聰明，思維模式應由目標工作負載決定，而非由基準測試決定。」

推理思維 vs. 代理人思維

林俊揚將 AI 發展劃分為兩個時代：

推理思維（Reasoning Thinking）：以 OpenAI o1 與 DeepSeek-R1 為代表，核心在於數學、程式碼與邏輯的驗證，重點是模型內部的審慎思考。
代理人思維（Agentic Thinking）：以行動為導向，模型需在封閉迴路中與環境互動，包括制定計畫、使用工具、讀取回饋並修正錯誤。

代理人思維必須處理純推理模型無需面對的複雜挑戰，例如：決定何時停止思考並採取行動、選擇工具順序、處理環境中的雜訊，以及在多次工具調用中維持連貫性。