參數僅 3B 卻能挑戰千億級模型！微博團隊發表 VibeThinker-3B，揭開「推理特化」新路徑

打破規模迷思：30 億參數的推理專家

當前 AI 推理能力的提升多半依賴於擴大參數規模，但由微博（Sina Weibo Inc）研究團隊開發的 VibeThinker-3B 採取了截然不同的策略。這款 30 億參數的密集型模型並非從零預訓練，而是以 Qwen2.5-Coder-3B 為基礎，透過監督式微調（SFT）、強化學習（RL）與自我蒸餾技術進行後訓練，證明了高效能模型在特定領域能發揮超越體量的表現。

該模型採用 MIT 開源授權，設計初衷是作為「推理專家」。研究團隊建議，若涉及開放領域的知識性任務，仍應選用大型通用模型，但針對數學、程式設計與 STEM 學科等具備明確驗證標準的任務，VibeThinker-3B 展現了極高的競爭力。

效能實測：媲美千億級模型

在 AIME26 數學基準測試中，VibeThinker-3B 獲得 94.3 分，與 DeepSeek V3.2（671B）及 Kimi K2.5（1T）等巨型模型處於同一水平。在針對未見過的 LeetCode 程式挑戰測試中，該模型在 128 次首次提交中成功通過了 123 次，通過率高達 96.1%。

VibeThinker-3B 的核心技術亮點包括：

Spectrum-to-Signal 原則：透過 SFT 建立廣泛的推理路徑（Spectrum），再以強化學習強化正確路徑（Signal）。
Long2Short 訓練：在數學強化學習階段，針對正確路徑進行長度重分配，鼓勵模型以更精簡的步驟得出正確答案。
CLR（Claim-Level Reliability Assessment）：這是一種推理時擴展（Test-time scaling）方法，無需增加額外參數。模型會生成多條路徑，並自我驗證其中的關鍵主張，若發現錯誤主張則大幅降低該路徑權重。

透過 CLR 技術，VibeThinker-3B 在 AIME26 的得分可進一步提升至 97.1 分，BruMO25 則達到 99.2 分。

部署與應用建議

VibeThinker-3B 的 BF16 權重約為 6GB，對硬體需求相對親民，可在單一消費級 GPU 上運行。該模型支援 vLLM（建議版本 0.10.1 以上）或 SGLang（建議版本 0.4.9.post6 以上）進行部署，並提供 OpenAI 相容的 API 介面。

研究團隊指出，該模型適用於以下場景：

競賽級數學輔導：生成完整的推理鏈條供學生參考與自我檢核。
演算法程式輔助：作為 IDE 助手，快速草擬競賽級程式碼並進行隱藏測試。
成本敏感的推理後端：在需要大量驗證性子任務的系統中，可作為大型模型的輕量級替代方案。
裝置端推理：無需連接雲端，即可在邊緣設備上執行推理任務。

需要注意的是，VibeThinker-3B 在 GPQA-Diamond 等高度依賴廣泛知識的基準測試中，與超大型模型仍存在明顯差距，其價值核心在於「可驗證推理」領域的極致優化。

參數僅 3B 卻能挑戰千億級模型！微博團隊發表 VibeThinker-3B，揭開「推理特化」新路徑

編輯核心觀點

打破規模迷思：30 億參數的推理專家

效能實測：媲美千億級模型

部署與應用建議

資料來源

相關文章

Liquid AI 推輕量級檢索模型：350M 參數挑戰跨語言搜尋，筆電也能跑高效 RAG

AI 發展雙軌並進：Meta 腦機介面解碼突破與 Anthropic Claude 5 效能升級

OpenRouter 推 Fusion API：用「AI 聯合艦隊」挑戰 Claude 5，成本砍半效能不打折

AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題