參數僅 3B 卻能挑戰千億級模型!微博團隊發表 VibeThinker-3B,揭開「推理特化」新路徑
編輯核心觀點
- ✦由微博研究團隊開發的 VibeThinker-3B 採用 Qwen2.5-Coder-3B 為基礎,專注於數學與程式碼等可驗證推理任務。
- ✦該模型透過 Spectrum-to-Signal 與 CLR 推理時擴展技術,在 AIME26 等基準測試中展現出媲美 DeepSeek V3.2 等超大型模型的效能。
- ✦VibeThinker-3B 具備輕量化優勢,BF16 權重約 6GB,可在單一消費級 GPU 上運行,適合邊緣運算與成本敏感的推理場景。

打破規模迷思:30 億參數的推理專家
當前 AI 推理能力的提升多半依賴於擴大參數規模,但由微博(Sina Weibo Inc)研究團隊開發的 VibeThinker-3B 採取了截然不同的策略。這款 30 億參數的密集型模型並非從零預訓練,而是以 Qwen2.5-Coder-3B 為基礎,透過監督式微調(SFT)、強化學習(RL)與自我蒸餾技術進行後訓練,證明了高效能模型在特定領域能發揮超越體量的表現。
該模型採用 MIT 開源授權,設計初衷是作為「推理專家」。研究團隊建議,若涉及開放領域的知識性任務,仍應選用大型通用模型,但針對數學、程式設計與 STEM 學科等具備明確驗證標準的任務,VibeThinker-3B 展現了極高的競爭力。
效能實測:媲美千億級模型
在 AIME26 數學基準測試中,VibeThinker-3B 獲得 94.3 分,與 DeepSeek V3.2(671B)及 Kimi K2.5(1T)等巨型模型處於同一水平。在針對未見過的 LeetCode 程式挑戰測試中,該模型在 128 次首次提交中成功通過了 123 次,通過率高達 96.1%。
VibeThinker-3B 的核心技術亮點包括:
- Spectrum-to-Signal 原則:透過 SFT 建立廣泛的推理路徑(Spectrum),再以強化學習強化正確路徑(Signal)。
- Long2Short 訓練:在數學強化學習階段,針對正確路徑進行長度重分配,鼓勵模型以更精簡的步驟得出正確答案。
- CLR(Claim-Level Reliability Assessment):這是一種推理時擴展(Test-time scaling)方法,無需增加額外參數。模型會生成多條路徑,並自我驗證其中的關鍵主張,若發現錯誤主張則大幅降低該路徑權重。
透過 CLR 技術,VibeThinker-3B 在 AIME26 的得分可進一步提升至 97.1 分,BruMO25 則達到 99.2 分。
部署與應用建議
VibeThinker-3B 的 BF16 權重約為 6GB,對硬體需求相對親民,可在單一消費級 GPU 上運行。該模型支援 vLLM(建議版本 0.10.1 以上)或 SGLang(建議版本 0.4.9.post6 以上)進行部署,並提供 OpenAI 相容的 API 介面。
研究團隊指出,該模型適用於以下場景:
- 競賽級數學輔導:生成完整的推理鏈條供學生參考與自我檢核。
- 演算法程式輔助:作為 IDE 助手,快速草擬競賽級程式碼並進行隱藏測試。
- 成本敏感的推理後端:在需要大量驗證性子任務的系統中,可作為大型模型的輕量級替代方案。
- 裝置端推理:無需連接雲端,即可在邊緣設備上執行推理任務。
需要注意的是,VibeThinker-3B 在 GPQA-Diamond 等高度依賴廣泛知識的基準測試中,與超大型模型仍存在明顯差距,其價值核心在於「可驗證推理」領域的極致優化。


