小米 MiMo 團隊突破算力極限:1 兆參數模型在通用 GPU 上達成每秒千字輸出
編輯核心觀點
- ✦小米 MiMo 團隊與 TileRT 系統組合作,成功讓 1 兆參數規模的混合專家模型(MoE)在單一 8 卡通用 GPU 節點上,實現每秒超過 1000 個 Token 的推論速度。
- ✦此項技術突破依賴「極致模型系統協同設計」,整合了 FP4 量化、DFlash 推測解碼與 TileRT 執行引擎三層架構。
- ✦該模式目前以應用程式申請制開放 API 試用,並已將部分檢查點與模組開源至 Hugging Face 與 GitHub。

突破算力瓶頸:通用硬體上的兆級模型
大型語言模型的推論速度正成為衡量競爭力的關鍵指標。小米 MiMo 團隊近日發表了 MiMo-V2.5-Pro-UltraSpeed,這是一項與 TileRT 系統組共同開發的技術,能在 1 兆參數規模的模型上,達成每秒超過 1000 個 Token(Tokens Per Second, TPS)的解碼速度,示範數據甚至顯示峰值可達 1200 TPS。與傳統依賴客製化晶片(如 Groq 或 Cerebras)的方案不同,該技術完全運行在標準的 8 顆通用 GPU 節點上。
模型系統協同設計:三大核心技術
UltraSpeed 模式並非單一技術的產物,而是透過「極致模型系統協同設計(Extreme model-system codesign)」將模型架構與執行系統深度整合。其效能提升來自三個關鍵層面:
1. FP4 量化技術:針對兆級參數模型,FP8 或 FP16 權重會帶來沉重的記憶體與頻寬壓力。小米採用 MXFP4 格式,僅針對佔據多數參數的「混合專家(MoE)」模組進行量化,其他模組則維持 FP8 精度。透過量化感知訓練(QAT),模型在維持效能的同時大幅提升了數據傳輸速度。
2. DFlash 推測解碼:傳統推測解碼受限於小型草稿模型必須逐一生成 Token 的瓶頸,而 DFlash 採用區塊級遮罩平行預測,能一次生成整塊 Token。該方法結合 Muon 二階優化器與模型自我蒸餾,在程式編碼任務中,平均每個區塊能有 6.30 個 Token 通過驗證。
3. TileRT 執行引擎:為了解決微秒級運算中的系統開銷,TileRT 捨棄了傳統逐一啟動算子的方式,改用常駐於 GPU 的「持久引擎核心(Persistent Engine Kernel)」,並透過 Warp Specialization 技術協調運算、數據移動與通訊,消除運算間隙。
應用場景與試用資訊
此技術主要針對對延遲極度敏感的應用,例如平行推理、程式編寫代理(Coding Agents)、即時決策迴圈(如交易訊號生成與詐欺攔截),以及互動式原型開發。小米已釋出相關資源:
- API 試用:開放申請制試用,時間為 2026 年 6 月 9 日至 6 月 23 日。
- 定價:UltraSpeed 模式的價格為標準版 MiMo-V2.5-Pro 的 3 倍,但換取約 10 倍的解碼速度。
- 開源資源:MiMo-V2.5-Pro-FP4-DFlash 檢查點已上架 Hugging Face,TileRT 的部分模組亦已在 GitHub 開源。
儘管該技術在通用硬體上展現了驚人的吞吐量,但目前仍存在一些限制,包括試用門檻較高、價格較昂貴,且尚未有第三方獨立的效能驗證報告公開。



