小米 MiMo 團隊突破算力極限：1 兆參數模型在通用 GPU 上達成每秒千字輸出

突破算力瓶頸：通用硬體上的兆級模型

大型語言模型的推論速度正成為衡量競爭力的關鍵指標。小米 MiMo 團隊近日發表了 MiMo-V2.5-Pro-UltraSpeed，這是一項與 TileRT 系統組共同開發的技術，能在 1 兆參數規模的模型上，達成每秒超過 1000 個 Token（Tokens Per Second, TPS）的解碼速度，示範數據甚至顯示峰值可達 1200 TPS。與傳統依賴客製化晶片（如 Groq 或 Cerebras）的方案不同，該技術完全運行在標準的 8 顆通用 GPU 節點上。

模型系統協同設計：三大核心技術

UltraSpeed 模式並非單一技術的產物，而是透過「極致模型系統協同設計（Extreme model-system codesign）」將模型架構與執行系統深度整合。其效能提升來自三個關鍵層面：

1. FP4 量化技術：針對兆級參數模型，FP8 或 FP16 權重會帶來沉重的記憶體與頻寬壓力。小米採用 MXFP4 格式，僅針對佔據多數參數的「混合專家（MoE）」模組進行量化，其他模組則維持 FP8 精度。透過量化感知訓練（QAT），模型在維持效能的同時大幅提升了數據傳輸速度。

2. DFlash 推測解碼：傳統推測解碼受限於小型草稿模型必須逐一生成 Token 的瓶頸，而 DFlash 採用區塊級遮罩平行預測，能一次生成整塊 Token。該方法結合 Muon 二階優化器與模型自我蒸餾，在程式編碼任務中，平均每個區塊能有 6.30 個 Token 通過驗證。

3. TileRT 執行引擎：為了解決微秒級運算中的系統開銷，TileRT 捨棄了傳統逐一啟動算子的方式，改用常駐於 GPU 的「持久引擎核心（Persistent Engine Kernel）」，並透過 Warp Specialization 技術協調運算、數據移動與通訊，消除運算間隙。

應用場景與試用資訊

此技術主要針對對延遲極度敏感的應用，例如平行推理、程式編寫代理（Coding Agents）、即時決策迴圈（如交易訊號生成與詐欺攔截），以及互動式原型開發。小米已釋出相關資源：

API 試用：開放申請制試用，時間為 2026 年 6 月 9 日至 6 月 23 日。
定價：UltraSpeed 模式的價格為標準版 MiMo-V2.5-Pro 的 3 倍，但換取約 10 倍的解碼速度。
開源資源：MiMo-V2.5-Pro-FP4-DFlash 檢查點已上架 Hugging Face，TileRT 的部分模組亦已在 GitHub 開源。

儘管該技術在通用硬體上展現了驚人的吞吐量，但目前仍存在一些限制，包括試用門檻較高、價格較昂貴，且尚未有第三方獨立的效能驗證報告公開。

小米 MiMo 團隊突破算力極限：1 兆參數模型在通用 GPU 上達成每秒千字輸出

編輯核心觀點

突破算力瓶頸：通用硬體上的兆級模型

模型系統協同設計：三大核心技術

應用場景與試用資訊

資料來源

相關文章

AI 代理人走出雲端！Moonshot AI 推 Kimi Work，讓 300 個子代理人直接在你的電腦上工作

Google Gemini-SQL2 突破資料庫查詢瓶頸，BIRD 榜單精準度衝上 80.04%

社群訊息多到淹沒？AI 導入實戰：Portland Leather Goods 如何用 AI 解決每日 7 萬則互動難題

Google 對抗 AI 詐騙集團：首度提告中國犯罪組織並推動立法防堵