小米 AI 推論速度破千!MiMo 模型靠軟體優化,擊敗專用晶片架構
編輯核心觀點
- ✦小米與 TileRT 合作,成功讓兆級參數模型在標準 8-GPU 節點上達到每秒 1,000 個 Token 的推論速度。
- ✦技術核心在於 FP4 量化與 DFlash 推測解碼,透過模型層級的精細優化而非依賴客製化硬體達成。
- ✦此項技術已開放 API 試用,並於 Hugging Face 提供開源檢查點,旨在解決高延遲應用場景的效能瓶頸。

標準硬體跑出驚人速度
以手機與智慧家電聞名的小米,近期在人工智慧推論領域投下震撼彈。其推出的 MiMo-V2.5-Pro-UltraSpeed 推論模式,在兆級參數(1-trillion-parameter)的旗艦模型上,實現了每秒超過 1,000 個 Token 的生成速度,測試中甚至一度達到 1,200 Token/s。這項突破並非依賴昂貴的客製化晶片,而是僅使用標準的 8-GPU 通用節點。
若以數據對比,根據 Artificial Analysis 的統計,目前主流模型如 ChatGPT 使用的 GPT-5.5 約為 68 Token/s,Claude Opus 4.6 約為 71 Token/s,Gemini Flash 則約為 192 Token/s。小米的這項成果,在模型編碼能力與 Opus 相當的前提下,速度卻有顯著優勢。
兩大技術支撐:FP4 量化與 DFlash
小米將此成就歸功於「模型與系統的極致協同設計」,主要透過兩項關鍵技術達成:
- FP4 量化(FP4 Quantization):小米針對模型中佔比最大的專家層(Expert layers)進行 4-bit 量化,大幅降低記憶體佔用與頻寬壓力。為了確保模型品質,非專家層仍維持全精度運作,將品質損失降至接近零。
- DFlash 推測解碼(DFlash Speculative Decoding):傳統推測解碼依賴小型草稿模型進行預測,而 DFlash 則直接在單次前向傳遞中填滿整個遮蔽區塊。在編碼任務中,模型平均能在單次驗證中確認 6.3 個 Token,大幅減少了執行間隙。
此外,推理引擎 TileRT 負責將整個運算管線常駐於 GPU 中,消除了操作啟動的額外開銷。
應用場景與試用計畫
極高的推論速度改變了 AI 的應用邊界。過去因延遲限制而難以實現的應用,如即時交易訊號生成、詐欺偵測或多路徑平行推理,現在均具備了可行性。MiMo-V2.5-Pro 本身在編碼基準測試中表現優異,且運作成本遠低於 Claude Opus。
小米已於 6 月 9 日至 6 月 23 日期間開放有限制的 API 試用,價格設定為標準 MiMo-V2.5-Pro 費率的 3 倍,但輸出速度提升約 10 倍。該試用優先提供給企業與專業開發者,FP4-DFlash 檢查點也已同步在 Hugging Face 開源,供社群進行測試。



