小米 AI 推論速度破千！MiMo 模型靠軟體優化，擊敗專用晶片架構

標準硬體跑出驚人速度

以手機與智慧家電聞名的小米，近期在人工智慧推論領域投下震撼彈。其推出的 MiMo-V2.5-Pro-UltraSpeed 推論模式，在兆級參數（1-trillion-parameter）的旗艦模型上，實現了每秒超過 1,000 個 Token 的生成速度，測試中甚至一度達到 1,200 Token/s。這項突破並非依賴昂貴的客製化晶片，而是僅使用標準的 8-GPU 通用節點。

若以數據對比，根據 Artificial Analysis 的統計，目前主流模型如 ChatGPT 使用的 GPT-5.5 約為 68 Token/s，Claude Opus 4.6 約為 71 Token/s，Gemini Flash 則約為 192 Token/s。小米的這項成果，在模型編碼能力與 Opus 相當的前提下，速度卻有顯著優勢。

兩大技術支撐：FP4 量化與 DFlash

小米將此成就歸功於「模型與系統的極致協同設計」，主要透過兩項關鍵技術達成：

FP4 量化（FP4 Quantization）：小米針對模型中佔比最大的專家層（Expert layers）進行 4-bit 量化，大幅降低記憶體佔用與頻寬壓力。為了確保模型品質，非專家層仍維持全精度運作，將品質損失降至接近零。
DFlash 推測解碼（DFlash Speculative Decoding）：傳統推測解碼依賴小型草稿模型進行預測，而 DFlash 則直接在單次前向傳遞中填滿整個遮蔽區塊。在編碼任務中，模型平均能在單次驗證中確認 6.3 個 Token，大幅減少了執行間隙。

此外，推理引擎 TileRT 負責將整個運算管線常駐於 GPU 中，消除了操作啟動的額外開銷。