告別逐字生成!Google 推 DiffusionGemma:用「擴散模型」讓 AI 文字處理速度快 4 倍
編輯核心觀點
- ✦Google 推出實驗性模型 DiffusionGemma,捨棄傳統逐字生成的模式,改以擴散技術一次處理 256 個 Token。
- ✦該模型在單機模式下運作效率極高,於 GeForce RTX 5090 等高階顯卡上可達每秒 700 個 Token 以上的生成速度。
- ✦由於具備全域考量能力,DiffusionGemma 在填補程式碼、處理結構化數據及解數獨等非線性任務上表現優異,但整體生成品質仍略遜於傳統模型。

Google 近期發布了一款名為 DiffusionGemma 的實驗性模型,這項技術打破了大型語言模型(LLM)長期以來「逐字生成(Autoregressive)」的慣例。該模型採用與影像生成 AI 類似的「擴散(Diffusion)」原理,將雜訊逐步轉化為清晰文字,而非依賴前一個字預測下一個字。
混合專家架構與硬體優化
DiffusionGemma 擁有 260 億個參數,但透過「混合專家(Mixture-of-Experts)」架構,每次運算僅會啟動 38 億個參數,這使其在資源調度上更具彈性。在 NVIDIA 的優化協助下,該模型在單機單用戶模式下,生成速度比同規模的傳統語言模型快上約 4 倍。
Nvidia 指出,傳統模型在單用戶推論時,常受限於記憶體頻寬,導致 GPU 計算單元閒置。DiffusionGemma 透過一次並行處理 256 個 Token,成功將瓶頸轉移至運算能力,讓 GPU 保持高負載運作。根據 Google 數據,該模型在 GeForce RTX 5090 上每秒可產生超過 700 個 Token;而在 H100 伺服器上,單一請求的處理速度甚至可達每秒 1,000 個 Token。
非線性任務的應用優勢
由於 DiffusionGemma 在生成時會考量整個文字區塊,而非僅限於從左到右的順序,這使其在處理「非線性」任務時展現出獨特優勢。傳統模型因無法預知後續內容,在處理結構化數據、氨基酸序列或填補程式碼時常顯得吃力。Google 以解數獨為例,展示了 DiffusionGemma 透過微調後,能精準填補數獨格子的能力,這是傳統逐字模型難以克服的挑戰。
儘管速度驚人,Google 強調 DiffusionGemma 在品質評測上仍落後於標準的 Gemma 4 模型,因此建議研究人員與開發者將其定位於需要快速迭代的實驗性工作流。此外,在雲端高併發請求的場景下,由於傳統模型已能充分利用硬體資源,DiffusionGemma 的速度優勢將不復存在,甚至可能導致成本上升。
開源生態與工具支援
目前 DiffusionGemma 已在 Hugging Face 上以 Apache 2.0 授權開源,並支援 Hugging Face Transformers、vLLM 與 MLX 等主流推論庫。Nvidia 也已針對 Hopper 與 Blackwell 架構進行優化,並將其納入 Nvidia NIM 與 Gemini Enterprise Agent Platform Model Garden 中。未來,該模型亦計畫加入對 llama.cpp 的支援,進一步擴大其在本地端運行的應用範疇。



