Google 推出 DiffusionGemma:捨棄逐字生成,挑戰 4 倍速文字處理新架構
編輯核心觀點
- ✦Google DeepMind 發布實驗性開放模型 DiffusionGemma,採用類似影像生成的擴散模型技術,實現文字區塊平行處理。
- ✦該模型具備 26B 參數與 3.8B 啟動參數的混合專家架構(MoE),在 NVIDIA H100 與 RTX 5090 等硬體上可達到每秒 700 至 1000 個以上的 Token 生成速度。
- ✦不同於傳統自回歸模型,此架構透過雙向注意力機制進行自我修正,特別適合處理數獨解題、分子序列與非線性文字編輯等任務。

打破自回歸限制:擴散模型應用於文字生成
Google DeepMind 近期釋出實驗性開放模型 DiffusionGemma,這款基於 Apache 2.0 授權的模型,在文字生成技術上與現行主流的自回歸(Autoregressive)模型有顯著差異。傳統模型採取由左至右、逐一生成 Token 的方式,每個字元皆依賴前序內容;而 DiffusionGemma 則借鑒了 AI 影像生成技術,透過「擴散(Diffusion)」機制,一次性平行處理整個文字區塊。
架構與效能:從記憶體瓶頸轉向算力驅動
DiffusionGemma 採用 26B 混合專家架構(MoE),在推論過程中僅需啟動 3.8B 參數,這使其能安裝於具備 18GB VRAM 的高階消費級 GPU 中。根據測試數據,該模型在 NVIDIA H100 加速器上每秒可產出超過 1000 個 Token,而在 NVIDIA GeForce RTX 5090 上則約為每秒 700 個 Token,生成速度最高可達同規模自回歸模型的 4 倍。
此架構將瓶頸從記憶體頻寬轉移至算力,透過平行處理 256 個 Token 的畫布,讓閒置的張量核心(Tensor Cores)能獲得充足的運算負載。
在運作機制上,模型會先建立一個包含隨機佔位符的「畫布」,並透過多次迭代進行去噪(Denoising),最終將文字序列收斂為完整輸出。由於採用雙向注意力機制,模型在去噪過程中能同時參考前後文,實現即時的自我修正,這是傳統自回歸模型一旦輸出即無法回頭修正的關鍵技術突破。
應用場景與限制
Google 指出,DiffusionGemma 的設計初衷並非取代通用生產力模型,而是針對速度敏感、互動式本地工作流程進行優化。例如在處理數獨解題時,傳統模型因無法預判後續變數而難以解題,但經過 JAX 監督式微調後的 DiffusionGemma,正確率可提升至 80%。
儘管效能強勁,Google 仍明確表示,若追求最高品質的產出,現有的 Gemma 4 自回歸模型仍是首選。DiffusionGemma 目前支援多模態輸入(文字、影像、影片),並具備 256K 的上下文窗口與 140 種以上語言支援,為開發者提供了一種在非線性任務(如分子序列分析、數學圖表繪製)中更具效率的新選擇。



