Google 推出 DiffusionGemma：捨棄逐字生成，挑戰 4 倍速文字處理新架構

打破自回歸限制：擴散模型應用於文字生成

Google DeepMind 近期釋出實驗性開放模型 DiffusionGemma，這款基於 Apache 2.0 授權的模型，在文字生成技術上與現行主流的自回歸（Autoregressive）模型有顯著差異。傳統模型採取由左至右、逐一生成 Token 的方式，每個字元皆依賴前序內容；而 DiffusionGemma 則借鑒了 AI 影像生成技術，透過「擴散（Diffusion）」機制，一次性平行處理整個文字區塊。

架構與效能：從記憶體瓶頸轉向算力驅動

DiffusionGemma 採用 26B 混合專家架構（MoE），在推論過程中僅需啟動 3.8B 參數，這使其能安裝於具備 18GB VRAM 的高階消費級 GPU 中。根據測試數據，該模型在 NVIDIA H100 加速器上每秒可產出超過 1000 個 Token，而在 NVIDIA GeForce RTX 5090 上則約為每秒 700 個 Token，生成速度最高可達同規模自回歸模型的 4 倍。

此架構將瓶頸從記憶體頻寬轉移至算力，透過平行處理 256 個 Token 的畫布，讓閒置的張量核心（Tensor Cores）能獲得充足的運算負載。

在運作機制上，模型會先建立一個包含隨機佔位符的「畫布」，並透過多次迭代進行去噪（Denoising），最終將文字序列收斂為完整輸出。由於採用雙向注意力機制，模型在去噪過程中能同時參考前後文，實現即時的自我修正，這是傳統自回歸模型一旦輸出即無法回頭修正的關鍵技術突破。

應用場景與限制

Google 指出，DiffusionGemma 的設計初衷並非取代通用生產力模型，而是針對速度敏感、互動式本地工作流程進行優化。例如在處理數獨解題時，傳統模型因無法預判後續變數而難以解題，但經過 JAX 監督式微調後的 DiffusionGemma，正確率可提升至 80%。

儘管效能強勁，Google 仍明確表示，若追求最高品質的產出，現有的 Gemma 4 自回歸模型仍是首選。DiffusionGemma 目前支援多模態輸入（文字、影像、影片），並具備 256K 的上下文窗口與 140 種以上語言支援，為開發者提供了一種在非線性任務（如分子序列分析、數學圖表繪製）中更具效率的新選擇。

Google 推出 DiffusionGemma：捨棄逐字生成，挑戰 4 倍速文字處理新架構

編輯核心觀點

打破自回歸限制：擴散模型應用於文字生成

架構與效能：從記憶體瓶頸轉向算力驅動

應用場景與限制

資料來源

相關文章

Apple AI 戰略大轉彎：第三代基礎模型 AFM 3 聯手 Google 雲端，打造隱私與效能平衡術

蘋果相機主管談 AI 攝影：不是為了 AI 而 AI，而是賦予用戶「超能力」

當 AI 代理人成群結隊：Google DeepMind 聯手學界投入千萬美元，防範「數位無政府」風險

Google 對抗 AI 詐騙集團：首度提告中國犯罪組織並推動立法防堵