Google 釋出 DiffusionGemma：捨棄逐字生成，AI 寫作速度飆升至每秒千字

打破逐字生成限制：文字擴散技術的突破

Google 近日釋出全新開源模型 DiffusionGemma，這款模型改變了大型語言模型（LLM）傳統的「自回歸（Autoregressive）」運作模式。過去的 AI 模型如同打字機，必須依序生成每一個 Token，而 DiffusionGemma 則採取類似影像生成模型的邏輯，從隨機雜訊開始，透過多次迭代，一次性生成 256 個 Token 的區塊。這種平行處理架構使其在 NVIDIA H100 顯卡上能達到每秒超過 1,000 個 Token 的速度，效率是標準版 Gemma 的四倍。

雙向注意力機制的應用場景

由於 DiffusionGemma 採用平行生成，它具備了「雙向注意力（Bidirectional Attention）」能力，意即模型在生成每個 Token 時，都能同時看到前後文的資訊。這項特性使其在處理「結尾限制開頭」的任務時表現出色，例如程式碼補全、結構化資料輸出或數學邏輯問題。Google 在開發指南中提到，透過微調，該模型在數獨（Sudoku）解題任務上的準確率從基礎模型的近乎 0% 提升至 80%。

現階段的部署挑戰

儘管技術指標亮眼，但 DiffusionGemma 目前仍面臨嚴峻的部署門檻。該模型需要一個名為「草稿模組（Drafter module）」的輕量化組件來進行推論，但目前包括 mlx-lm、LM Studio 等主流運行環境皆尚未支援。此外，在 NVIDIA NIM 環境中，該模型預設的 8,192 Token 上下文視窗遠低於 Hermes Agent 等代理人框架所需的 64,000 Token 最低門檻，導致使用者必須進行繁瑣的手動配置才能讓代理人順利啟動。

Google 官方指出，DiffusionGemma 是一款追求「速度」而非「品質」的模型，其輸出品質仍落後於標準版 Gemma。

誰適合使用這款模型？

目前 DiffusionGemma 的目標受眾為擁有 NVIDIA RTX 4090 或 5090 等高階顯卡，且正在開發即時編輯器、自動補全工具或結構化生成系統的開發者。這項發布延續了 Google 自今年 4 月以來推動 Gemma 系列開源的策略。隨著社群工具鏈（如 llama.cpp）的逐步跟進，未來這類模型的應用範圍有望進一步擴大。

Google 釋出 DiffusionGemma：捨棄逐字生成，AI 寫作速度飆升至每秒千字

編輯核心觀點

打破逐字生成限制：文字擴散技術的突破

雙向注意力機制的應用場景

現階段的部署挑戰

誰適合使用這款模型？

資料來源

相關文章

Apple AI 戰略大轉彎：第三代基礎模型 AFM 3 聯手 Google 雲端，打造隱私與效能平衡術

Google Gemini-SQL2 突破資料庫查詢瓶頸，BIRD 榜單精準度衝上 80.04%

AI 代理人走出雲端！Moonshot AI 推 Kimi Work，讓 300 個子代理人直接在你的電腦上工作

月之暗面推出 Kimi Work：讓 300 個 AI 代理駐守電腦，直接接管你的瀏覽器與檔案