返回首頁

Google 釋出 DiffusionGemma:捨棄逐字生成,AI 寫作速度飆升至每秒千字

編輯核心觀點

  • Google 發布開源模型 DiffusionGemma,透過「文字擴散」技術實現平行生成,在 NVIDIA H100 上達到每秒 1,000 個 Token 的處理速度。
  • 該模型具備雙向注意力機制,在程式碼補全與結構化輸出等任務表現優異,但目前缺乏主流運行環境的支援,一般使用者難以直接部署。
  • 儘管效能驚人,DiffusionGemma 的輸出品質仍略遜於標準版 Gemma,且需針對特定硬體進行手動配置才能運行代理人框架。
Google 釋出 DiffusionGemma:捨棄逐字生成,AI 寫作速度飆升至每秒千字

打破逐字生成限制:文字擴散技術的突破

Google 近日釋出全新開源模型 DiffusionGemma,這款模型改變了大型語言模型(LLM)傳統的「自回歸(Autoregressive)」運作模式。過去的 AI 模型如同打字機,必須依序生成每一個 Token,而 DiffusionGemma 則採取類似影像生成模型的邏輯,從隨機雜訊開始,透過多次迭代,一次性生成 256 個 Token 的區塊。這種平行處理架構使其在 NVIDIA H100 顯卡上能達到每秒超過 1,000 個 Token 的速度,效率是標準版 Gemma 的四倍。

雙向注意力機制的應用場景

由於 DiffusionGemma 採用平行生成,它具備了「雙向注意力(Bidirectional Attention)」能力,意即模型在生成每個 Token 時,都能同時看到前後文的資訊。這項特性使其在處理「結尾限制開頭」的任務時表現出色,例如程式碼補全、結構化資料輸出或數學邏輯問題。Google 在開發指南中提到,透過微調,該模型在數獨(Sudoku)解題任務上的準確率從基礎模型的近乎 0% 提升至 80%。

現階段的部署挑戰

儘管技術指標亮眼,但 DiffusionGemma 目前仍面臨嚴峻的部署門檻。該模型需要一個名為「草稿模組(Drafter module)」的輕量化組件來進行推論,但目前包括 mlx-lm、LM Studio 等主流運行環境皆尚未支援。此外,在 NVIDIA NIM 環境中,該模型預設的 8,192 Token 上下文視窗遠低於 Hermes Agent 等代理人框架所需的 64,000 Token 最低門檻,導致使用者必須進行繁瑣的手動配置才能讓代理人順利啟動。

Google 官方指出,DiffusionGemma 是一款追求「速度」而非「品質」的模型,其輸出品質仍落後於標準版 Gemma。

誰適合使用這款模型?

目前 DiffusionGemma 的目標受眾為擁有 NVIDIA RTX 4090 或 5090 等高階顯卡,且正在開發即時編輯器、自動補全工具或結構化生成系統的開發者。這項發布延續了 Google 自今年 4 月以來推動 Gemma 系列開源的策略。隨著社群工具鏈(如 llama.cpp)的逐步跟進,未來這類模型的應用範圍有望進一步擴大。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章