Google DeepMind 推 Gemma 4 量化模型：手機也能跑的 1GB AI 輕量化方案

Gemma 4 邁向輕量化：QAT 技術如何優化邊緣運算？

Google DeepMind 近期針對 Gemma 4 模型家族釋出了量化感知訓練（Quantization-Aware Training, QAT）檢查點。這項更新主要針對邊緣裝置（Edge Devices）與消費級 GPU 的本地部署需求，讓開發者能以更低的記憶體資源運行高效能模型。

與傳統的後訓練量化（Post-Training Quantization, PTQ）不同，QAT 在模型訓練過程中即模擬量化過程，使模型學習如何補償精度損失。根據 Google AI 團隊的說法，QAT 的結果在整體品質上優於標準的 PTQ 基線。雖然 Google 尚未發布 Gemma 4 QAT 的具體基準測試分數，但該技術在過往版本中已展現顯著優勢，例如前代 Gemma 3 在使用 llama.cpp 評估時，透過 QAT 將 Q4_0 的困惑度（Perplexity）下降幅度減少了 54%。

記憶體佔用與效能實測分析

在記憶體需求方面，以 Gemma 4 E2B 模型為例，原始 BF16 格式需要 9.6 GB 記憶體，而採用 Q4_0 QAT 格式後可降至 3.2 GB，適合消費級 GPU 甚至 Raspberry Pi 5 等裝置。針對行動裝置，Google 推出了全新的行動專用架構（Mobile QAT schema），進一步將 E2B 模型壓縮至約 1 GB，若進一步移除音訊與視覺編碼器，記憶體需求甚至可低於 1 GB。

行動專用架構的四大技術關鍵

為了適應行動硬體限制，Google AI 團隊採用了四項核心技術：

靜態激活（Static activations）：在訓練階段預先計算縮放比例，減少裝置端的運算負擔。
通道級量化（Channel-wise quantization）：專為行動加速器設計的架構。
針對性 2-bit 量化：僅針對 Token 生成層進行壓縮，核心推理層則維持較高精度，以保護模型能力。
嵌入與 KV 快取優化：有效縮減活躍記憶體的佔用空間。

目前，Q4_0 QAT 與行動專用 QAT 架構在不同應用場景中各具優勢。對於手機等行動裝置，行動格式具備顯著的記憶體優勢；而對於筆記型電腦與消費級 GPU，Q4_0 QAT 則是目前最實用的通用選擇。開發者現已可透過 Hugging Face 取得模型權重，並支援 llama.cpp、Ollama、LM Studio、vLLM、MLX 及 LiteRT-LM 等多種部署工具。

Google DeepMind 推 Gemma 4 量化模型：手機也能跑的 1GB AI 輕量化方案

編輯核心觀點

Gemma 4 邁向輕量化：QAT 技術如何優化邊緣運算？

記憶體佔用與效能實測分析

行動專用架構的四大技術關鍵

資料來源

相關文章

當 AI 代理人成群結隊：Google DeepMind 聯手學界投入千萬美元，防範「數位無政府」風險

蘋果相機主管談 AI 攝影：不是為了 AI 而 AI，而是賦予用戶「超能力」

Apple AI 戰略大轉彎：第三代基礎模型 AFM 3 聯手 Google 雲端，打造隱私與效能平衡術

Google Gemini-SQL2 突破資料庫查詢瓶頸，BIRD 榜單精準度衝上 80.04%