Google DeepMind 推 Gemma 4 量化模型:手機也能跑的 1GB AI 輕量化方案
編輯核心觀點
- ✦Google DeepMind 釋出 Gemma 4 的量化感知訓練(QAT)檢查點,旨在優化邊緣裝置與消費級 GPU 的部署效能。
- ✦透過全新的行動裝置專用架構,Gemma 4 E2B 模型在移除多模態編碼器後,記憶體佔用可縮減至 1GB 以下。
- ✦QAT 技術能讓模型在維持較高精準度的同時進行壓縮,相比傳統後訓練量化(PTQ)能提供更好的品質表現。

Gemma 4 邁向輕量化:QAT 技術如何優化邊緣運算?
Google DeepMind 近期針對 Gemma 4 模型家族釋出了量化感知訓練(Quantization-Aware Training, QAT)檢查點。這項更新主要針對邊緣裝置(Edge Devices)與消費級 GPU 的本地部署需求,讓開發者能以更低的記憶體資源運行高效能模型。
與傳統的後訓練量化(Post-Training Quantization, PTQ)不同,QAT 在模型訓練過程中即模擬量化過程,使模型學習如何補償精度損失。根據 Google AI 團隊的說法,QAT 的結果在整體品質上優於標準的 PTQ 基線。雖然 Google 尚未發布 Gemma 4 QAT 的具體基準測試分數,但該技術在過往版本中已展現顯著優勢,例如前代 Gemma 3 在使用 llama.cpp 評估時,透過 QAT 將 Q4_0 的困惑度(Perplexity)下降幅度減少了 54%。
記憶體佔用與效能實測分析
在記憶體需求方面,以 Gemma 4 E2B 模型為例,原始 BF16 格式需要 9.6 GB 記憶體,而採用 Q4_0 QAT 格式後可降至 3.2 GB,適合消費級 GPU 甚至 Raspberry Pi 5 等裝置。針對行動裝置,Google 推出了全新的行動專用架構(Mobile QAT schema),進一步將 E2B 模型壓縮至約 1 GB,若進一步移除音訊與視覺編碼器,記憶體需求甚至可低於 1 GB。
行動專用架構的四大技術關鍵
為了適應行動硬體限制,Google AI 團隊採用了四項核心技術:
- 靜態激活(Static activations):在訓練階段預先計算縮放比例,減少裝置端的運算負擔。
- 通道級量化(Channel-wise quantization):專為行動加速器設計的架構。
- 針對性 2-bit 量化:僅針對 Token 生成層進行壓縮,核心推理層則維持較高精度,以保護模型能力。
- 嵌入與 KV 快取優化:有效縮減活躍記憶體的佔用空間。
目前,Q4_0 QAT 與行動專用 QAT 架構在不同應用場景中各具優勢。對於手機等行動裝置,行動格式具備顯著的記憶體優勢;而對於筆記型電腦與消費級 GPU,Q4_0 QAT 則是目前最實用的通用選擇。開發者現已可透過 Hugging Face 取得模型權重,並支援 llama.cpp、Ollama、LM Studio、vLLM、MLX 及 LiteRT-LM 等多種部署工具。



