參數少、算力省：微軟 Lens 模型證明「高品質標註」比堆疊數據更關鍵

參數規模不再是唯一指標

在生成式 AI 競賽中，當微軟 MAI 團隊致力於開發大型圖像模型時，微軟研究院（Microsoft Research）採取了截然不同的路徑。他們推出的 Lens 模型證明了透過精簡的架構與高品質的訓練數據，即便在有限的算力資源下，也能達到頂尖效能。

根據技術報告，Lens 僅需同類模型（如 Z-Image）約五分之一的預訓練算力，且在多項基準測試中，表現優於參數規模數倍的對手。例如，Hunyuan-Image-3.0 擁有約 800 億個參數，而 Lens 僅有 38 億個參數，卻依然能維持極高的生成水準與短暫的推論時間。

數據品質勝過數據總量

Lens 的高效能核心在於其訓練數據集 Lens-800M，包含 8 億對圖像與文字。研究團隊指出，這些標註由 GPT-4.1 生成，平均長度約 100 字，遠比網路爬蟲抓取的標準替代文字（alt-text）更為細膩。研究顯示，網路原始標註往往模糊甚至錯誤，會導致模型學習訊號被稀釋，而長篇幅的詳細描述能顯著提升生成品質。

在架構選擇上，團隊測試了多種變分自編碼器（VAE），最終採用 FLUX.2 的語義 VAE，這不僅優化了像素與壓縮空間的轉換，還加速了模型收斂。此外，Lens 採用 OpenAI 的 GPT-OSS 作為文字編碼器，這使得模型即便僅使用英文數據集訓練，也能理解中文、法文、日文與西班牙文的提示詞，並大幅提升對指令的忠實度。

自動化提示詞優化與推論加速

為了處理用戶模糊的輸入，微軟在模型前端加入了一個「推理器（Reasoner）」，負責將簡短指令改寫為詳細描述。該推理器預設使用 GPT-5.5，但也支援 GPT-OSS，且無需額外記憶體。此外，針對追求速度的應用場景，微軟推出了 Lens-Turbo，透過蒸餾技術，將生成步驟縮減至 4 步，在 H100 GPU 上能於一秒內完成一張百萬像素圖像的生成。

儘管 Lens 在文字渲染與複雜場景表現上優於 FLUX.2-Klein，研究團隊仍坦承，由於數據覆蓋範圍限制，模型在日文或法文的文字渲染上仍有改進空間。目前，Lens 的程式碼與模型檢查點已依據 MIT 授權條款釋出，並上架至 GitHub 與 Hugging Face，供研究人員使用。微軟強調，該模型僅限研究用途，未經生產環境驗證，且因訓練數據包含網路來源，使用者需自行採取安全防護措施。

參數少、算力省：微軟 Lens 模型證明「高品質標註」比堆疊數據更關鍵

編輯核心觀點

參數規模不再是唯一指標

數據品質勝過數據總量

自動化提示詞優化與推論加速

資料來源

相關文章

軟體巨頭的兩難：微軟為何對高效能 AI 模型 Claude Fable 5 設下使用禁令？

Anthropic 新模型 Claude Fable 5 引發企業恐慌：AI 治理權力落入私人企業手中？

Apple AI 戰略大轉彎：第三代基礎模型 AFM 3 聯手 Google 雲端，打造隱私與效能平衡術

AI 代理人「針」防不住？最新研究揭 GPT-5、Gemini 仍難逃提示詞注入攻擊