返回首頁

參數少、算力省:微軟 Lens 模型證明「高品質標註」比堆疊數據更關鍵

編輯核心觀點

  • 微軟研究院推出的 Lens 模型僅需同類產品五分之一的訓練算力,卻能展現超越數倍參數規模模型的效能。
  • 該研究證實,透過 GPT-4.1 生成的高品質、長篇幅圖像標註,能顯著提升模型對提示詞的理解與生成品質。
  • Lens 採用模組化架構,包含能將模糊指令自動改寫為詳細提示詞的「推理器」,並已在 GitHub 與 Hugging Face 開放研究使用。
參數少、算力省:微軟 Lens 模型證明「高品質標註」比堆疊數據更關鍵

參數規模不再是唯一指標

在生成式 AI 競賽中,當微軟 MAI 團隊致力於開發大型圖像模型時,微軟研究院(Microsoft Research)採取了截然不同的路徑。他們推出的 Lens 模型證明了透過精簡的架構與高品質的訓練數據,即便在有限的算力資源下,也能達到頂尖效能。

根據技術報告,Lens 僅需同類模型(如 Z-Image)約五分之一的預訓練算力,且在多項基準測試中,表現優於參數規模數倍的對手。例如,Hunyuan-Image-3.0 擁有約 800 億個參數,而 Lens 僅有 38 億個參數,卻依然能維持極高的生成水準與短暫的推論時間。

數據品質勝過數據總量

Lens 的高效能核心在於其訓練數據集 Lens-800M,包含 8 億對圖像與文字。研究團隊指出,這些標註由 GPT-4.1 生成,平均長度約 100 字,遠比網路爬蟲抓取的標準替代文字(alt-text)更為細膩。研究顯示,網路原始標註往往模糊甚至錯誤,會導致模型學習訊號被稀釋,而長篇幅的詳細描述能顯著提升生成品質。

在架構選擇上,團隊測試了多種變分自編碼器(VAE),最終採用 FLUX.2 的語義 VAE,這不僅優化了像素與壓縮空間的轉換,還加速了模型收斂。此外,Lens 採用 OpenAI 的 GPT-OSS 作為文字編碼器,這使得模型即便僅使用英文數據集訓練,也能理解中文、法文、日文與西班牙文的提示詞,並大幅提升對指令的忠實度。

自動化提示詞優化與推論加速

為了處理用戶模糊的輸入,微軟在模型前端加入了一個「推理器(Reasoner)」,負責將簡短指令改寫為詳細描述。該推理器預設使用 GPT-5.5,但也支援 GPT-OSS,且無需額外記憶體。此外,針對追求速度的應用場景,微軟推出了 Lens-Turbo,透過蒸餾技術,將生成步驟縮減至 4 步,在 H100 GPU 上能於一秒內完成一張百萬像素圖像的生成。

儘管 Lens 在文字渲染與複雜場景表現上優於 FLUX.2-Klein,研究團隊仍坦承,由於數據覆蓋範圍限制,模型在日文或法文的文字渲染上仍有改進空間。目前,Lens 的程式碼與模型檢查點已依據 MIT 授權條款釋出,並上架至 GitHub 與 Hugging Face,供研究人員使用。微軟強調,該模型僅限研究用途,未經生產環境驗證,且因訓練數據包含網路來源,使用者需自行採取安全防護措施。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章