返回首頁

Ideogram 4.0 開放權重發布:挑戰 Flux 與 Midjourney,文字渲染能力成最大亮點

編輯核心觀點

  • Ideogram 4.0 正式以開放權重模型形式釋出,支援原生 2K 解析度與精準的邊界框佈局控制。
  • 該模型在 DesignArena 排行榜位居開放權重模型首位,僅次於 OpenAI 與 Google 的封閉式模型。
  • 開發者可於 GitHub 下載權重與程式碼進行微調,但若涉及商業用途則需另外購買授權。
Ideogram 4.0 開放權重發布:挑戰 Flux 與 Midjourney,文字渲染能力成最大亮點

生成式 AI 領域再添強勁對手,Ideogram 近日正式發布 4.0 版本文字轉圖像模型。此次更新不僅提升了影像品質,更採取了「開放權重(Open-weight)」策略,允許使用者在自有硬體上運行並進行數據微調。儘管模型權重與程式碼已公開於 GitHub,但官方明確指出,若將其應用於商業用途,仍須取得付費授權。

核心功能與技術升級

Ideogram 4.0 在圖像生成能力上進行了多項關鍵升級,特別針對設計需求強化了細節控制:

  • 原生 2K 解析度:提升輸出影像的清晰度。
  • 透明背景與佈局控制:透過邊界框(Bounding boxes)功能,使用者能更精確地控制圖像中的物件位置與排版。
  • 文字渲染優化:針對 Logo 設計與海報製作需求,大幅改善了圖像中文字的呈現效果。

官方預告,未來將進一步支援可編輯文字與圖層功能。

市場競爭力與評測表現

根據 DesignArena 的排行榜數據,Ideogram 4.0 目前在所有開放權重模型中排名第一,整體表現僅次於 OpenAI 與 Google 旗下的封閉式模型。在文字轉圖像的綜合評比中,該模型在「品質模式」下位居榜首,總排名則位列第九。

在《The Decoder》的基準測試中,Ideogram 4.0 在處理抽象概念(如「騎馬的太空人」)的指令遵循能力上,表現優於 Midjourney v8,並與 Flux 模型水準相當,但仍不及 GPT-Image-2、Nano Banana Pro 或 Luma Uni-1.1 等模型。

使用管道與定價

除了開放權重供開發者自建環境外,Ideogram 4.0 也透過官方 API 以及多個合作平台提供服務,包括 Hugging Face、ComfyUI、fal、Runware、Magnific、Krea AI、Leonardo AI、Picsart、Cloudflare、Replicate、Gamma、Flora AI 與 Kittl。

針對官方託管的 API 服務,Ideogram 採取三種品質等級的計費模式:

  • Turbo 等級:每張影像 0.03 美元
  • Default 等級:每張影像 0.06 美元
  • Quality 等級:每張影像 0.10 美元

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章