← 返回首頁

2026/07/04

AI 成本砍半秘技：開源工具 pxpipe 將文字轉為圖片，繞過語言模型計費機制

編輯核心觀點

✦開發者 Steven Chong 推出開源工具 pxpipe，透過將長篇文字轉化為 PNG 圖片，利用 AI 模型對圖片與文字不同的計費邏輯大幅降低 Token 成本。
✦實測顯示該方法能節省 59% 至 70% 的費用，曾將單次會話成本從 42.21 美元壓低至 6.06 美元。
✦此技術存在準確度下降與處理速度變慢的代價，且對於特定模型如 Opus 4.7 與 4.8 仍有約 7% 的辨識錯誤率。

AI 成本砍半秘技：開源工具 pxpipe 將文字轉為圖片，繞過語言模型計費機制

利用計費漏洞：將文字「視覺化」以節省成本

大型語言模型（LLM）的計費通常以文字 Token 為單位，但 Anthropic 等公司對圖片的計費方式卻截然不同。文字輸入的成本與字數成正比，而圖片成本則取決於像素尺寸，與圖片內的資訊密度無關。開源工具 pxpipe 正是利用此差異，將系統提示詞、工具文件與舊對話紀錄等冗長文字，渲染為高密度的 PNG 圖片。

根據開發者 Steven Chong 的實測，透過 pxpipe 將約 48,000 字元的系統提示詞壓縮成一張圖片後，原本需要消耗約 25,000 個 Token 的內容，現在僅需約 2,700 個 Token 即可完成。該工具作為本地代理（Local Proxy）運作，自動攔截發往 Claude Code 的請求，將靜態內容轉為圖片，而最新的訊息與模型輸出則維持文字格式。

效能與準確度的取捨

儘管 pxpipe 能顯著降低開支，但這種「文字轉圖片」的策略並非毫無副作用。首先，處理速度較慢，因為模型必須透過視覺編碼器（Vision Encoder）來解析圖片，而非直接讀取文字。其次，該方法屬於有損壓縮，對於需要精確字串（如雜湊值 Hash）的任務，可能會出現辨識錯誤。

在支援的型號方面，pxpipe 目前預設支援 Claude Fable 5 與 GPT 5.6。根據開發者的測試數據：

Fable 5 在無法預先記憶的數學問題基準測試中達到 100% 的準確度；然而，Opus 4.7 與 4.8 對渲染圖片的誤讀率約為 7%，GPT 5.5 的表現也相對較差。

由於準確度問題，這些模型在工具中預設為關閉狀態，使用者需手動啟用。事實上，將文字轉為圖片進行處理並非首例，Deepseek 先前發表的技術論文也曾提到，透過 OCR 系統將文件轉為圖片處理，能在保留 97% 資訊量的同時，將壓縮率提升至十倍。

為什麼重要

若此類繞過 Token 計費的技巧在開發者社群中普及，AI 服務供應商極可能被迫調整其圖片處理的定價策略，以填補因「文字視覺化」而產生的營收缺口。

資料來源

The Decoder ↗

本文由 AI 綜合上述來源編譯整理，內容僅供參考；著作權歸原出處所有。

相關文章

大型模型在金融領域踢鐵板：橋水基金與 Thinking Machines 揭露「微調」才是勝負關鍵

大型模型在金融領域踢鐵板：橋水基金與 Thinking Machines 揭露「微調」才是勝負關鍵

Claude Fable 5 變笨了？其實是「過度敏感」的資安守門員在搞鬼

Claude Fable 5 變笨了？其實是「過度敏感」的資安守門員在搞鬼

打破自回歸限制：Interfaze 開源 Diffusion ASR 模型，以平行解碼挑戰語音識別效率

打破自回歸限制：Interfaze 開源 Diffusion ASR 模型，以平行解碼挑戰語音識別效率

告別傳統 OCR：如何利用 lift-pdf 打造精準的 AI 財務單據自動化管線

告別傳統 OCR：如何利用 lift-pdf 打造精準的 AI 財務單據自動化管線