AI 成本砍半秘技:開源工具 pxpipe 將文字轉為圖片,繞過語言模型計費機制
編輯核心觀點
- ✦開發者 Steven Chong 推出開源工具 pxpipe,透過將長篇文字轉化為 PNG 圖片,利用 AI 模型對圖片與文字不同的計費邏輯大幅降低 Token 成本。
- ✦實測顯示該方法能節省 59% 至 70% 的費用,曾將單次會話成本從 42.21 美元壓低至 6.06 美元。
- ✦此技術存在準確度下降與處理速度變慢的代價,且對於特定模型如 Opus 4.7 與 4.8 仍有約 7% 的辨識錯誤率。

利用計費漏洞:將文字「視覺化」以節省成本
大型語言模型(LLM)的計費通常以文字 Token 為單位,但 Anthropic 等公司對圖片的計費方式卻截然不同。文字輸入的成本與字數成正比,而圖片成本則取決於像素尺寸,與圖片內的資訊密度無關。開源工具 pxpipe 正是利用此差異,將系統提示詞、工具文件與舊對話紀錄等冗長文字,渲染為高密度的 PNG 圖片。
根據開發者 Steven Chong 的實測,透過 pxpipe 將約 48,000 字元的系統提示詞壓縮成一張圖片後,原本需要消耗約 25,000 個 Token 的內容,現在僅需約 2,700 個 Token 即可完成。該工具作為本地代理(Local Proxy)運作,自動攔截發往 Claude Code 的請求,將靜態內容轉為圖片,而最新的訊息與模型輸出則維持文字格式。
效能與準確度的取捨
儘管 pxpipe 能顯著降低開支,但這種「文字轉圖片」的策略並非毫無副作用。首先,處理速度較慢,因為模型必須透過視覺編碼器(Vision Encoder)來解析圖片,而非直接讀取文字。其次,該方法屬於有損壓縮,對於需要精確字串(如雜湊值 Hash)的任務,可能會出現辨識錯誤。
在支援的型號方面,pxpipe 目前預設支援 Claude Fable 5 與 GPT 5.6。根據開發者的測試數據:
Fable 5 在無法預先記憶的數學問題基準測試中達到 100% 的準確度;然而,Opus 4.7 與 4.8 對渲染圖片的誤讀率約為 7%,GPT 5.5 的表現也相對較差。
由於準確度問題,這些模型在工具中預設為關閉狀態,使用者需手動啟用。事實上,將文字轉為圖片進行處理並非首例,Deepseek 先前發表的技術論文也曾提到,透過 OCR 系統將文件轉為圖片處理,能在保留 97% 資訊量的同時,將壓縮率提升至十倍。
為什麼重要
若此類繞過 Token 計費的技巧在開發者社群中普及,AI 服務供應商極可能被迫調整其圖片處理的定價策略,以填補因「文字視覺化」而產生的營收缺口。



