百度推出「無限 OCR」模型：模仿人類閱讀機制，解決長文件處理記憶體瓶頸

模仿人類閱讀：R-SWA 技術的運作邏輯

目前的端對端文件辨識系統，多半依賴語言模型作為解碼器，導致記憶體中的緩衝區（buffer）會隨著文字生成而線性增長，進而拖慢運算速度。百度提出的「無限 OCR（Unlimited OCR）」模型，靈感來自人類閱讀與抄寫書籍的方式：人類在抄寫時，並不會不斷回頭重讀整本書，而是專注於來源文件、剛寫下的幾個字，以及即將寫下的內容，並讓較舊的記憶自然淡化。

為了實現這種機制，百度開發了參考滑動視窗注意力（Reference Sliding Window Attention, R-SWA）。該技術讓每個生成的 Token 都能參照原始影像與提示詞，但在處理已生成的輸出內容時，僅回溯最後的 128 個 Token。這使得鍵值快取（KV cache）在整個過程中保持固定，不再隨輸出長度無限制擴張。

R-SWA 將視覺 Token 排除在狀態轉換之外，確保它們在編碼後保持不變，避免了傳統滑動視窗注意力可能導致的影像特徵模糊與辨識率下降問題。

架構優化與效能實測

無限 OCR 是基於開源的 Deepseek OCR 模型進行改良，採用混合專家架構（MoE），擁有 30 億參數，但在推論時僅需啟動約 5 億參數。其 DeepEncoder 能將 1024x1024 解析度的 PDF 影像壓縮為 256 個 Token。

根據百度提供的數據，無限 OCR 在 OmniDocBench v1.5 文件基準測試中取得 93% 的準確率，較 Deepseek OCR 基線高出 6 個百分點；在 v1.6 版本中更達到 93.92%。在處理超過 40 頁的長文件時，其錯誤率始終保持在 0.11 以下。此外，在 Base 模式下，該模型的處理速度達到每秒 5,580 個 Token，比 Deepseek OCR 的每秒 4,951 個 Token 快了 12.7%。

未來展望與限制

儘管稱為「無限」，但目前的模型仍受限於 32,000 個 Token 的固定上下文長度。百度計畫在未來訓練支援 12,8000 個 Token 的模型，並建立預填充池（prefill pool），讓模型能像翻書一樣主動提取相關的 KV 區塊。研究人員也認為 R-SWA 技術具有高度擴展性，未來可應用於語音辨識與翻譯等其他參考導向的任務中。

目前該模型的程式碼與權重已在 GitHub 與 Hugging Face 上開源，並支援 vLLM 與 SGLang 等推論引擎。

百度推出「無限 OCR」模型：模仿人類閱讀機制，解決長文件處理記憶體瓶頸

編輯核心觀點

模仿人類閱讀：R-SWA 技術的運作邏輯

架構優化與效能實測

未來展望與限制

資料來源

相關文章

NVIDIA HORIZON 突破硬體設計瓶頸：自動化代理如何達成 RTL 基準測試 100% 通過率？

細胞變身微處理器：以色列科學家開發「RNA 剪接」技術，讓生物細胞像軟體一樣可編程

告別傳統 OCR：如何利用 lift-pdf 打造精準的 AI 財務單據自動化管線

打破自回歸限制：Interfaze 開源 Diffusion ASR 模型，以平行解碼挑戰語音識別效率