返回首頁

百度推出「無限 OCR」模型:模仿人類閱讀機制,解決長文件處理記憶體瓶頸

編輯核心觀點

  • 百度研發出「無限 OCR」模型,透過參考滑動視窗注意力(R-SWA)技術,將生成的記憶體快取固定在常數大小。
  • 該模型基於 Deepseek OCR 架構,能有效處理超過 40 頁的文件且維持低錯誤率,運算速度較原版提升 12.7%。
  • 這項技術模仿人類閱讀時「遺忘舊資訊、專注當下」的模式,解決了傳統 OCR 模型隨文件長度增加而導致記憶體暴增的問題。
百度推出「無限 OCR」模型:模仿人類閱讀機制,解決長文件處理記憶體瓶頸

模仿人類閱讀:R-SWA 技術的運作邏輯

目前的端對端文件辨識系統,多半依賴語言模型作為解碼器,導致記憶體中的緩衝區(buffer)會隨著文字生成而線性增長,進而拖慢運算速度。百度提出的「無限 OCR(Unlimited OCR)」模型,靈感來自人類閱讀與抄寫書籍的方式:人類在抄寫時,並不會不斷回頭重讀整本書,而是專注於來源文件、剛寫下的幾個字,以及即將寫下的內容,並讓較舊的記憶自然淡化。

為了實現這種機制,百度開發了參考滑動視窗注意力(Reference Sliding Window Attention, R-SWA)。該技術讓每個生成的 Token 都能參照原始影像與提示詞,但在處理已生成的輸出內容時,僅回溯最後的 128 個 Token。這使得鍵值快取(KV cache)在整個過程中保持固定,不再隨輸出長度無限制擴張。

R-SWA 將視覺 Token 排除在狀態轉換之外,確保它們在編碼後保持不變,避免了傳統滑動視窗注意力可能導致的影像特徵模糊與辨識率下降問題。

架構優化與效能實測

無限 OCR 是基於開源的 Deepseek OCR 模型進行改良,採用混合專家架構(MoE),擁有 30 億參數,但在推論時僅需啟動約 5 億參數。其 DeepEncoder 能將 1024x1024 解析度的 PDF 影像壓縮為 256 個 Token。

根據百度提供的數據,無限 OCR 在 OmniDocBench v1.5 文件基準測試中取得 93% 的準確率,較 Deepseek OCR 基線高出 6 個百分點;在 v1.6 版本中更達到 93.92%。在處理超過 40 頁的長文件時,其錯誤率始終保持在 0.11 以下。此外,在 Base 模式下,該模型的處理速度達到每秒 5,580 個 Token,比 Deepseek OCR 的每秒 4,951 個 Token 快了 12.7%。

未來展望與限制

儘管稱為「無限」,但目前的模型仍受限於 32,000 個 Token 的固定上下文長度。百度計畫在未來訓練支援 12,8000 個 Token 的模型,並建立預填充池(prefill pool),讓模型能像翻書一樣主動提取相關的 KV 區塊。研究人員也認為 R-SWA 技術具有高度擴展性,未來可應用於語音辨識與翻譯等其他參考導向的任務中。

目前該模型的程式碼與權重已在 GitHub 與 Hugging Face 上開源,並支援 vLLM 與 SGLang 等推論引擎。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章