繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

一次吃下一本書!百度開源新OCR,作者疑似前DeepSeek研究員

2026-06-23 17:52

henry 發自 凹非寺

量子位 | 公眾號 QbitAI

國產開源OCR又刷新SOTA!

剛剛,百度開源了全新的OCR新模型——

Unlimited OCR

它主打一口氣讀完幾十頁長文檔,並在OmniDocBench上刷新SOTA,整體成績超過此前的DeepSeek OCR。

與傳統OCR處理長文檔時「一頁一頁讀,再把結果拼回去」的思路不同,Unlimited OCR這次模仿了一種酷似人類抄錄員的工作方式:

不再死記硬背前面已經抄寫過的內容,而是隻保留當前工作需要的信息和進度。

基於此,它能夠像人一樣連續閲讀整本書,而不是每讀完一頁就中斷一次,再從下一頁重新開始。

更關鍵的是,藉助創新的參考滑動窗口注意力(Reference Sliding Window Attention,R-SWA)機制,即便文檔越來越長,顯存佔用和注意力計算開銷也幾乎不會增長。

這是怎麼做到的?

for-loop只是權宜之計

要理解Unlimited OCR,得先看看傳統OCR是怎麼處理超長文檔的。

簡單來説,OCR(光學字符識別,Optical Character Recognition)就是把圖片里的內容讀出來,再轉換成Markdown等可編輯文本。

在以往的處理流程中,一張圖片會先進入編碼器,被壓縮成一串視覺Token;隨后解碼器再一個字一個字地把內容寫出來。

但問題在於,傳統的OCR解碼器每生成一個新Token,它都需要回頭查看之前生成過的所有Token,再決定下一個字該寫什麼。

於是文檔越長,需要回看的歷史內容就越多,KV Cache持續膨脹,顯存佔用和注意力計算開銷也隨之增長。

最終,無論是生成長度還是推理速度,都會受到限制。

這也是為什麼現有OCR系統很難一次讀完幾十頁文檔,通常只能採用「逐頁處理+結果拼接」的方案:

每讀完一頁就重置上下文,最后再由外部程序把結果重新拼起來。

這種for-loop式方案雖然工程上可行,但本質上只是權宜之計,而Unlimited OCR想解決的,正是進一步擴展模型在長程任務的表現。

參考滑動窗口注意力

那,問題來了。

如果不採用逐頁重置的for-loop方案,模型又該如何在保持連續閲讀狀態的同時,避免KV Cache隨着文檔長度無限增長?

Unlimited OCR給出的答案,不是讓模型記住更多東西,而是讓模型學會像人一樣「遺忘」。而這,就引出了它最核心的創新點:參考滑動窗口注意力

爲了説明參考滑動窗口注意力的設計思路,研究舉了一個非常形象的例子:人類閲讀長文檔其實並不是全量回溯的。

比如抄寫一本書時,你不會每寫一個字都重新翻閲前面幾十頁。

你只會保留當前的閲讀狀態,以及剛剛寫下的一小段內容,用來確認沒有跳行、沒有漏字,更久遠的信息則會逐漸淡出記憶。

論文將這種機制稱為軟遺忘(Soft Forgetting)

受此啓發,參考滑動窗口注意力應運而生。

對於每個待生成Token,模型始終關注全部參考Token(Reference Tokens),也就是視覺Token和提示詞;

與此同時,在輸出端只保留最近n個歷史Token(默認128個)參與注意力計算。

就好像你抄書的時候,原書始終攤開在桌面上,可以隨時查看完整內容;

而手邊只保留最近寫下的幾行字,用來追蹤當前進度。更早的內容則自然淡出工作記憶。

這樣一來,模型既能持續看到完整圖像,又能依靠局部歷史信息判斷當前解析到了哪里。

此外,這里值得一提的,還有Unlimited OCR的KV Cache管理方式。

論文將KV Cache設計成一個固定長度的隊列。每生成一個新Token,最舊的一部分狀態就會自動移出,新狀態再補進來。

因此,無論最終生成幾千還是幾萬個Token,KV Cache規模始終保持恆定,顯存佔用和計算成本都不會繼續增長。

這也是R-SWA與其他注意力機制最大的區別。

相比全注意力(Full Attention),后者的KV Cache會隨着解碼不斷膨脹,而R-SWA始終保持固定大小。

相比傳統滑動窗口注意力(SWA),后者會把視覺Token和文本Token一起放進窗口,隨着窗口不斷滑動,早期視覺信息會逐漸被擠出;解碼越長,對原圖的感知就越模糊。

而R-SWA則將視覺Token單獨保留下來,讓它們始終作為參考信息存在,不參與滑動窗口更新。

換句話説,圖像始終保持清晰,發生滑動的只有輸出文本本身。

正如上圖所示,傳統OCR越讀越慢,而Unlimited OCR基本保持勻速運行,這正是R-SWA的價值所在。

實驗驗證

在實驗部分,研究團隊採用OmniDocBench v1.5和v1.6評估模型的文檔解析能力,並額外構建了覆蓋2頁至40頁以上文檔的內部測試集,專門考察其長文檔連續解析能力。

首先來看整體成績。

在OmniDocBench v1.5上,Unlimited OCR取得了93.23%的綜合得分,相比DeepSeek OCR提升6.22%

在最新的v1.6版本中,成績進一步達到93.92%,刷新當前SOTA。

長文本解析能力方面,即便一次性輸入40頁以上內容,模型依然能夠保持穩定表現。

其Distinct-35指標達到96.90%,編輯距離(Edit Distance)始終維持在0.1069以下。

換句話説,隨着文檔長度不斷增長,模型並沒有出現明顯的內容混淆或解析質量下降。

除了精度提升,Unlimited OCR還帶來了推理效率上的改善。

由於採用恆定KV Cache設計,模型的推理開銷不會隨着文檔頁數持續增長。在生成6000個Token時,其推理速度(TPS)相比DeepSeek OCR提升約35%。

與此同時,調用延迟(Latency)基本保持穩定,沒有出現長文檔場景下常見的延迟飆升現象。

OCR之外:一種新的長上下文思路

如果把最近一年的時間線串起來看,會發現一個有意思的現象:越來越多頭部模型公司開始重兵投入OCR。

從DeepSeek年初發布OCR2,到智譜開源GLM-OCR,再到百度這次推出Unlimited OCR,大家爭奪的早已不是單純的文字識別能力,而是新的數據入口。

互聯網數據正在被快速消耗,而企業真正有價值的數據,其實大量沉睡在PDF、合同、報告、票據和掃描件里。

對於人類來説,這些是信息,但對於模型來説,它們只是像素。

OCR的意義,就是把這些像素重新變成模型能夠理解和推理的Token。因此,OCR正在從一個傳統工具,逐漸變成AI時代最重要的數據入口之一。

不過,如果只把Unlimited OCR看成一個OCR模型,可能就低估了它。

過去兩年,行業面對長上下文問題時,最主流的思路一直是擴容。

128K、1M、10M,上下文窗口不斷變長;各種長上下文優化方案,本質上也都在思考如何讓模型記住更多信息。

而R-SWA反着來。

與其讓模型記住一切,不如讓它學會像人一樣遺忘。

所以説,Unlimited OCR看起來解決的是OCR問題,但它修改的是注意力機制本身。而注意力,恰恰是今天幾乎所有大模型共同的基礎設施。

因此,這篇論文真正討論的,其實不只是OCR該怎麼做,而是另一個更基礎的問題:

當任務越來越長時,模型究竟該如何管理自己的記憶?

論文也給出了明確的路線圖。

短期內,團隊計劃訓練更長上下文版本,把解析能力擴展到128K;長期則希望構建類似「預填池(Prefill Pool)」的機制,讓模型能夠像人翻書一樣,按需調取歷史KV狀態,進一步突破上下文限制。

而更有意思的是,他們計劃將R-SWA擴展到語音識別、機器翻譯等任務。

換句話説,OCR或許只是第一站。

某種程度上,這條「怎麼記」的路線,也恰好與DeepSeek OCR2探索的「怎麼看」形成了呼應:

前者關注視覺信息如何被更高效地理解,后者則開始思考這些信息該如何在超長任務中被保留、傳遞與遺忘。

從視覺理解到長期記憶,從OCR到更廣義的長時推理。

或許,這纔是Unlimited OCR真正想講的故事。

One more thing

值得一提的是,技術報告發布后,作者名單里的一個名字也引發了不少討論。

在三位核心貢獻者中,有一位作者並沒有使用全名,而是以「YY」的縮寫署名,並被標註為技術總監。

這個YY是誰?

很快,網友們開始順着論文里的各種細節尋找答案。

首先是這份技術報告本身。

從行文風格到技術敍事,讀過DeepSeek OCR技術報告的人,大概率都會有一種熟悉感。

無論是強調「像人一樣閲讀文檔」的理念,還是把技術問題包裝成一個關於記憶與遺忘的故事,都帶着濃厚的探索色彩。

而在技術實現上,Unlimited OCR同樣出現了不少熟悉的身影。

衆所周知,DeepEncoder最早正是在DeepSeek OCR中被提出。這次Unlimited OCR則直接沿用了這一高壓縮率視覺編碼器,並將創新重點放在瞭解碼階段的長期記憶機制上。

有意思的是,在項目GitHub頁面的致謝部分,團隊還專門提到了DeepSeek OCR和PaddleOCR等相關工作。

種種線索疊加之下,不少網友開始猜測:這位YY,很可能就是前DeepSeek OCR團隊研究員魏浩然

作為OCR領域的資深研究者,魏浩然此前曾在階躍星辰工作,並主導開發了被稱為「第二代OCR」代表作之一的GOT-OCR2.0。

該項目也是端到端OCR方向最早跑通的開源標杆之一。此后,他又參與了DeepSeek OCR系列的研發,在DeepSeek OCR和OCR2的核心作者名單中,長期出現的正是魏浩然、孫耀峰和李宇琨三人。

而這一次,在Unlimited OCR的技術報告中,人們似乎又看到了同一條研究路線繼續向前延伸的影子。

當然,截至目前,YY的真實身份仍未得到官方確認。

但比身份本身更有意思的,或許是這篇論文所展現出的研究思路:

從視覺編碼,到長期記憶;從「怎麼看」,到「怎麼記」。

而OCR,也許只是這條路線的第一站。

參考鏈接:

[1]https://github.com/baidu/Unlimited-OCR

[2]https://huggingface.co/baidu/Unlimited-OCR

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。