熱門資訊> 正文

一次吃下一本書！百度開源新OCR，作者疑似前DeepSeek研究員

2026-06-23 17:52

百度(BIDU) 0

henry 發自凹非寺

量子位 | 公眾號 QbitAI

國產開源OCR又刷新SOTA！

剛剛，百度開源了全新的OCR新模型——

Unlimited OCR。

它主打一口氣讀完幾十頁長文檔，並在OmniDocBench上刷新SOTA，整體成績超過此前的DeepSeek OCR。

與傳統OCR處理長文檔時「一頁一頁讀，再把結果拼回去」的思路不同，Unlimited OCR這次模仿了一種酷似人類抄錄員的工作方式：

不再死記硬背前面已經抄寫過的內容，而是隻保留當前工作需要的信息和進度。

基於此，它能夠像人一樣連續閲讀整本書，而不是每讀完一頁就中斷一次，再從下一頁重新開始。

更關鍵的是，藉助創新的參考滑動窗口注意力（Reference Sliding Window Attention，R-SWA）機制，即便文檔越來越長，顯存佔用和注意力計算開銷也幾乎不會增長。

這是怎麼做到的？

for-loop只是權宜之計

要理解Unlimited OCR，得先看看傳統OCR是怎麼處理超長文檔的。

簡單來説，OCR（光學字符識別，Optical Character Recognition）就是把圖片里的內容讀出來，再轉換成Markdown等可編輯文本。

在以往的處理流程中，一張圖片會先進入編碼器，被壓縮成一串視覺Token；隨后解碼器再一個字一個字地把內容寫出來。

但問題在於，傳統的OCR解碼器每生成一個新Token，它都需要回頭查看之前生成過的所有Token，再決定下一個字該寫什麼。

於是文檔越長，需要回看的歷史內容就越多，KV Cache持續膨脹，顯存佔用和注意力計算開銷也隨之增長。

最終，無論是生成長度還是推理速度，都會受到限制。

這也是為什麼現有OCR系統很難一次讀完幾十頁文檔，通常只能採用「逐頁處理+結果拼接」的方案：

每讀完一頁就重置上下文，最后再由外部程序把結果重新拼起來。

這種for-loop式方案雖然工程上可行，但本質上只是權宜之計，而Unlimited OCR想解決的，正是進一步擴展模型在長程任務的表現。

參考滑動窗口注意力

那，問題來了。

如果不採用逐頁重置的for-loop方案，模型又該如何在保持連續閲讀狀態的同時，避免KV Cache隨着文檔長度無限增長？

Unlimited OCR給出的答案，不是讓模型記住更多東西，而是讓模型學會像人一樣「遺忘」。而這，就引出了它最核心的創新點：參考滑動窗口注意力。

爲了説明參考滑動窗口注意力的設計思路，研究舉了一個非常形象的例子：人類閲讀長文檔其實並不是全量回溯的。

比如抄寫一本書時，你不會每寫一個字都重新翻閲前面幾十頁。

你只會保留當前的閲讀狀態，以及剛剛寫下的一小段內容，用來確認沒有跳行、沒有漏字，更久遠的信息則會逐漸淡出記憶。

論文將這種機制稱為軟遺忘（Soft Forgetting）。

受此啓發，參考滑動窗口注意力應運而生。

對於每個待生成Token，模型始終關注全部參考Token（Reference Tokens），也就是視覺Token和提示詞；

與此同時，在輸出端只保留最近n個歷史Token（默認128個）參與注意力計算。

就好像你抄書的時候，原書始終攤開在桌面上，可以隨時查看完整內容；

而手邊只保留最近寫下的幾行字，用來追蹤當前進度。更早的內容則自然淡出工作記憶。

這樣一來，模型既能持續看到完整圖像，又能依靠局部歷史信息判斷當前解析到了哪里。

此外，這里值得一提的，還有Unlimited OCR的KV Cache管理方式。

論文將KV Cache設計成一個固定長度的隊列。每生成一個新Token，最舊的一部分狀態就會自動移出，新狀態再補進來。

因此，無論最終生成幾千還是幾萬個Token，KV Cache規模始終保持恆定，顯存佔用和計算成本都不會繼續增長。

這也是R-SWA與其他注意力機制最大的區別。

相比全注意力（Full Attention），后者的KV Cache會隨着解碼不斷膨脹，而R-SWA始終保持固定大小。

相比傳統滑動窗口注意力（SWA），后者會把視覺Token和文本Token一起放進窗口，隨着窗口不斷滑動，早期視覺信息會逐漸被擠出；解碼越長，對原圖的感知就越模糊。

而R-SWA則將視覺Token單獨保留下來，讓它們始終作為參考信息存在，不參與滑動窗口更新。

換句話説，圖像始終保持清晰，發生滑動的只有輸出文本本身。

正如上圖所示，傳統OCR越讀越慢，而Unlimited OCR基本保持勻速運行，這正是R-SWA的價值所在。

實驗驗證

在實驗部分，研究團隊採用OmniDocBench v1.5和v1.6評估模型的文檔解析能力，並額外構建了覆蓋2頁至40頁以上文檔的內部測試集，專門考察其長文檔連續解析能力。

首先來看整體成績。

在OmniDocBench v1.5上，Unlimited OCR取得了93.23%的綜合得分，相比DeepSeek OCR提升6.22%。

在最新的v1.6版本中，成績進一步達到93.92%，刷新當前SOTA。

在長文本解析能力方面，即便一次性輸入40頁以上內容，模型依然能夠保持穩定表現。

其Distinct-35指標達到96.90%，編輯距離（Edit Distance）始終維持在0.1069以下。

換句話説，隨着文檔長度不斷增長，模型並沒有出現明顯的內容混淆或解析質量下降。

除了精度提升，Unlimited OCR還帶來了推理效率上的改善。

由於採用恆定KV Cache設計，模型的推理開銷不會隨着文檔頁數持續增長。在生成6000個Token時，其推理速度（TPS）相比DeepSeek OCR提升約35%。

與此同時，調用延迟（Latency）基本保持穩定，沒有出現長文檔場景下常見的延迟飆升現象。

OCR之外：一種新的長上下文思路

如果把最近一年的時間線串起來看，會發現一個有意思的現象：越來越多頭部模型公司開始重兵投入OCR。

從DeepSeek年初發布OCR2，到智譜開源GLM-OCR，再到百度這次推出Unlimited OCR，大家爭奪的早已不是單純的文字識別能力，而是新的數據入口。

互聯網數據正在被快速消耗，而企業真正有價值的數據，其實大量沉睡在PDF、合同、報告、票據和掃描件里。

對於人類來説，這些是信息，但對於模型來説，它們只是像素。

OCR的意義，就是把這些像素重新變成模型能夠理解和推理的Token。因此，OCR正在從一個傳統工具，逐漸變成AI時代最重要的數據入口之一。

不過，如果只把Unlimited OCR看成一個OCR模型，可能就低估了它。

過去兩年，行業面對長上下文問題時，最主流的思路一直是擴容。

128K、1M、10M，上下文窗口不斷變長；各種長上下文優化方案，本質上也都在思考如何讓模型記住更多信息。

而R-SWA反着來。

與其讓模型記住一切，不如讓它學會像人一樣遺忘。

所以説，Unlimited OCR看起來解決的是OCR問題，但它修改的是注意力機制本身。而注意力，恰恰是今天幾乎所有大模型共同的基礎設施。

因此，這篇論文真正討論的，其實不只是OCR該怎麼做，而是另一個更基礎的問題：

當任務越來越長時，模型究竟該如何管理自己的記憶？

論文也給出了明確的路線圖。

短期內，團隊計劃訓練更長上下文版本，把解析能力擴展到128K；長期則希望構建類似「預填池（Prefill Pool）」的機制，讓模型能夠像人翻書一樣，按需調取歷史KV狀態，進一步突破上下文限制。

而更有意思的是，他們計劃將R-SWA擴展到語音識別、機器翻譯等任務。

換句話説，OCR或許只是第一站。

某種程度上，這條「怎麼記」的路線，也恰好與DeepSeek OCR2探索的「怎麼看」形成了呼應：

前者關注視覺信息如何被更高效地理解，后者則開始思考這些信息該如何在超長任務中被保留、傳遞與遺忘。

從視覺理解到長期記憶，從OCR到更廣義的長時推理。

或許，這纔是Unlimited OCR真正想講的故事。

One more thing

值得一提的是，技術報告發布后，作者名單里的一個名字也引發了不少討論。

在三位核心貢獻者中，有一位作者並沒有使用全名，而是以「YY」的縮寫署名，並被標註為技術總監。

這個YY是誰？

很快，網友們開始順着論文里的各種細節尋找答案。

首先是這份技術報告本身。

從行文風格到技術敍事，讀過DeepSeek OCR技術報告的人，大概率都會有一種熟悉感。

無論是強調「像人一樣閲讀文檔」的理念，還是把技術問題包裝成一個關於記憶與遺忘的故事，都帶着濃厚的探索色彩。

而在技術實現上，Unlimited OCR同樣出現了不少熟悉的身影。

衆所周知，DeepEncoder最早正是在DeepSeek OCR中被提出。這次Unlimited OCR則直接沿用了這一高壓縮率視覺編碼器，並將創新重點放在瞭解碼階段的長期記憶機制上。

有意思的是，在項目GitHub頁面的致謝部分，團隊還專門提到了DeepSeek OCR和PaddleOCR等相關工作。

種種線索疊加之下，不少網友開始猜測：這位YY，很可能就是前DeepSeek OCR團隊研究員魏浩然。

作為OCR領域的資深研究者，魏浩然此前曾在階躍星辰工作，並主導開發了被稱為「第二代OCR」代表作之一的GOT-OCR2.0。

該項目也是端到端OCR方向最早跑通的開源標杆之一。此后，他又參與了DeepSeek OCR系列的研發，在DeepSeek OCR和OCR2的核心作者名單中，長期出現的正是魏浩然、孫耀峰和李宇琨三人。

而這一次，在Unlimited OCR的技術報告中，人們似乎又看到了同一條研究路線繼續向前延伸的影子。

當然，截至目前，YY的真實身份仍未得到官方確認。

但比身份本身更有意思的，或許是這篇論文所展現出的研究思路：

從視覺編碼，到長期記憶；從「怎麼看」，到「怎麼記」。

而OCR，也許只是這條路線的第一站。

參考鏈接：

[1]https://github.com/baidu/Unlimited-OCR

[2]https://huggingface.co/baidu/Unlimited-OCR

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

一次吃下一本書！百度開源新OCR，作者疑似前DeepSeek研究員

推薦文章

華盛早報 | 存儲集體暴跌！韓媒曝英偉達Rubin產量預期下調；谷歌將躋身道指成分股；美銀力挺AI牛市至2028年

美股異動 | 科技股全線暴跌！閃迪跌超13%，美光跌超8%，邁威爾科技跌超5%

美股前瞻 | 科技股遭拋售潮！納指期貨盤前大跌2.5%；SpaceX連跌三天獲「木頭姐」狂買3200萬美元；機構稱美聯儲年內加息可能較低

新股申購 | 安克創新H股今起招股！一手入場費10032.16港元

華盛早報 | 股價三連跌市值蒸發超6000億美元！SpaceX再重挫16%；港股「ETF之王」易主！南方兩倍做多海力士年內累漲逾10倍

美股前瞻 | 萬斯稱美伊談判取得積極進展！SpaceX首度發行無抵押債券，盤前一度大跌近6%；聯電據報將與英特爾合作開發3nm芯片

「AI 教父」痛批馬斯克旗下xAI堪稱失敗，警示AI將迎巨大泡沫破裂！

美聯儲如期按兵不動，但鷹派明顯！預期年底前將加息25個基點