熱門資訊> 正文
2025-10-21 19:38
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:網易科技)
長上下文(Long Context)建模,已成為大模型行業的前沿研究趨勢,是使得大語言模型(LLM)具備真實生產力的關鍵。
理論上,長上下文 LLM不僅能夠實現更全面的語義理解,還能顯著增強多步推理與長期記憶能力,從而像人類一樣做到「通讀全篇、整體思考」。
然而,當將上下文窗口擴展到百萬 token 級時,計算與內存成本也會大幅上升,使得長上下文 LLM 的實際應用受限。
為應對這一挑戰,來自清華大學和智譜(Z.ai)的研究團隊摒棄了基於 token 的序列擴展範式,轉而基於「視覺上下文擴展」全新視角提出了 Glyph 框架,即將長文本渲染成圖像,並通過視覺語言模型(VLM)進行處理。
論文:https://arxiv.org/pdf/2510.17800
GitHub:https://github.com/thu-coai/Glyph
實驗結果表明,通過持續預訓練、由 LLM 驅動的遺傳式渲染搜索,以及有針對性的后訓練優化,Glyph 在保持與前沿 LLM 相當精度的同時,實現了 3-4 倍的 token 壓縮,大幅提高了內存效率、訓練和推理速度。
以經典長篇小説《簡·愛》(約 240k 個文本 token)為例:
圖|(上)兩種長上下文任務範式對比:傳統方法直接將純文本輸入語言模型,而 Glyph 將文本渲染為緊湊圖像,實現顯著的輸入 token 壓縮;(下)在 LongBench 和 MRCR 測試集上,Glyph 展現出具有競爭力的性能,同時在 128K token 輸入規模下,相較其文本基準模型實現了顯著的壓縮率和推理加速。
更進一步,在極限壓縮條件下,一個擁有 128K 上下文窗口的 VLM 能夠擴展到處理百萬級 token 的文本任務。
研究團隊表示,提高 token 信息密度為長上下文建模提供了一種有前景的新範式,其與現有基於注意力的方法互為補充,且仍有廣闊的探索空間。
從上下文工程的角度來看,這種方法提供了一種優化上下文信息表徵和管理的新方式。未來,LLM 或將突破當前的上下文長度限制,將輸入 token 從百萬級擴展到千萬級。
研究方法
Glyph 的核心目標是讓模型以「看」的方式理解超長文本。通過將文本渲染為圖像,模型能夠在有限的 token 數量下接收更豐富的上下文信息,實現高效的文本壓縮。
整體框架包含三個主要階段:
1.持續預訓練
研究團隊首先將大規模長文本數據渲染為多種視覺風格,包括文檔佈局、網頁結構、代碼展示等形式,以模擬不同類型的真實長文本場景。
在此基礎上,他們構建多種任務,例如 OCR 識別任務、圖文交錯建模任務與視覺補全任務,使模型能夠同時學習文字的視覺形態與語義含義。 這一階段的訓練幫助模型建立起視覺與語言之間的跨模態語義對齊能力。
2.LLM 驅動渲染搜索
在視覺壓縮過程中,渲染配置(如字體、分辨率、排版佈局)直接影響模型的感知效果與任務性能。爲了在壓縮率與理解能力之間取得最優平衡,他們提出了一種由 LLM 驅動的遺傳搜索算法。在該框架中,他們在驗證集上自動評估不同渲染方案的性能,由 LLM 分析其優劣並生成新的候選配置。通過多輪迭代,Glyph 能夠逐步收斂到在語義保持與壓縮效率間最優的渲染策略。
3.后訓練階段
在找到最優渲染配置后,他們對模型進行監督微調(SFT)與強化學習優化(使用 GRPO 算法)。此外,他們引入 OCR 輔助任務,進一步強化模型的文字識別與細節理解能力。
效果怎麼樣
研究團隊在多個長上下文基準上系統評估了 Glyph 的效果。如下:
1.在 LongBench 與 MRCR 上,Glyph 實現了平均 3–4 倍的輸入壓縮率,同時保持與 Qwen3-8B、GLM-4-9B-Chat-1M 等主流模型相當的精度。
圖|Glyph 與基線模型在不同上下文窗口下的性能對比,表明 Glyph 採用顯著縮短的上下文窗口即可達到與更長上下文相當的性能。
表|Glyph 與主流 LLM 在 LongBench 上的性能對比(%)。
表|模型在 MRCR 基準測試 4-needle 與 8-needle 子任務上的性能對比(%),在多數設置下位於前兩名,同時保持約 3 倍壓縮率。
2.相比文本基建模型,推理與訓練速度分別提升 4× 和 2×,並且隨着上下文變長,推理速度的優勢也隨之增強。
圖|在預填充、解碼和訓練過程中,Glyph 相對於文本骨干模型在不同序列長度下的加速比。
3.在極端壓縮場景下(8×壓縮比),Glyph 有潛力利用 128k 上下文長度處理百萬級上下文任務。
表|在不同 needle 數量下,128K-1M 上下文長度下平均 MRCR 性能(%)。
4.在 MMLongBench-Doc 上,Glyph 在文檔理解任務上顯著優於原始視覺語言基線,展現了跨模態泛化能力。
表|MMLongBench-Doc 測試結果(%)。SP、CP、UA 和 Acc 分別表示單頁準確率、跨頁準確率、無法回答率和總體準確率。
不足與未來方向
當然,Glyph 框架也存在一些侷限性。如下:
1.對渲染參數非常敏感
該方法依賴於在處理之前將文本輸入渲染成圖像,這使得最終性能可能受到分辨率、字體和間距等渲染配置的影響。儘管搜索過程能夠找到一個在下游任務上表現良好的配置,但如何使模型在各種渲染設置下更具魯棒性仍然是一個尚未解決的問題。
2.OCR 保真度仍需提高
UUID 識別對於當前的 VLM 來説仍然特別具有挑戰性,即使是 SOTA 模型 Gemini-2.5-Pro 也經常無法正確重現。雖然這對大多數任務影響不大,但提高 OCR 保真度可以提高 Glyph 的上限。
3.評測任務多樣性不足。
該工作涉及的基準測試主要側重於長上下文理解,並未完全涵蓋現實世界應用的多樣性,如 agentic 任務或推理密集型任務。同時,與文本模型相比,視覺-文本模型在跨任務泛化方面的效果往往較差。擴展評估和訓練的範圍以涵蓋更廣泛的任務,將有助於更好地評估和改進 Glyph 的魯棒性和通用性。
儘管如此,但研究團隊認為,他們提出的「視覺-文本壓縮」範式可以在未來的研究中得到進一步的擴展,包括以下方向:
首先,一個有前景的途徑是訓練自適應渲染模型,而不是使用固定的渲染策略,這些模型根據任務類型或用户查詢進行條件調整,生成平衡壓縮和性能的定製可視化。
其次,增強視覺編碼器對細粒度文本識別的能力以及與語言表徵的對齊,可以提高跨任務的魯棒性和可遷移性。
再者,通過知識蒸餾或跨模態監督等方式,改進視覺-文本模型與純文本模型之間的對齊,可以縮小泛化方面的性能差距。
最后,將這一方法擴展到更廣泛的應用,如能夠管理長期對話或 agentic 上下文的 agent 記憶系統,以及可以利用結構化視覺佈局進行推理和檢索的任務。