熱門資訊> 正文
2025-11-27 16:45
注意力機制是大語言模型能夠取得成功的重要基石,然而隨着上下文窗口不斷增加,計算注意力矩陣所需的算力呈指數級增長,當上下文窗口長度達到 1000K 時,僅存儲注意力矩陣就需要約 2TB 的顯存,最終將導致大模型「腦子」不夠用了。
爲了解決這個問題,DeepSeek設想通過上下文光學壓縮的方法實現利用視覺token對文本token完成壓縮,最終DeepSeek-OCR的論文驗證了這一設想可行性,並啓發業內嘗試推動讓大模型像人一樣開始遺忘。
光計算系統解決方案商光本位科技表示,上下文光學壓縮可行性的驗證,更進一步説明光計算會成為大語言模型的未來,公司正積極推進光計算與大模型接軌。
在DeepSeek-OCR的論文中,DeepSeek用數據展示了該方法在視覺壓縮上的能力,當壓縮率達到10倍時,仍然能保持96.5%的精度,這一驚人的表現揭露了視覺壓縮的可行性。
DeepSeek-OCR論文數據
DeepSeek提出的DeepEncoder模塊是實現上下文光學壓縮的核心引擎,其中包含三個模塊,分別是SAM、兩層卷積塊和CLIP。
SAM模塊先通過窗口注意力機制,將原圖分割成多個局部窗口,使用ViT圖像識別模型將每個局部窗口的圖像通過矩陣進行關聯度計算,相互關聯性高的區域會融合彼此的特徵從而使它們關聯變得統一,而空白區域由於關聯性差而保持低特徵值,在下一步的卷積模塊處理中會被卷積塊丟棄,實現信息提取、壓縮兩不誤。
最后經過提取、壓縮的視覺token被輸入到CLIP,利用全局注意力機制,從這些壓縮后的信息中捕捉圖像的整體語義和上下文。
至此DeepSeek-OCR完成了全部的壓縮環節,成功將原本需要1000文本token才能代表的數據壓縮成100個視覺token。
DeepSeek-OCR壓縮示意圖
從過程來看,DeepSeek-OCR實現光學壓縮主要用到的ViT圖像識別模型與CNN卷積運算兩大結構,其中的關鍵環節是在ViT中引入注意力機制以及CNN中利用不同的卷積覈對於信息進行過濾。
從本質上看,不論是ViT中的注意力機制還是CNN中不同的卷積核的過濾,都是信息聚合的計算過程,這使得ViT和CNN兩種計算結構都需要一個高效的硬件載體來進行計算。
ViT、CNN這種底層計算為向量矩陣乘法以及卷積形式的信息壓縮機制,天然適合通過光計算的並行計算架構處理,使得光計算芯片完成信息壓縮的速度和能耗都會遠優於電芯片。此外靈活性也大大增加,光計算芯片內部的傳播路徑以及計算的邏輯還可以根據不同的需求進行調整。
如同下圖所示,通過將計算引入光域,DeepEncoder在經過光本位科技自主研發的128×128矩陣規模的全域可編程存算一體光計算引擎加速后,可以達到對該類計算任務的計算效率提升100倍與能效比提升10倍的效果。
DeepSeek-OCR光計算加速示意圖
為何光計算可以實現信息壓縮的高效加速與極致的能效比?通過測試,光本位科技認為在壓縮上下文這樣的類腦任務中,光計算相較GPU有着壓倒性的優勢。
最直觀的優勢便是計算過程的簡化。在傳統的電芯片中需要完成卷積、縮放、池化、激活、衰減、採樣量化等多種計算過程,但在光計算中,圖像信息可以自然的通過光學的方式進行計算和處理,上述的計算過程將在傳播過程中即可完成,完全不依賴任何額外功耗進行計算。
如下圖所示,圖像信息通過光的折射將不同頻率的光信號直接輸入到光計算芯片內部,經過不同計算光路上的調製和耦合,即可完成壓縮,實現無額外能量消耗的計算。此外,光本位科技特有的存算一體架構可以使其光計算引擎在處理批量任務時保持「零靜態維持功耗」。
圖像信息輸入示意圖
光計算芯片另一大優勢是可擴展性。無論是擴大陣列規模以提升並行度;還是提高參數刷新頻率以提升動態可編程性等均可實現,且比電子芯片上限更高、能耗更少。維度的任意擴展為長文本推理提供了超出傳統電計算路徑的擴展空間。
除了圖像,光本位科技正在嘗試將其他形式的信息編碼成不同頻率的光信號,並輸入到光計算芯片內部,經過不同光路上的調製和耦合,同樣實現無額外能量消耗的計算。
其他形式信息輸入示意圖
DeepSeek-OCR發佈后,DeepSeek提出將探索基於人腦遺忘機制的算法,其核心是用模糊代替過去的刪除。光本位科技認為遺忘算法機制實現的核心仍然是高效的提取特徵,降低特徵維度,甚至與已有的特徵進行融合形成新的特徵。
由此,公司設想未來將存算一體架構通過特殊的光路結構乃至異質集成設計,利用相變材料(PCM)的非易失性可以高效地模擬與信息關聯的人腦神經元,從而實現高效的計算以及類腦的信息編碼與存儲。
DeepSeek-OCR的出現為光計算芯片的通用化設計提供了新思路,或將成為打通光計算硬件端與大模型連接的突破點。
光本位科技計劃未來利用光計算芯片的優勢推出上下文壓縮專用硬件、AI任務專用硬件以及配套軟件棧,與大模型實現接軌。如此不僅能夠實現在已有的模型上進一步提升近百倍的算力以及超過十倍的能效比,還能夠為未來的新計算範式提供高效的計算基座。
光本位光計算平臺與DeepSeek-OCR融合前后示意圖
如今,隨着大模型的廣泛運用,長文本推理對參數規模、帶寬與上下文信息壓縮能力提出新挑戰。傳統GPU受制於內存牆與功耗密度,擴展上下文時往往受限於顯存與帶寬。因此需要光計算利用其大算力、高帶寬、低功耗的優勢來改變大模型現狀。
光本位科技表示,未來將逐漸構建起全光大規模AI計算的下一代顛覆式平臺系統,提供全場景覆蓋的全棧光計算解決方案。
本文來自微信公眾號「光本位」,作者:光本位研究院,36氪經授權發佈。