熱門資訊> 正文
2025-09-01 19:34
8月21日,DeepSeek正式發佈DeepSeek-V3.1。此次升級主要包括以下三個方面:
1. 混合推理架構:一個模型同時支持思考模式與非思考模式;
2. 更高的思考效率:相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短時間內給出答案;
3. 更強的Agent能力:通過Post-Training優化,新模型在工具使用與智能體任務中的表現有較大提升。
而在官方推文中,特別強調了DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數精度。並且在其置頂評論中補充道,「UE8M0 FP8是針對即將發佈的下一代國產芯片設計。」
消息一出,直接引爆了資本市場。據東方財富統計,受DeepSeek新品發佈帶動,8月22日FP8概念股狂飆,寒武紀、和而泰、佳都科技紛紛漲停。
圖源:東方財富
那麼,在AI大模型領域,FP8是什麼?而DeepSeek推出的「UE8M0 FP8」又有何作用?對於國產人工智能來説,它又有什麼意義呢?
要理解「UE8M0 FP8」,需要先聊聊「FP8」。
首先,「FP」是「Floating-Point」(浮點數)的縮寫。浮點數的核心邏輯是用「二進制科學計數法」表示數字,本質是通過「拆分位數」來平衡「表示範圍」和「精度」。
爲了更直觀的理解這一點,我們可以用比較熟悉的「十進制科學計數法」來類比。我們用十進制科學計數法表示數字時,會固定「尾數」的格式(比如保留1位整數和3個小數),再用「指數」調整數字的大小,比如:
這樣,我們就可以把數字「拆分」成兩個部分:
1.尾數:對應2.345,這個部分決定了數字的「精度」(比如我們日常説,精確到小數點后幾位)
2.指數:對應10^2和10^-3中的「2」和「-3」,這個部分決定了數字的「範圍」(能表示多大或者多小的數)
科學計數法的優勢是:用有限的位數,既能表示 「很大的數」,也能表示 「很小的數」,同時通過尾數保留關鍵精度。
在理解了浮點數(FP)后,我們再來看看FP8后面的「8」。這里的「8」一般指的是8 bit,即8個二進制位(總位數)。而與FP8類似的,還有FP64、FP32、FP16等,總位數越少,存儲佔用越小、計算速度越快(在第二部分我們會進一步探討)。
結合上述論述:FP8的本質是用8 bit(8個二進制位)拆分成「符號+指數+尾數」,以此來平衡「範圍」和「精度」。
其中,8 bit會被拆分為三個部分:
1. 符號位(S,1 bit,可選):表示數字是正還是負(0=正,1=負)
2. 指數位(E):決定數字的「範圍」大小
3. 尾數位(M):決定數字的「精度」高低
因此,現在再來理解DeepSeek此次引入的「UE8M0 FP8」就十分直觀,這里的「U」是un-signed,即無符號位,可能將數據範圍限定為非負數;「E8」,就是指數位為8;「M0」,就是尾數位為0;「FP8」,即8位浮點數。
實質上,UE8M0 FP8用「精度」來換取極大的動態「範圍」。與此同時,需要通過后續算法和硬件設計來彌補精度問題。
而這,是與DeepSeek官方推文內容緊密聯繫的,下一代國產芯片很可能會有針對性的硬件設計。
圖源:DeepSeek微信公眾號
在支持FP8之前,國產芯片常用的是FP16、BF16和INT8(8位整數)等格式。這里簡要解釋一下,各家廠商轉向FP8的思路。
不同格式的差異主要體現在 「總位數」「指數位寬度」「尾數位寬度」 的分配上,按應用場景可分為通用標準格式、AI專用低精度格式和特殊場景格式。
IEEE 754是全球通用的浮點數標準,覆蓋了從消費電子到高性能計算的大部分場景,核心是通過固定的位數分配平衡「範圍」與「精度」,主要包括單精度、雙精度、半精度三類。
這類格式,具有較好的標準化兼容性:所有主流芯片均原生支持,軟件生態(如C/C++、Python、CUDA)無需額外適配。
FP32(單精度浮點數,32 位)是早期AI開發的默認選擇,其1位符號位、8位指數位和23位尾數位的設計,在精度(約 7 位有效數字)和計算效率之間取得平衡,支撐了AlexNet、ResNet等經典模型的訓練。
早期GPU(如英偉達Kepler架構)未針對低精度優化,FP32是唯一可行選項。2012年AlexNet訓練完全依賴FP32實現,需消耗約1.5TB顯存。這也凸顯了FP32的侷限性:存儲和計算成本高,隨着模型規模擴大,顯存佔用和算力需求呈指數級增長。
總位數越少,存儲佔用越小、計算速度越快、精度越低。例如,FP64精度極高,但算力消耗是FP32的2~4 倍(英偉達A100的FP64算力僅為FP32的1/4)。
在這個背景下,研究者們開始嘗試更低精度格式與混合精度訓練。
FP16(半精度浮點數)將存儲需求減半,計算速度提升2倍以上。但由於指數範圍較小,容易出現梯度溢出,需配合動態損失縮放技術(如英偉達的AMP)。
BF16(Brain Floating Point 16-bit,腦浮點格式)同樣為16位,但指數位擴展至8位,尾數位壓縮至7位,動態範圍與FP32相當。BF16在避免梯度溢出的同時,保持了較高精度,成為GPT-3等大模型訓練的首選。英偉達2020年推出的A100首次原生支持BF16,算力提升3倍。
研究者們還嘗試了混合精度訓練——關鍵計算(如梯度更新)保留 FP32,矩陣乘法等操作採用FP16/BF16,通過動態精度分配平衡效率與穩定性。也嘗試了用INT8(8位整數)進行推理優化——將權重和激活值壓縮為8位整數,計算速度提升4-8倍,功耗降低50%以上。但均勻量化導致的精度損失需通過量化感知訓練(QAT)補償。
而在2022年,精度進一步下探,英偉達推出的Hopper架構(H100 GPU)首次原生支持FP8。其官方博客指出,FP8在不顯著犧牲模型效果的前提下,能讓吞吐量翻倍、顯存佔用減半,這是訓練GPT級別大模型時極具吸引力的優勢。用博客里的測試圖表可以更直觀地看出,同樣用H100,FP8的速度遠遠高於FP16。
圖源:英偉達官方博客
這也解釋了,為何此次DeepSeek推文后,陸續有國產芯片廠商跟進表示原生支持FP8,引發了一波市場的追捧。
正如第一節解釋的,FP8的前綴,代表了不同的「拆分」方式。那DeepSeek此次引入UE8M0 FP8有什麼特殊之處嗎?
目前,「主流」的FP8通常遵循的是英偉達Hopper/Blackwell架構上的MXFP8規則。實踐中,通常使用「E4M3」和「E5M2」。其中,E4M3通常應用於前向傳播和計算激活值(精度更高、範圍更小);E5M2通常應用於反向傳播和計算梯度(範圍更大)。
圖源:英偉達技術博客-FP8二進制格式
當然,英偉達本身也是支持UE8M0的,DeepSeek此前開源的DeepGEMM就使用了UE8M0,並針對英偉達GPU做了優化。
圖源:deepseek-ai/DeepGEMM Github
而此次,對於DeepSeek專門強調「UE8M0 FP8是針對即將發佈的下一代國產芯片設計」,有分析認為,國產GPU在底層電路和指令集設計上,並不能完全兼容英偉達的FP8方案。英偉達有自己的「優化」,而國產GPU並不具備這種「優化」,如果直接照搬,結果往往是數值不穩定,梯度爆炸,訓練根本收不住。
用UE8M0這種「範圍優先」的格式,來適配國產芯片的硬件邏輯,確保國產芯片能跑通的折中方案。這是一種軟硬件之間的「互相成就」。模型廠商願意犧牲一些細節精度,換來國產芯片的穩定運行;而芯片廠商也通過這種合作,逐漸建立起自己的FP8生態。
在Medium的報道中,將UE8M0描述為一種「優先考慮範圍」的變體,它優先考慮動態範圍(指數),同時大幅壓縮甚至消除尾數精度——這有助於在非英偉達FP8實現上穩定訓練,這些實現的數值行為與英偉達的Blackwell/Hopper流水線不同。報道強調,這一轉變更多關乎與國產芯片的兼容性。
英國知名科技媒體The Register也指出,DeepSeek早已熟悉FP8,此次將UE8M0定位為一個兼容性支點——減少內存減少和提升吞吐量的同時,關鍵收益在於非英偉達指令集上的數值穩定性。
在美國不斷加碼對華AI芯片及相關技術實施出口限制的當下,業內分析師指出,UE8M0 FP8是模型開發者與芯片製造商之間加強協同設計的證據,這是在英偉達高端GPU出口受限的情況下,實現人工智能自給自足戰略的關鍵一環。軟硬件協同設計減少了在非英偉達架構上的移植阻力,並加快了投產時間——這是在供應受限情況下擴展國家人工智能基礎設施的重要條件。
今年2月起,中國信息信研究院也在積極開展DeepSeek適配測試工作。截止至2025年7月,已有包括芯片、服務器、一體機等硬件設備、框架軟件以及雲服務商等在內的人工智能軟硬件產業鏈關鍵環節30余家企業積極參與評測。7月份公佈的首批適配測試通過名單有8家。
圖源:中國信通院CAICT微信公眾號
據中國信通院的測試結果:
1. 在適配支持性方面,通過軟硬件協同優化,參測產品部署DeepSeek模型在語言理解、邏輯推理等典型任務中的精度已基本與國外系統持平(對比官方技術報告)。
2. 在部署環境方面,我國已有系統實現單機8卡推理DeepSeek 671B滿血版模型(INT8/FP8精度),與英偉達所需硬件規模持平,大部分國產設備需兩機16卡或四機32卡完成同參數量模型部署。
3. 在產品形態方面,硬件芯片、框架平臺、雲服務等產業鏈關鍵主體均積極推動適配工作。國內廠商能夠在短時間內完成在軟硬件系統上運行無報錯的基礎適配,目前適配重點主要集中在產品功能及面向業務場景性能的調優階段。
然而,就在今年6月24日,英偉達在其官方博客上正式推出了NVFP4。在8月25日,又發文表示,NVFP4在擁有4位訓練速度和效率的同時,可以實現16位訓練精度。作為行業龍頭的英偉達,又向前邁了一大步。
圖源:英偉達官方博客
國產模型廠商與芯片廠商在追趕的路上,任重道遠。但至少,已經在路上。
本文來自微信公眾號「新識研究所」,36氪經授權發佈。