繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

【華創通信】英偉達發佈FY25Q4財報,DeepSeek開源周順利落幕

2025-03-02 17:14

根據《證券期貨投資者適當性管理辦法》及配套指引,本資料僅面向華創證券客户中的金融機構專業投資者,請勿對本資料進行任何形式的轉發。您不是華創證券客户中的金融機構專業投資者,請勿訂閲、接收或使用本資料中的信息。本資料難以設置訪問權限,若給您造成不便,敬請諒解。感謝您的理解與配合。

行情回顧。本周通信行業(申萬)下跌了9.64%,跑輸滬深300指數漲幅(-2.22%)7.42個百分點,跑輸創業板指數漲幅(-4.87%)4.77個百分點。今年以來通信行業(申萬)上漲了2.78%,跑贏滬深300指數漲幅(-1.14%)3.92個百分點,跑贏創業板指數漲幅(1.34%)1.44個百分點。本周通信行業漲幅(-9.64%)在所有一級行業中排序第27,全年漲幅排序第8。截至本周末,通信行業(申萬)估值PE-TTM為33.69,同期滬深300 PE-TTM為12.55,創業板指數PE-TTM為33.54。本周通信板塊漲幅前五分別為蜂助手(+50.13%)、恆為科技(+31.70%)、翱捷科技-U(+30.00%)、共進股份(+27.95%)、卓翼科技(維權)(+26.38%);本周通信板塊跌幅前五分別為德科立(-33.91%)、博創科技(-26.27%)、太辰光(-24.91%)、瑞可達(-20.96%)、新易盛(-20.65%)。

訓練及推理需求共同帶動英偉達Blackwell增長,網絡業務預計將在FY26Q1恢復增長。英偉達發佈FY2025Q4業績,實現收入393億美元,同比+78%,環比+12%;實現GAAP淨利潤221億美元,同比+80%,環比+14%;實現Non-GAAP淨利潤221億美元,同比+72%,環比+10%。分不同業務看,數據中心為驅動增長的核心業務,最近一個季度收入佔比達90%。

1)數據中心-計算:FY25Q4收入環比增長 18%,同比增長 2 倍多。訓練方面,后訓練和模型定製正在推動對 NVIDIA 基礎設施和軟件的需求。推理方面,在測試時間擴展和 OpenAI 的 o3、DeepSeek-R1 和 Grok 3 等新推理模型的推動下,推理需求正在加速。

2)數據中心-網絡:FY25Q4收入環比下降 3%。英偉達正在從帶有 InfiniBand 的小型 NVLink 8 過渡到帶有 Spectrum-X 的大型 NVLink 72。Spectrum-X 和 NVLink Switch 收入增加且是新的主要增長點。預計將在FY26Q1恢復增長。

英偉達此前受限於新的機架式方案帶來的工程等問題導致了整體出貨節奏延迟,隨着相關問題解決,Blackwell產品已恢復正常出貨節奏。隨着英偉達GB300等產品開始批量出貨,及下一代Blackwell Ultra提上日程,有望持續帶動對於1.6T及800G等高速率

(一)通信板塊整體行情走勢

本周通信行業(申萬)下跌了9.64%,跑輸滬深300指數漲幅(-2.22%)7.42個百分點,跑輸創業板指數漲幅(-4.87%)4.77個百分點。今年以來通信行業(申萬)上漲了2.78%,跑贏滬深300指數漲幅(-1.14%)3.92個百分點,跑贏創業板指數漲幅(1.34%)1.44個百分點。

本周通信行業漲幅(-9.64%)在所有一級行業中排序第27,全年漲幅排序第8。

(二)個股表現

本周通信板塊漲幅前五分別為蜂助手(+50.13%)、恆為科技(+31.70%)、翱捷科技-U(+30.00%)、共進股份(+27.95%)、卓翼科技(+26.38%);

本周通信板塊跌幅前五分別為德科立(-33.91%)、博創科技(-26.27%)、太辰光(-24.91%)、瑞可達(-20.96%)、新易盛(-20.65%)。

二、訓練及推理需求共同帶動英偉達Blackwell增長,網絡業務預計FY26Q1恢復環比增長

英偉達發佈FY2025Q4業績,實現收入393億美元,同比+78%,環比+12%;實現GAAP淨利潤221億美元,同比+80%,環比+14%;實現Non-GAAP淨利潤221億美元,同比+72%,環比+10%。

分不同業務看,數據中心為驅動增長的核心業務,最近一個季度收入佔比達90%。

1)數據中心:第四季度收入達到創紀錄的 356 億美元,比上一季度增長 16%,比一年前增長 93%。FY25全年收入增長 142%,達到創紀錄的 1,152 億美元。Blackwell實現110億美元收入,為英偉達歷史上爬坡最快的產品。

2)遊戲及AIPC:第四季度遊戲收入為 25 億美元,比上一季度下降 22%,比一年前下降 11%。全年收入增長 9%,達到 114 億美元。

3)專業可視化:第四季度收入為 5.11 億美元,比上一季度增長 5%,比一年前增長 10%。全年收入增長 21%,達到 19 億美元。

4)汽車及機器人:第四季度汽車業務收入為 5.7 億美元,比上一季度增長 27%,比一年前增長 103%。全年收入增長 55%,達到 17 億美元。

訓練及推理需求共同帶動Blackwell增長,網絡業務預計將在FY26Q1恢復增長。

1)數據中心-計算:FY25Q4收入環比增長 18%,同比增長 2 倍多。

訓練:后訓練和模型定製正在推動對 NVIDIA 基礎設施和軟件的需求。客户正在競相擴展基礎設施,以訓練下一代尖端模型並解鎖更高水平的 AI 功能。使用 Blackwell,這些集羣通常有 100,000 個或更多 GPU,這種規模的多個基礎設施已經開始發貨。隨着開發人員和企業利用微調強化學習和蒸餾等技術為特定領域的用例定製模型,后訓練和模型定製正在推動對 NVIDIA 基礎設施和軟件的需求。后訓練和模型定製的規模是巨大的,並且總共需要比預訓練更多幾個數量級的計算。

推理:在測試時間擴展和 OpenAI 的 o3、DeepSeek-R1 和 Grok 3 等新推理模型的推動下,推理需求正在加速。與一次性推理相比,長思維推理 AI 每個任務可能需要多 100 倍的計算。Blackwell 的架構用於推理 AI 推理。與 Hopper 100 相比,Blackwell 的token吞吐量提高了 25 倍,成本降低了 20 倍,增強了推理 AI 模型。許多早期的 GB200 部署都專門用於推理,這在新架構中尚屬首次。

2)數據中心-網絡:FY25Q4收入環比下降 3%。預計將在FY26Q1恢復增長。

英偉達正在從帶有 InfiniBand 的小型 NVLink 8 過渡到帶有 Spectrum-X 的大型 NVLink 72。Spectrum-X 和 NVLink Switch 收入增加且是新的主要增長點。我們預計網絡將在FY26Q1恢復增長。AI 需要一類新的網絡,NVIDIA 提供用於scale-up計算的 NVLink 交換系統,對於scale-out,公司為 HPC 提供Quantum產品、為以太網環境提供Spectrum X產品。Spectrum-X 增強了用於 AI 計算的以太網,並取得了巨大的成功。Microsoft Azure、OCI、CoreWeave 和其他公司正在使用 Spectrum-X 構建大型 AI 工廠。第一個 Stargate 數據中心也將使用 Spectrum-X。

英偉達此前受限於新的機架式方案帶來的工程等問題導致了整體出貨節奏延迟,隨着相關問題解決,Blackwell產品已恢復正常出貨節奏。隨着英偉達GB300等產品開始批量出貨,及下一代Blackwell Ultra提上日程,有望持續帶動對於1.6T及800G等高速率光模塊產品的需求,重點推薦新易盛、天孚通信中際旭創,建議關注源傑科技

三、DeepSeek開源周落幕,成本利潤率可達545%

在本次開源周,DeepSeek陸續開放了五個代碼庫,向全世界分享了其在通用人工智能基礎設施領域的最新突破。代碼庫涵蓋大模型推理加速、通信優化、矩陣運算內核提升、並行計算效率改進、分佈式文件系統五個關鍵領域:FlashMLA 通過低秩 KV 壓縮技術減少推理內存佔用,提升長文本推理效率;DeepEP 優化 MoE 模型通信,降低訓練成本;DeepGEMM 實現高性能 FP8 矩陣計算,推動低精度計算轉型;DualPipe和EPLB分別優化流水線並行和負載均衡,縮短大模型訓練時間;3FS 則打破 「存儲牆」 限制,為 AI 訓練與推理提供高效數據支持。

本輪技術進步對推理和應用側的推動作用都是顯著的。在推理側,它們提升瞭解碼效率,降低了顯存佔用和硬件門檻,使大模型服務能處理更多併發請求,有效降低了企業的算力門檻;在訓練側,這些技術減少了訓練時間和成本,提升了訓練速度,讓大規模模型訓練更加高效。

1)FlashMLA:高效MLA解碼內核

DeepSeek開源周首個項目FlashMLA是針對英偉達Hopper GPU的高效MLA(多頭潛在注意力)解碼內核,專為優化可變長度序列的推理服務設計。其核心原理借鑑了Flash Attention 2/3的架構,並通過低秩KV壓縮技術減少推理時的內存佔用,同時在H800平臺上實現3000GB/s的內存帶寬和580TFLOPS的計算性能。這種性能飛躍源於三大創新:首先,分頁 KV 緩存使顯存帶寬利用率達到 98.7%,較 vLLM 提升 2.3 倍;其次,動態負載均衡算法將 GPU 流多處理器(SM)的空閒周期從 18% 壓縮至 2.1%;最后,異步執行引擎成功將 GEMM 與 softmax 操作重疊,使計算單元利用率突破 75% 的理論極限。

這一技術更新直擊AI商業化落地的核心痛點——長上下文處理帶來的顯存壓力與計算成本。MLA(多頭潛在注意力)技術通過重構KV緩存機制,實現了對長序列推理資源的精準管控。該方案創新性地採用64位BF16分頁緩存設計,在H800 GPU上達成了3000GB/s的內存帶寬利用率與580TFLOPS的峰值算力釋放。在技術維度,其實測數據展現出顛覆性優勢:在8K上下文長度的客服對話場景,單個H800 GPU的併發處理能力從120 QPS提升至692 QPS,響應延迟從 230ms 降低61%至 89ms,70B參數模型的單次推理成本更從0.0023美元驟降至0.0007美元。在行業生態層面,FlashMLA可直接集成到vLLM、Hugging Face Transformers等主流框架,使得中小團隊無需重複搭建框架即可享受頂尖性能,大幅降低了AI應用的准入門檻。

2)DeepEP:MoE模型通信庫

FlashMLA着眼於解決計算性能瓶頸,而DeepEP則聚焦MoE模型訓練與推理中的另一個關鍵環節——通信。其原理通過高吞吐量的All-to-All GPU內核和異步通信-計算重疊技術,優化了NVLink與RDMA間的非對稱帶寬傳輸,支持FP8低精度操作和動態負載均衡。

DeepEP的核心創新在於解決MoE模型的通信瓶頸。MoE模型需要多個專家子模型動態協作,傳統通信方式因數據量龐大且路徑複雜,容易成為性能瓶頸。DeepEP通過兩種技術突破:一是優化的全對全通信模式,將數據路由效率提升至接近硬件帶寬極限;二是計算與通信的重疊機制,利用基於Hook的調度方法,在后台傳輸數據的同時,讓GPU專注於計算任務,避免資源閒置。例如,在H800 GPU集羣中,DeepEP通過未公開的PTX指令進一步挖掘了硬件潛力,使通信效率提升30%以上。這種設計如同為數據流動修建了「立體交通網」,既減少擁堵,又最大化硬件利用率。

DeepEP的誕生標誌着MoE模型規模化部署的門檻顯著降低。傳統MoE訓練中,專家並行(EP)的通信開銷常佔訓練時間的40%以上,導致算力浪費。DeepEP通過優化通信流程,將這一比例壓縮至可忽略水平,填補了MoE模型分佈式訓練的通信工具空白。其應用不僅限於MoE模型的預訓練和推理預填充,還可擴展至多模態模型的參數同步場景。在訓練側,DeepEP通過減少通信開銷使分佈式訓練成本下降30%,而推理側的低延迟內核則使實時解碼效率提升2倍以上。

3)DeepGEMM:FP8矩陣計算庫

這一開源項目針對密集型和混合專家(MoE)模型的計算需求設計,尤其適配英偉達Hopper架構GPU,可實現高達1350+ TFLOPS的運算性能。DeepGEMM的核心代碼僅約300行,採用輕量級即時編譯(JIT)技術,無需預安裝或複雜編譯流程,在運行時動態生成內核,顯著降低了使用門檻。此外,它支持多種矩陣佈局,包括MoE模型中的分組運算,為複雜場景提供了靈活性。

DeepGEMM的技術突破源於對FP8計算特性的系統性重構。基於DeepSeek-V3研發的動態張量縮放技術,創新性引入Warp級兩級累加機制,在保持數值穩定性的前提下,將Hopper張量核心的計算潛力充分釋放。該庫支持常規密集矩陣乘法與MoE分組計算雙模式,通過單一內核函數適配任意矩陣維度,徹底消除傳統方案中因矩陣形態變化導致的性能波動。在標準矩陣乘法場景下,相較於CUTLASS 3.3等傳統方案,其在小批量數據處理(M=64或128)時實現最高達2.7倍的加速比,大矩陣任務中穩定提升1.18倍性能;在MoE模型的分組GEMM計算中,連續佈局下的推理速度同步提升1.15倍。

工程實現上,其採用輕量化JIT運行時編譯方案(體積減少80%),無需複雜預編譯流程即可動態生成內核,顯著提升雲原生環境的彈性部署效率。性能驗證表明,DeepGEMM在128×128至4096×4096矩陣範圍的計算中持續保持高硬件利用率,成功應對MoE模型動態激活專家帶來的負載波動挑戰。單位計算能耗較BF16精度顯著降低,有力促進千卡級訓練集羣的運營成本優化。作為首個完整支持Hopper Tensor Core特性的開源FP8庫,其與PyTorch 2.0/TensorFlow 2.12的兼容性已在DeepSeek-V3生產環境中完成全鏈路驗證,為行業提供了從芯片級優化到模型架構設計的協同增效案例。

這一技術對行業產生了兩方面影響。首先,FP8作為新興的低精度標準,正逐步推動AI計算從訓練到推理的全流程效率提升。DeepGEMM的發佈不僅驗證了FP8在大規模MoE模型中的可行性,還通過開源生態降低了技術普及門檻,推動行業向低精度計算轉型。其次,其輕量化設計(代碼僅300行)為開發者提供了學習現代GPU優化的範例,尤其在模型參數量爆炸式增長的背景下,此類工具對降低算力成本至關重要。

在應用場景上,DeepGEMM已直接服務於DeepSeek自家的V3/R1模型訓練與推理。例如,在大型語言模型的預填充和解碼階段,其計算性能較傳統庫提升最高達2.7倍,顯著縮短了訓練周期。對於MoE模型,分組矩陣乘法功能可高效處理多專家並行計算,適用於智能客服、代碼生成等需要動態路由的任務。未來,該庫還可擴展至圖像識別、視頻生成等領域的密集型計算,尤其是在需要實時處理高分辨率數據的場景中。

這項技術對訓練與推理的影響尤為顯著。訓練側,FP8將內存佔用減少近半,允許更大批次的數據並行,同時Hopper GPU的算力優勢使訓練速度提升30%-40%。DeepGEMM通過穩定FP8訓練流程,解決了此前業界普遍存在的「訓練不穩定」難題。推理側,其TFLOPS峰值達1350+,配合KV Cache的FP8量化,可使吞吐量提升約2倍。例如,在BERT等高精度模型推理中,FP8已實現4.5倍加速且精度無損。這些突破使得中小機構也能以更低成本部署大規模模型,推動AI技術普惠化。

4)DualPipe與EPLB:並行策略優化

第四日開源的DualPipe和EPLB分別針對流水線並行和負載均衡進行創新。DualPipe專注於優化分佈式訓練中的計算-通信重疊問題,通過雙向調度策略減少硬件資源的空閒時間;EPLB則針對混合專家模型(MoE)的負載均衡場景,動態調整專家分佈以避免GPU閒置。這兩項技術均以代碼庫形式公開,並附帶了詳細的性能分析數據。

DualPipe的核心創新在於雙向重疊計算與通信。傳統流水線並行中,前向傳播(Forward)和反向傳播(Backward)需順序執行,導致設備等待形成「流水線氣泡」。DualPipe通過對稱調度微批次(Micro-batches),讓前向計算與反向梯度傳輸同時進行,使設備始終處於工作狀態,氣泡時間顯著降低。EPLB則採用冗余專家策略,當某個專家負載過高時,系統自動複製其副本並分配到低負載GPU上,同時通過啓發式算法將關聯性強的專家部署在同一節點,既平衡計算壓力又減少跨節點通信量。這種設計類似於交通調度系統,動態將「擁堵路段」的車流引導至空閒通道,確保整體路網高效運轉。

這兩項技術的意義在於突破大模型訓練的規模化瓶頸。DualPipe通過減少50%的流水線氣泡,有效隱藏了通信開銷,直接降低了對昂貴GPU集羣的依賴;EPLB則解決了MoE模型中專家負載不均導致的資源浪費問題,使得千億參數模型的分佈式訓練成為可能。

具體到對推理側和訓練側的影響。訓練側,DualPipe將傳統單向流水線的「串行依賴」轉化為並行流水,結合EPLB的專家動態分配;推理側,EPLB的冗余專家機制可實時響應負載變化,在對話系統中實現毫秒級請求分發,而DualPipe的內存優化策略(如激活值複用)降低了邊緣設備部署的硬件門檻。二者共同構建了「訓練-推理一體化」的高效範式,為AI應用的工業化落地提供了關鍵技術支撐。舉例來説,雲計算中心可藉助DualPipe加速大型語言模型的預訓練,同時通過EPLB動態調配專家模塊,應對突發性推理請求(如電商大促期間的推薦系統);邊緣計算場景中,EPLB的層級負載均衡能力可在物聯網設備集羣中優化資源分配,而DualPipe的計算-通信重疊特性適合處理自動駕駛等實時性要求高的任務。

5)3FS:並行分佈式文件系統 —— AI專屬的分佈式文件系統

DeepSeek在開源周壓軸發佈的3FS(Fire-Flyer File System)是一款專為AI訓練與推理設計的高性能並行文件系統。該系統通過整合數千塊固態硬盤(SSD)的存儲能力和遠程直接內存訪問(RDMA)網絡的全帶寬,構建了一個分佈式共享存儲層。其核心功能包括支持數據預處理、檢查點存儲、KVCache查詢等全流程操作,並在180節點集羣測試中實現了6.6 TiB/s的讀取吞吐量,相當於傳統存儲系統的數十倍性能提升。這一開源項目不僅包含文件系統本身,還配套了Smallpond數據處理框架,形成完整的AI數據基礎設施解決方案。

3FS的技術核心在於兩項創新:分離式架構和鏈式複製分配查詢協議(CRAQ)。前者將計算節點與存儲節點物理解耦,通過RDMA網絡實現「位置無關」的數據訪問,使得算力集羣可以動態擴展而不受存儲限制;后者則通過鏈式複製保障數據強一致性,每個寫入操作需在多個存儲節點形成確認鏈,同時利用分配查詢機制優化讀取效率,既避免數據衝突又降低延迟。這種設計類似於高鐵站的智能調度系統:數據如同行李被精準分揀至不同區域,而計算節點則像高速列車無需停靠即可快速獲取所需資源。

3FS對AI開發範式產生深遠影響。在訓練側,其分離式架構打破了「存儲牆」限制,使數據供給速度首次匹配上GPU算力增長曲線,讓萬億參數模型的訓練效率不再受制於IO瓶頸【「IO 瓶頸」是指在數據的輸入(如從存儲設備讀取數據到計算設備)和輸出(如將計算結果寫回存儲設備)過程中,由於設備性能、傳輸速度等因素導致的系統性能受限的情況。在 AI 訓練中,IO 瓶頸會使數據無法及時供給到計算設備,導致 GPU 等計算資源空閒等待,從而降低訓練效率】。在推理側,強一致性保障下的KVCache機制,使得大模型服務可同時處理數萬併發請求而不丟失上下文連貫性,為多輪對話、複雜推理場景提供技術底座。

此外,3月1日DeepSeek宣佈了「One More Thing」,揭祕V3/R1推理系統,公開了大規模部署成本和收益。根據《DeepSeek-V3/R1推理系統概覽》,假定GPU租賃成本為2美元/小時,總成本為87072美元/天;如果所有tokens全部按照DeepSeek R1的定價計算,理論上一天的總收入為562027美元/天,成本利潤率為545%。我們認為五大代碼庫的開源為人工智能領域的進一步發展奠定了堅實基礎,訓練+推理側硬件使用成本下滑下國內AI相關資本開支將有顯著提振,國產算力景氣度將進一步上行。建議關注國產GPU、服務器、交換機、光模塊、高速銅纜等國產算力各細分產業鏈,重點推薦盛科通信,建議關注光迅科技鋭捷網絡華工科技紫光股份、共進股份等。此外建議關注推理需求涌現帶來的AIDC建設及規模化GPU算力及通信網絡部署需求,重點推薦潤澤科技,建議關注科華數據、世紀互聯、光環新網

四、投資建議

運營商:重點推薦中國移動中國電信中國聯通

光模塊光器件光芯片:重點推薦天孚通信、中際旭創、新易盛,建議關注光迅科技、源傑科技;

衞星通信:建議關注海格通信震有科技

液冷:建議關注英維克高瀾股份

設備商:建議關注紫光股份、中興通訊、鋭捷網絡、共進股份;

IDC&AIDC:推薦潤澤科技、寶信軟件,建議關注奧飛數據、光環新網、科華數據;

物聯網模組:推薦廣和通,建議關注威勝信息有方科技

控制器:推薦拓邦股份和而泰

軍工通信:推薦七一二上海瀚訊

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。