熱門資訊> 正文
2023-06-15 14:53
本文來自格隆匯專欄:國泰君安證券研究,作者:秦和平、李奇
摘要
投資建議:AMD MI300系列為AI算力市場貢獻增量,芯片市場「贏家通吃」英偉達仍佔AI芯片主導地位,推薦標的英偉達(NVDA.O)。
以MI 300X為代表的AMD系列新品重磅發佈,整體表現亮眼。AMD舉行「AMD數據中心與人工智能技術首映會」,發佈了一系列新產品。其中,MI 300X針對大語言模型進行優化,產品性能大幅突破。MI 300X與MI 300A類似,由多個chiplets組成,在chiplets間內存和網絡鏈接可實現共享。但MI300X移除了MI300A 上原有的CPU chiplets,成爲了純GPU產品。從參數上看,MI300X基於CDNA 3,擁有192GB的HBM3 DRAM內存,5.2TB/s的內存帶寬,Infinity Fabric帶寬896GB/s和1530億個晶體管,採用5nm和6nm的製程並含13個chiplets。
AMD的MI 300系列產品作為全球AI算力的新供給,是AI算力增量市場有效補充,但暫時難以撼動英偉達在AI芯片市場的統治格局。第一,在硬件端,英偉達具備系統性集成競爭優勢。GH200集合了Grace Hopper架構,並應用第四代Tensor Core提升計算性能、進行模型優化,以及NVLink實現高速傳輸,這些系統性的優化並不僅是MI 300X部分硬件參數的提升所能比擬的,而這超異構創新正形成了英偉達在硬件端的競爭壁壘,實現了芯片和系統耦合。
第二,軟件端CUDA打造高兼容性的GPU通用平臺,形成的壁壘短期內ROCm無法打破。CUDA具備ROCm難以企及的開發人員數量,目前CUDA 擁有超過400萬開發人員,歷史上CUDA總下載量達到4000萬,整體而言,在發佈時間、硬件支持、操作系統和開發者數量等維度上CUDA均具備優勢,展現出更加繁榮的生態。
此外,量產時間、合作伙伴網絡和研發人員等因素均成爲了英偉達的競爭優勢的有力加持。MI300 X目前仍未送樣,距離實現量產也還有較長時間,仍需經過產業實踐;而英偉達H100已在去年9月實現量產,GH200目前也已投入量產,上市時間指日可待;英偉達已形成了多元而龐大的客户羣和完備的合作伙伴網絡,整體積澱暫時優於AMD;隨着英偉達研發人員數量和研發投入的高增,我們看好后續英偉達產品的迭代速度。
風險提示:AI應用發展不及預期;產品出貨時間不及預期;地緣政治衝突。
報告正文
在2023年6月13日AMD舉行的「AMD數據中心與人工智能技術首映會」中,AMD發佈了一系列新產品,包括第四代AMD EPYC(霄龍)產品組合、EPYC「Bergamo」CPU、EPYC 「Genoa」 CPU 、EPYC 「Genoa-X」 CPU、P4 DPU等。其中最受人關注的莫屬AMD AI Platforms中的硬件端MI300A、MI300X和Instinct Platform的發佈。
1.1. MI300A專為AI和HPC打造
MI300A成為全球首個為AI和HPC打造的APU加速卡。公司CEO蘇姿豐率先公佈了MI300A,稱這是全球首個為AI和HPC(高性能計算)打造的APU加速卡。MI300A總共包含1460億個晶體管,含13個chiplets,24個Zen 4 CPU核心,1個CDNA 3GPU和128GB HBM3內存,採用5nm和6nm的製程,CPU和GPU共用統一內存。與MI 250相比,MI 300A提供了8倍的性能和5倍的效率。目前,MI300A已經送樣。
1.2 MI300X針對LLM進行優化,性能高於MI 300A
MI 300X表現亮眼,內存帶寬大幅突破。MI300X與MI 300A類似,也是由多個chiplets組成的芯片,在chiplets間內存和網絡鏈接可實現共享。但與MI 300A不同的是,MI 300X移除了 MI300A 上原有的CPU chiplets,成爲了純GPU產品。MI300X同樣基於CDNA 3,擁有192GB的HBM3 DRAM內存,5.2TB/s的內存帶寬,Infinity Fabric帶寬896GB/s和1530億個晶體管,同樣採用5nm和6nm的製程並含13個chiplets。MI300X計劃於23Q3送樣、23Q4出貨。
MI300X性能顯著高於MI300A。對比MI 300X 和MI 300A,MI300A是由3個Zen4 CPU chiplets和多個GPU chiplets組成的,但在MI300X中,CPU被換成了2個額外的CDNA 3 chiplets,MI300X的晶體管數量也從1460億增加到了1530億。為滿足大語言模型對內存的需求, MI 300X的DRAM內存從MI300A的128GB增加到了192GB,內存帶寬從800GB/s增加到了5.2TB/s。
MI300X是針對大語言模型進行了優化的版本。MI 300X能夠在內存中處理高達800億參數的大型語言模型的芯片,蘇姿豐將其稱為「生成式AI加速器」,並表示其包含的CDNA 3 GPU chiplets是專門為AI和HPC工作負載而設計。此外,她在發佈會中展示了MI300X如何使用Falcon-40B大型語言模型在內存中運行一個40億參數的神經網絡,而不需要將數據在外部內存中來回移動。
MI300X部分性能可對標英偉達H100GPU。蘇姿豐表示,MI300X將提供英偉達H100 Hopper GPU2.4倍的內存密度和1.6倍的內存帶寬。我們認為,AMD MI300X在內存密度和內存帶寬等參數上已優於英偉達可比產品,MI 300X將一定程度影響AI加速卡市場份額。
1.3 AMD Instinct Platform實現現有基礎架構的直接使用
Instinct Platform實現在現有的基礎架構中直接使用MI300X的AI計算能力和內存。蘇姿豐在發佈會中同時發佈了AMD Instinct Platform,Instinct Platform將結合8個MI300X和1.5TB的HMB3內存,並採用工業級標準化設計。通過利用行業標準的OCP基礎架構,Instinct Platform可直接使用MI300X的AI計算能力和內存,在降低了客户總體開發成本的基礎上也加速了客户的上市時間,實現了輕松部署的效能。
英偉達持續加大研發投入,注重創新能力培育。據FourWeekMBA統計,截至2023年1月,英偉達全球員工總數共26196人,其中研發人員19532人,研發人員佔比約75%,四年間英偉達研發人員數量近乎翻倍。其中很多員工來自英特爾和AMD,由於英偉達在GPU市場的龍頭地位,其對於芯片開發者而言具備較高的吸引力,頭部效應吸引大量高端人才注入,因此維護了自己的研發能力優勢。
英偉達以超異構創新構建面向大規模AI計算的超級計算機。我們認為,英偉達的核心競爭優勢在於,構建了AI時代面向大規模並行計算而設的全棧異構的數據中心。英偉達NVLink性能快速迭代,同時NVSwitch可連接多個NVLink,在單節點內和節點間實現以NVLink能夠達到的最高速度進行多對多GPU通信,滿足了在每個GPU之間、GPU和CPU間實現無縫高速通信的需求,同時基於DOCA加速數據中心工作負載的潛力,實現DPU的效能提升,GPU +Bluefield DPU+Grace CPU的結合開創性地實現了芯片間的高速互聯。同時CUDA充當通用平臺,引入英偉達軟件服務和全生態系統。我們認為,芯片和系統耦合的實現使得英偉達真正實現了超異構創新。
英偉達自研Grace Hopper超級芯片,為AI數據中心而生。Grace Hopper是適用於大規模AI和HPC應用的突破性加速CPU。通過NVLink-C2C 技術將Grace和Hopper架構相結合,為加速AI和HPC應用提供 CPU+GPU 相結合的一致內存模型。它採用新型900 GB/s一致性接口,比PCIe 5.0快7倍,並可運行所有的英偉達軟件棧和平臺,包括 NVIDIA HPC SDK、NVIDIA AI和NVIDIA Omniverse。
英偉達CUDA構築軟件業務底層框架基石,打造高兼容性的GPU通用平臺。藉助英偉達 CUDA 工具包,開發者可以在GPU加速的嵌入式系統、桌面工作站、企業數據中心、基於雲的平臺和HPC超級計算機上開發、優化和部署應用程序。CUDA最初用於輔助GeForce提升遊戲開發效率,但隨着CUDA的高兼容性優勢彰顯,英偉達將GPU的應用領域拓展至計算科學和深度學習領域。CUDA可以充當英偉達各GPU系列的通用平臺,因此開發者可以跨GPU配置部署並擴展應用。目前,通過 CUDA 開發的數千個應用目前已部署到嵌入式系統、工作站、數據中心和雲中的GPU。
CUDA形成的壁壘短期內ROCm無法打破,成為英偉達與AMD市場份額差距的重要影響因素。在COMPUTEX 2023中,英偉達表示,目前CUDA 擁有超過400萬開發人員,歷史上CUDA 的總下載量也達到驚人的4000萬。而ROCm作為AMD為對標英偉達而打造的開放式軟件平臺,2016年4月首次發佈,相比2007年發佈的CUDA目前使用的人數依舊較少。ROCm操作系統直至2023年4月才支持Windows,改變了僅支持Linux的尷尬局面,同時長期僅支持Radeon Pro系列GPU,近期纔開始陸續拓展。此外,ROCm缺少類似於CUDA的社區支持和成熟的生態體系。我們認為,目前CUDA已形成極高的准入壁壘,也成爲了英偉達持續擴展人工智能領域市場的品牌影響力來源,帶動了英偉達GPU的高市場份額,短期內ROCm的軟件支持難以匹敵CUDA。
MI 300較英偉達GH 200部分硬件參數差距有望對標,但整體仍存在一定差距。GH200超級芯片是英偉達系統性競爭優勢的集大成者,將72核的Grace CPU、H100 GPU、96GB的HBM3和512 GB的LPDDR5X 集成在同一個封裝中,它集合了最先進的Grace Hopper架構,並應用第四代Tensor Core提升計算性能、進行模型優化,NVLink實現了高速的傳輸,這都將進一步形成英偉達的競爭壁壘。通過將英偉達GH 200和MI 300進行對比,我們認為,MI 300還有許多參數有待后續公佈,但從算力、內存等指標上有望和英偉達實現對標,但在架構、製程和晶體管數量上仍與英偉達GH 200存在一定差距。
芯片市場具有一定的「贏家通吃」性。1)以全球x86 CPU服務器處理器市場為例,據Mercury Research,英特爾佔超80%的市場份額;2)以獨立顯卡市場為例,據JPR測算,英偉達長期佔全球獨立顯卡的市場份額近80%;3)以基帶芯片市場為例,據TechInsights,高通在2022年以61%的收入份額領先基帶芯片市場。而目前,英偉達就基於其繁榮的生態,構築了AMD暫時難以逾越的生態壁壘。
綜上所述,我們認為英偉達短期內仍佔AI芯片主導地位,主要基於如下原因:
1)英偉達具備系統性集成競爭優勢,GH200集合了Grace Hopper架構,並應用第四代Tensor Core提升計算性能、進行模型優化,以及NVLink實現高速傳輸,這些系統性的優化並不僅是部分硬件參數的提升所能比擬的,而這超異構創新正是英偉達在硬件端的競爭壁壘,實現了芯片和系統耦合;
2)CUDA具備ROCm難以企及的開發人員數量,而英偉達基於CUDA而形成的軟件生態的繁榮程度高於AMD的ROCm;
3)MI300 X目前仍未送樣,距離實現量產可能也還有較長時間,仍需經過產業實踐;而英偉達H100已在去年9月實現量產,GH200目前也已投入量產,上市時間指日可待;
4)英偉達已形成了多元而龐大的客户羣和完備的合作伙伴網絡,在其合作伙伴網絡列表中,截止2023年6月14日,共公示了976家公司,英偉達的客户羣和合作夥伴積澱暫時優於AMD;
5)研發人員的數量反映了公司長期的研發能力,隨着英偉達研發人員數量和研發投入的高增,我們看好后續英偉達產品的迭代速度。
整體而言,AMD的MI 300系列產品作為全球AI算力的新供給,是AI算力增量市場有效補充,但暫時難以撼動英偉達的市場統治格局,推薦標的英偉達(NVDA.O)。
AI應用發展不及預期;產品出貨時間不及預期;地緣政治衝突。
注:本文來自國泰君安發佈的《【國君海外科技】AI算力新供給:AMD MI 300表現亮眼, 英偉達市場地位穩固》,報告分析師:秦和平(S0880123010042)、李奇(S0880523060001)
本訂閲號不是國泰君安證券研究報告發布平臺。本訂閲號所載內容均來自於國泰君安證券研究所已正式發佈的研究報告,如需瞭解詳細的證券研究信息,請具體參見國泰君安證券研究所發佈的完整報告。本訂閲號推送的信息僅限完整報告發布當日有效,發佈日后推送的信息受限於相關因素的更新而不再準確或者失效的,本訂閲號不承擔更新推送信息或另行通知義務,后續更新信息以國泰君安證券研究所正式發佈的研究報告爲準。
本訂閲號所載內容僅面向國泰君安證券研究服務簽約客户。因本資料暫時無法設置訪問限制,根據《證券期貨投資者適當性管理辦法》的要求,若您並非國泰君安證券研究服務簽約客户,為控制投資風險,還請取消關注,請勿訂閲、接收或使用本訂閲號中的任何信息。如有不便,敬請諒解。
市場有風險,投資需謹慎。在任何情況下,本訂閲號中信息或所表述的意見均不構成對任何人的投資建議。在決定投資前,如有需要,投資者務必向專業人士諮詢並謹慎決策。國泰君安證券及本訂閲號運營團隊不對任何人因使用本訂閲號所載任何內容所引致的任何損失負任何責任。
本訂閲號所載內容版權僅為國泰君安證券所有。任何機構和個人未經書面許可不得以任何形式翻版、複製、轉載、刊登、發表、篡改或者引用,如因侵權行為給國泰君安證券研究所造成任何直接或間接的損失,國泰君安證券研究所保留追究一切法律責任的權利。