熱門資訊> 正文
2025-06-30 07:46
今天,大模型參數已經以「億」為單位狂飆。
僅僅過了兩年,大模型所需要的計算能力就增加了1000倍,這遠遠超過了硬件迭代的速度。目前支持AI大模型的方案,主流是依靠GPU集羣。
但單芯片GPU的瓶頸是很明顯的:第一,單芯片的物理尺寸限制了晶體管數量,即便採用先進製程工藝,算力提升也逐漸逼近摩爾定律的極限;第二,多芯片互聯時,數據在芯片間傳輸產生的延迟與帶寬損耗,導致整體性能無法隨芯片數量線性增長。
這就是為什麼,面對GPT-4、文心一言這類萬億參數模型,即使堆疊數千塊英偉達 H100,依然逃不過 「算力不夠、電費爆表」 的尷尬。
目前,業內在AI訓練硬件分爲了兩大陣營:採用晶圓級集成技術的專用加速器(如Cerebras WSE-3和Tesla Dojo)和基於傳統架構的GPU集羣(如英偉達 H100)。
晶圓級芯片被認為是未來的突破口。
在常規的芯片生產流程中,一個晶圓會在光刻后被切割成許多小裸片(Die)並且進行單獨封裝,每片裸片在單獨封裝后成為一顆完整的芯片。
芯片算力的提升方式,是依靠增加芯片面積,所以芯片廠商都在不斷努力增加芯片面積。目前算力芯片的單Die尺寸大約是26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸無法突破曝光窗的大小。
曝光窗大小多年來一直維持不變,成爲了制約芯片算力增長的原因之一。
晶圓級芯片則提供了另一種思路。通過製造一塊不進行切割的晶圓級互連基板,再將設計好的常規裸片在晶圓基板上進行集成與封裝,從而獲得一整塊巨大的芯片。
未經過切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成帶寬更高、延時更短的互連結構,相當於通過高性能互連與高密度集成構建了更大的算力節點。所以,相同算力下,由晶圓級芯片構建的算力集羣佔地面積對比GPU 集羣能夠縮小 10-20 倍以上,功耗可降低 30% 以上。
全球有兩家公司已經開發出了晶圓級芯片的產品。
一家是Cerebras。這家企業從2015年成立,自2019年推出了WES-1,之后經過不斷迭代,目前已經推出到第三代晶圓級芯片——WES-3。
WES-3採用臺積電5nm工藝,晶體管數量達到誇張的4萬億個,AI核心數量增加到90萬個,緩存容量達到了44GB,可以支持高達 1.2PB 的片外內存。
WES-3的能力可以訓練比GPT-4和Gemini大10倍的下一代前沿大模型。四顆並聯情況下,一天內即可完成700億參數的調教,支持最多2048路互連,一天便可完成Llama 700億參數的訓練。
這些都是集成在一塊215mm×215mm=46,225mm2的晶圓上。
如果這個對比還不夠明顯,那可以這麼看:對比英偉達H100,WES-3的片上內存容量是 H100的880倍、單芯片內存帶寬是H100的7000倍、核心數量是H100的52倍,片上互連帶寬速度是H100的3715倍。
另一家是特斯拉。特斯拉的晶圓級芯片被命名為Dojo。這是馬斯克在2021年就開始的嘗試。
特斯拉Dojo的技術路線和Cerebras不一樣。是通過採用Chiplet路線,在晶圓尺寸的基板上集成了 25 顆專有的 D1 芯粒(裸Die)。
D1芯粒在645平方毫米的芯片上放置了500億個晶體管,單個芯粒可以提供362 TFlops BF16/CFP8的計算能力。合起來的單個Dojo擁有9Petaflops的算力,以及每秒36TB的帶寬。
特斯拉的Dojo系統專門針對全自動駕駛(FSD)模型的訓練需求而定製。思路是從25個D1芯粒→1個訓練瓦(Training Tile)→6個訓練瓦組成1個托盤→2個托盤組成1個機櫃→10個機櫃組成1套ExaPOD超算系統,能夠提供1.1EFlops的計算性能。
既然單芯片GPU和晶圓級芯片走出了兩條岔路,在這里我們以Cerebras WSE-3、Dojo 和英偉達 H100為例,對比一下兩種芯片架構對算力極限的不同探索。
一般來説AI 訓練芯片 GPU 硬件的性能通過幾個關鍵指標進行評估:每秒浮點運算次數(FLOPS) ,表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力的強弱。內存帶寬,決定了訪問和處理數據的速度,直接影響訓練效率。延迟和吞吐量,能夠評估GPU處理大數據負載和模型並行性的效率,從而影響實時性能。
Cerebras WSE-3 憑藉單片架構,在 AI 模型訓練中展現獨特潛力。
一般來講,每秒浮點運算次數(FLOPS) 能夠表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力。WSE-3 的 FP16 訓練峰值性能達到 125 PFLOPS,支持訓練高達 24 萬億參數的 AI 模型,且無需進行模型分區處理。這個功能就特別適合以精簡高效的方式處理超大模型。
與依賴分層內存架構(可能造成處理瓶頸)的傳統 GPU 不同,WSE 的設計使850 個核心可獨立運行,並直接訪問本地內存,這樣就有效提升了計算吞吐量。
在這方面,英偉達H100採用的是模塊化和分佈式方法。單個 H100 GPU 可為高性能計算提供 60 TFLOPS FP64 計算能力,八個互連的 H100 GPU 組成的系統,可實現超 1 ExaFLOP 的 FP8 AI 性能。
但分佈式架構就存在數據傳輸問題,雖然NVLink 和 HBM3 內存能降低延迟,但在訓練超大型模型時,GPU 間通信仍會影響訓練速度。
在AI訓練的表現中,Cerebras WSE-3會更加擅長處理超大型模型。2048個WSE-3系統組成的集羣,訓練Meta的700億參數Llama 2 LLM僅需1天,相比Meta原有的AI訓練集羣,速度提升達30倍。
從數據傳輸來看,WSE-3 的單片架構避免了多芯片間的數據傳輸,顯著降低延迟,支持大規模並行計算和核心間低延迟通信。速度快是單片的優勢,與傳統GPU 集羣相比,WSE-3 可將軟件複雜度降低高達 90%,同時將實時 GenAI 推理的延迟降低 10倍以上。
特斯拉Dojo Training Tile屬於晶圓級集成,當然也能夠大幅降低通信開銷。由於是從Die到Die之間傳遞,在跨區塊擴展時仍會產生一定延迟。目前,Dojo 能實現 100 納秒的芯片間延迟,並且針對自動駕駛訓練優化了吞吐量,可同時處理 100 萬個每秒 36 幀的視頻流。
英偉達H100基於 Hopper 架構,是目前最強大的AI訓練GPU之一,配備18,432個CUDA 核心和640個張量核心,並通過NVLink和NVSwitch系統實現GPU間高速通信。高速通信。雖然多 GPU 架構具備良好擴展性,但數據傳輸會帶來延迟問題,即便NVLink 4.0 提供每個GPU 900 GB/s的雙向帶寬,延迟仍高於晶圓級系統。
儘管能夠憑藉着架構特性實現單晶圓工作負載的低延迟和高吞吐量,但晶圓級系統如WSE-3 和 Dojo面臨着可擴展性有限、製造成本高和通用工作負載靈活性不足的問題。
從硬件購置成本來看,不同芯片的價格因架構和應用場景而異。
據報道,特斯拉單台Tesla Dojo 超級計算機的具體成本估計在3 億至 5 億美元之間。技術路線上,Dojo採用的是成熟晶圓工藝再加上先進封裝(採用了臺積電的Info_SoW技術集成),去實現晶圓級的計算能力,能夠避免挑戰工藝極限。這既能保證較高的良品率,又便於實現系統的規模化生產,芯粒的更新迭代也更為輕松。
Cerebras WSE 系統則因先進的製造工藝與複雜設計,面臨較高的初期研發和生產成本。據報道,Cerebras WSE-2 的每個系統成本在 200 萬至 300 萬美元之間。
相比之下,英偉達單GPU的採購成本比較低。以英偉達A100來説,40GB PCIe型號價格約 8,000 - 10,000美元,80GB SXM型號價格在18,000 - 20,000美元。這使得許多企業在搭建 AI 計算基礎設施初期,更傾向於選擇英偉達GPU。不過,英偉達GPU在長期使用中存在能耗高、多芯片協作性能瓶頸等問題,會導致運營成本不斷增加。
總體來看,雖然WSE-2能為超大規模AI模型提供超高計算密度,但對於需要在大型數據中心和雲服務中部署多GPU可擴展方案的機構,A100的成本優勢更為明顯。
常規形態下,集羣算力節點越多,則集羣規模越大,花費在通信上的開銷就越大,集羣的效率就越低。
這就是為什麼,英偉達NVL72 通過提升集羣內的節點集成密度(即提高算力密度)。在一個機架中集成了遠超常規機架的 GPU 數量,使得集羣的尺寸規模得到控制,效率才能實現進一步提升。
這是英偉達權衡了良率和成本之后給出的解決方案。但是如果英偉達繼續按照這種計算形態走下去,想要進一步提升算力密度,就會走到晶圓級芯片的路上。畢竟,晶圓級芯片的形態是目前為止算力節點集成密度最高的一種形態。
晶圓級芯片,潛力無限。
本文來自微信公眾號「半導體產業縱橫」(ID:ICViews),作者:九林,36氪經授權發佈。