熱門資訊> 正文

晶圓級芯片，是未來

2025-06-30 07:46

今天，大模型參數已經以「億」為單位狂飆。

僅僅過了兩年，大模型所需要的計算能力就增加了1000倍，這遠遠超過了硬件迭代的速度。目前支持AI大模型的方案，主流是依靠GPU集羣。

但單芯片GPU的瓶頸是很明顯的：第一，單芯片的物理尺寸限制了晶體管數量，即便採用先進製程工藝，算力提升也逐漸逼近摩爾定律的極限；第二，多芯片互聯時，數據在芯片間傳輸產生的延迟與帶寬損耗，導致整體性能無法隨芯片數量線性增長。

這就是為什麼，面對GPT-4、文心一言這類萬億參數模型，即使堆疊數千塊英偉達 H100，依然逃不過「算力不夠、電費爆表」的尷尬。

目前，業內在AI訓練硬件分爲了兩大陣營：採用晶圓級集成技術的專用加速器（如Cerebras WSE-3和Tesla Dojo）和基於傳統架構的GPU集羣（如英偉達 H100）。

晶圓級芯片被認為是未來的突破口。

晶圓級芯片，兩大玩家

在常規的芯片生產流程中，一個晶圓會在光刻后被切割成許多小裸片（Die）並且進行單獨封裝，每片裸片在單獨封裝后成為一顆完整的芯片。

芯片算力的提升方式，是依靠增加芯片面積，所以芯片廠商都在不斷努力增加芯片面積。目前算力芯片的單Die尺寸大約是26x33=858mm2，也就是接近曝光窗大小，但是芯片的最大尺寸無法突破曝光窗的大小。

曝光窗大小多年來一直維持不變，成爲了制約芯片算力增長的原因之一。

晶圓級芯片則提供了另一種思路。通過製造一塊不進行切割的晶圓級互連基板，再將設計好的常規裸片在晶圓基板上進行集成與封裝，從而獲得一整塊巨大的芯片。

未經過切割的晶圓上的電路單元與金屬互連排列更緊密，從而形成帶寬更高、延時更短的互連結構，相當於通過高性能互連與高密度集成構建了更大的算力節點。所以，相同算力下，由晶圓級芯片構建的算力集羣佔地面積對比GPU 集羣能夠縮小 10-20 倍以上，功耗可降低 30% 以上。

全球有兩家公司已經開發出了晶圓級芯片的產品。

一家是Cerebras。這家企業從2015年成立，自2019年推出了WES-1，之后經過不斷迭代，目前已經推出到第三代晶圓級芯片——WES-3。

WES-3採用臺積電5nm工藝，晶體管數量達到誇張的4萬億個，AI核心數量增加到90萬個，緩存容量達到了44GB，可以支持高達 1.2PB 的片外內存。

WES-3的能力可以訓練比GPT-4和Gemini大10倍的下一代前沿大模型。四顆並聯情況下，一天內即可完成700億參數的調教，支持最多2048路互連，一天便可完成Llama 700億參數的訓練。

這些都是集成在一塊215mm×215mm=46,225mm2的晶圓上。

如果這個對比還不夠明顯，那可以這麼看：對比英偉達H100，WES-3的片上內存容量是 H100的880倍、單芯片內存帶寬是H100的7000倍、核心數量是H100的52倍，片上互連帶寬速度是H100的3715倍。

另一家是特斯拉。特斯拉的晶圓級芯片被命名為Dojo。這是馬斯克在2021年就開始的嘗試。

特斯拉Dojo的技術路線和Cerebras不一樣。是通過採用Chiplet路線，在晶圓尺寸的基板上集成了 25 顆專有的 D1 芯粒（裸Die）。

D1芯粒在645平方毫米的芯片上放置了500億個晶體管，單個芯粒可以提供362 TFlops BF16/CFP8的計算能力。合起來的單個Dojo擁有9Petaflops的算力，以及每秒36TB的帶寬。

特斯拉的Dojo系統專門針對全自動駕駛(FSD)模型的訓練需求而定製。思路是從25個D1芯粒→1個訓練瓦（Training Tile）→6個訓練瓦組成1個托盤→2個托盤組成1個機櫃→10個機櫃組成1套ExaPOD超算系統，能夠提供1.1EFlops的計算性能。

晶圓級芯片與GPU對比

既然單芯片GPU和晶圓級芯片走出了兩條岔路，在這里我們以Cerebras WSE-3、Dojo 和英偉達 H100為例，對比一下兩種芯片架構對算力極限的不同探索。

一般來説AI 訓練芯片 GPU 硬件的性能通過幾個關鍵指標進行評估：每秒浮點運算次數(FLOPS) ，表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力的強弱。內存帶寬，決定了訪問和處理數據的速度，直接影響訓練效率。延迟和吞吐量，能夠評估GPU處理大數據負載和模型並行性的效率，從而影響實時性能。

算力性能

Cerebras WSE-3 憑藉單片架構，在 AI 模型訓練中展現獨特潛力。

一般來講，每秒浮點運算次數(FLOPS) 能夠表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力。WSE-3 的 FP16 訓練峰值性能達到 125 PFLOPS，支持訓練高達 24 萬億參數的 AI 模型，且無需進行模型分區處理。這個功能就特別適合以精簡高效的方式處理超大模型。

與依賴分層內存架構（可能造成處理瓶頸）的傳統 GPU 不同，WSE 的設計使850 個核心可獨立運行，並直接訪問本地內存，這樣就有效提升了計算吞吐量。

在這方面，英偉達H100採用的是模塊化和分佈式方法。單個 H100 GPU 可為高性能計算提供 60 TFLOPS FP64 計算能力，八個互連的 H100 GPU 組成的系統，可實現超 1 ExaFLOP 的 FP8 AI 性能。

但分佈式架構就存在數據傳輸問題，雖然NVLink 和 HBM3 內存能降低延迟，但在訓練超大型模型時，GPU 間通信仍會影響訓練速度。

在AI訓練的表現中，Cerebras WSE-3會更加擅長處理超大型模型。2048個WSE-3系統組成的集羣，訓練Meta的700億參數Llama 2 LLM僅需1天，相比Meta原有的AI訓練集羣，速度提升達30倍。

延迟與吞吐量

從數據傳輸來看，WSE-3 的單片架構避免了多芯片間的數據傳輸，顯著降低延迟，支持大規模並行計算和核心間低延迟通信。速度快是單片的優勢，與傳統GPU 集羣相比，WSE-3 可將軟件複雜度降低高達 90%，同時將實時 GenAI 推理的延迟降低 10倍以上。

特斯拉Dojo Training Tile屬於晶圓級集成，當然也能夠大幅降低通信開銷。由於是從Die到Die之間傳遞，在跨區塊擴展時仍會產生一定延迟。目前，Dojo 能實現 100 納秒的芯片間延迟，並且針對自動駕駛訓練優化了吞吐量，可同時處理 100 萬個每秒 36 幀的視頻流。

英偉達H100基於 Hopper 架構，是目前最強大的AI訓練GPU之一，配備18,432個CUDA 核心和640個張量核心，並通過NVLink和NVSwitch系統實現GPU間高速通信。高速通信。雖然多 GPU 架構具備良好擴展性，但數據傳輸會帶來延迟問題，即便NVLink 4.0 提供每個GPU 900 GB/s的雙向帶寬，延迟仍高於晶圓級系統。

儘管能夠憑藉着架構特性實現單晶圓工作負載的低延迟和高吞吐量，但晶圓級系統如WSE-3 和 Dojo面臨着可擴展性有限、製造成本高和通用工作負載靈活性不足的問題。

誰更划算？

從硬件購置成本來看，不同芯片的價格因架構和應用場景而異。

據報道，特斯拉單台Tesla Dojo 超級計算機的具體成本估計在3 億至 5 億美元之間。技術路線上，Dojo採用的是成熟晶圓工藝再加上先進封裝（採用了臺積電的Info_SoW技術集成），去實現晶圓級的計算能力，能夠避免挑戰工藝極限。這既能保證較高的良品率，又便於實現系統的規模化生產，芯粒的更新迭代也更為輕松。

Cerebras WSE 系統則因先進的製造工藝與複雜設計，面臨較高的初期研發和生產成本。據報道，Cerebras WSE-2 的每個系統成本在 200 萬至 300 萬美元之間。

相比之下，英偉達單GPU的採購成本比較低。以英偉達A100來説，40GB PCIe型號價格約 8,000 - 10,000美元，80GB SXM型號價格在18,000 - 20,000美元。這使得許多企業在搭建 AI 計算基礎設施初期，更傾向於選擇英偉達GPU。不過，英偉達GPU在長期使用中存在能耗高、多芯片協作性能瓶頸等問題，會導致運營成本不斷增加。

總體來看，雖然WSE-2能為超大規模AI模型提供超高計算密度，但對於需要在大型數據中心和雲服務中部署多GPU可擴展方案的機構，A100的成本優勢更為明顯。

結語

常規形態下，集羣算力節點越多，則集羣規模越大，花費在通信上的開銷就越大，集羣的效率就越低。

這就是為什麼，英偉達NVL72 通過提升集羣內的節點集成密度（即提高算力密度）。在一個機架中集成了遠超常規機架的 GPU 數量，使得集羣的尺寸規模得到控制，效率才能實現進一步提升。

這是英偉達權衡了良率和成本之后給出的解決方案。但是如果英偉達繼續按照這種計算形態走下去，想要進一步提升算力密度，就會走到晶圓級芯片的路上。畢竟，晶圓級芯片的形態是目前為止算力節點集成密度最高的一種形態。

晶圓級芯片，潛力無限。

本文來自微信公眾號「半導體產業縱橫」（ID：ICViews），作者：九林，36氪經授權發佈。

晶圓級芯片，是未來

晶圓級芯片，兩大玩家

晶圓級芯片與GPU對比

算力性能

延迟與吞吐量

誰更划算？

結語

推薦文章

華盛早報 | 史上最大IPO！SpaceX 6月12日上市，估值衝向1.77萬億美元；再次增持！泡泡瑪特「二老闆」段永平持股比例突破6%；中興、騰訊將合作發佈AI雲電腦

時間定了！6月12日SpaceX上市交易，發行價135美元，計劃籌資750億美元成有史以來規模最大的IPO

6月4日外盤頭條：美伊緊張局勢再度加劇 SpaceX目標IPO定價135美元 特朗普政府調整進口銅關税規則

不止邁威爾科技！黃仁勛點名超30只「AI工廠」產業鏈公司，年內最高已搶跑480%漲幅

6月金股一圖睇完 | 騰訊領銜「科網老登」集體反彈？科指月內累漲4%，機構稱AI仍為核心增長引擎！

華盛早報 | 光通信利好連發！國產技術重要突破 + 邁威爾引爆美股+ 英偉達硅光量產；微軟聯手英偉達重新發明電腦；SpaceX擬定價135美元

6月3日外盤頭條：特朗普簽署AI行政令加強政府監管 微軟發佈全新AI模型 SpaceX要求壓低IPO承銷費率

港股盤中持續拉昇！恆指漲超1.4%，科指漲超3.5%；美團績后漲超8%，騰訊漲超7%，比亞迪股份漲逾5%

6月4日外盤頭條：美伊緊張局勢再度加劇 SpaceX目標IPO定價135美元特朗普政府調整進口銅關税規則

6月3日外盤頭條：特朗普簽署AI行政令加強政府監管微軟發佈全新AI模型 SpaceX要求壓低IPO承銷費率