熱門資訊> 正文
2025-08-07 21:30
(來源:老司機駕新車)
AI機櫃功率提升,液冷成長几何
1、AI場景下液冷兩條技術路線及應用現狀
·英偉達與ASIC卡技術路線:AI場景下液冷技術有兩條核心路線:英偉達技術路線與ASIC卡技術路線。英偉達技術路線上,其產品規劃和液冷方案隨迭代演變。現有產品NVL的GD200或GD300,配套算力卡B200、B300(B300比B200單卡功率提升200瓦),整櫃功率126千瓦(電源模塊峰值功率132千瓦),液冷用常規單向冷板液冷方案。按規劃,2026年下半年量產Rubin 288產品,單卡功率1.2-1.4千瓦,整櫃功率趨近500千瓦,常規冷板液冷無法滿足散熱,需新方案(如單櫃600千瓦需求的三種模式或靜默式方案)。2026年GTC大會(每年3-4月召開)預計展出過渡產品Ruby 144,單櫃容量超200千瓦,其製冷方案或代表Rubin 288的技術方向。
ASIC卡技術路線中,Meta推進較快,功率與架構變化顯著。第一代ASIC卡單卡功率約150瓦,第二代提至350瓦。原64張卡構成整機櫃,單櫃功率約25-30千瓦(技術上無需液冷),但國內供應商在A7卡方案用了液冷。近期架構變為128張卡,單櫃功率提至60千瓦,仍用常規單向冷板液冷方案。2025-2026年,上述技術路線的液冷應用大致如此。
2、NV液冷方案供應商迭代邏輯
·NV供應商篩選機制:NV液冷技術升級推動供應商篩選機制變化。從需求端看,液冷需求功率從126千瓦提升至400-500千瓦,技術應用從單向冷板液冷向浸沒式(包括純浸沒、浸沒加冷板等方案)轉變,與B200、B300單向冷板方案形成差異。從產品代際看,英偉達針對不同代際產品(B200→B300→Ruby)會重新送樣、測試及分配份額。Ruby(144/288方案)會重新篩選供應商,且100%引入新供應商。成熟產品B200已標準化,后期極少引入新供應商,其供應商格局固定,僅在一供、二供出現重大故障時才調整。
3、B200與B300液冷方案對比分析
·冷板結構與數量變化:B200採用大冷板方案,每塊大冷板覆蓋1塊CPU加2塊GPU,服務器托盤包含36塊此類冷板,交換機托盤包含9塊冷板(覆蓋兩張ASIC卡),總計45塊冷板。單塊大冷板(GPU+CPU)價值量約650美元,主要供應商為AVC(主供60%)、雙宏及Kura master。B300因GPU功率提升至1.4千瓦(較B200高200瓦),原大(更多實時紀要加微信:aileesir)冷板非接觸式換熱方式無法滿足需求,改為每芯片獨立冷板方案。服務器托盤包含36塊CPU冷板和72塊GPU冷板,交換機托盤沿用9塊冷板(覆蓋兩張ASIC卡),總計117塊冷板。單塊獨立冷板體積較小,價值量約240美元。供應商格局變化顯著,主供轉為Kura master(佔比60%),雙宏份額降至不足5%,寶德新加入供應鏈。
·管路與快插變化:B200的computer tree包含126對快插,switch tree包含18對快插,總計144對,採用UQD04規格,單價約45美元/對。B300因液冷板數量增加,computer tree快插數量翻倍至252對,switch tree仍為18對,總計270對,升級為NVUQD03規格(體積為原2/3),單價提升至55美元/對。軟管方面,B200每櫃軟管價值量約1200美元,B300提升至1800-2000美元。快插供應商格局變化:B200由CPC、史陶比爾、Parker等歐美企業主供;B300主要供應商轉為酷冷大師、AVC、力敏達及富士達。
·櫃外CDU供應商變化:B200僅認證Vertiv為CDU合作伙伴,其提供的CDU為唯一匹配方案。B300取消認證模式,改為以參考設計形式推薦供應商,涵蓋Vertiv、施耐德(收購Moty Air)、臺達、nvent、寶德、酷冷大師等5-6家企業。
4、Rubin液冷方案技術變化解析
·冷板加浸沒式方案特點:Rubin液冷方案採用冷板加浸沒式設計,其核心結構為豎放的45優或47優機櫃(高度2.2米或2.5米),內部以托盤形式分佈switch tree與computer tree,所有托盤被設計為密閉殼體(類似魚缸)。該密閉殼體內部需充滿氟化液,GPU表面仍貼有液冷板用於散熱,液冷板通過內部微通道構成一進一回的散熱迴路。冷卻系統包含雙迴路:液冷板內部微通道迴路採用丙二醇作為介質,負責GPU散熱;密閉殼體迴路則以電子氟化液為介質,可吸收液冷板及外殼的熱量,形成第二散熱迴路。此方案對液冷系統的影響主要體現在兩方面:一是氟化液用量大幅提升,單機櫃氟化液用量達上千升;二是快插數量減少,因CPU散熱直接依賴氟化液浸沒,不再需要液冷板,但144張或288張GPU仍需液冷板,液冷板數量因GPU需求增加而提升。
5、液冷技術未來演進方向探討
·兩種液冷方案選擇考量:NV在選擇冷板加浸沒與純浸沒兩種液冷方案時,會從成本、性能提升、價值量等維度綜合考量后做決策。當前,冷板加浸沒方案優勢更明顯。
·冷板加浸沒方案特點:冷板加浸沒方案對機房佈局影響小。從技術成本看,該方案需兩組CDU分別驅動不同介質:冷板內走乙二醇或丙二醇,封閉殼體內走電子氟化液,且流速不同,set car維度成本有所提升,目的是不破壞既有機房佈局。
·純浸沒式方案優劣勢:純浸沒式方案換熱效果好,可支持700-800千瓦的高功率密度,且僅需一套CDU實現tank內換熱,整體功率小。但該方案對機房舉架高度要求僅3米,而標準機房樓舉架高度通常為4.5-5.5米,會造成較大空間浪費,大規模應用場景的CSP難以接受。
·技術迭代趨勢:未來若單櫃功率密度超600千瓦,可能轉向純浸沒式方案。且從前期投資看,純浸沒式方案投資比例低於冷板加浸沒方案,未來或向純浸沒式產品迭代。
6、ASIC卡與NV卡液冷規劃差異
·Meta的液冷技術路線:Meta同時佈局自研ASIC卡與英偉達卡,會同時考量兩者技術維度,不會很快完全替代英偉達卡,如26年規劃的普羅米修斯仍會大量應用英偉達卡。在液冷方案選擇上,64張卡場景(單櫃功率25-30千瓦)可能迴歸風冷;128張卡場景採用冷板液冷;迭代至120千瓦,仍堅持採用冷板液冷。未來,Meta的ASIC卡與英偉達卡應用比例或從當前遠低於9:1逐步變化,預計27年可能達到1:1。針對液冷方案,一半場景將堅持用冷板液冷,另一半可能採用浸沒式液冷,因其更經濟。
·谷歌的液冷方案評估:谷歌未公開完整架構,正觀察Meta A7卡液冷應用狀態。對於A7卡的液冷方案,谷歌未明確選擇冷板或風冷,仍在進行技術判斷,未急切推進。
·相變冷板應用現狀:相變冷板適用範圍為120-200千瓦,當前處於技術尷尬區間。英偉達的B200、B300未採用相變冷板,Rubin方案直接跨過該區間(如144方案功率超200千瓦),因此英偉達不考慮相變冷板。北美四家CSP因定製化服務器需求,可能在120-200千瓦區間考慮相變冷板,但目前滲透率很低,僅可能用於自研服務器的CSP過渡場景。
7、液冷工藝格局變化與廠商機會
·新供應商導入機會:在Rubin方案(冷板+浸沒式)下,液冷工藝格局將出現新的獨立組裝環節——密閉殼體封裝。該環節對密封性要求極高,若漏液,風險與常規快接頭漏液不同(整體充滿電子冷卻液)。這一環節價值量將從原PCB方案轉移至液冷設備供應商。潛在供應商方面,Vertiv、臺達等可能承接密閉殼體供應;Coolermaster提供液冷板模組,廣達紅海負責服務器托盤的PCB組裝。流程為:Coolermaster給廣達紅海提供液冷板模組,廣達紅海完成服務器托盤PCB組裝后,將集成液冷板的PCB交付液冷廠家;液冷廠家製作密閉殼體並完成PCB內部封裝,最終將產品回給廣達,插入Rubin框架。這表明液冷設備供應商將新增關鍵獨立組裝環節,會有新供應商參與。
Q&A
Q: 在液冷技術發展背景下,英偉達與ODM是否會引入新的供應商?
A: 英偉達Ruby系列因製冷需求從當前126千瓦提升至400-500千瓦,技術方案需從單向冷板液冷向浸沒式轉變,與現有B200/B300的單向冷板方案形成顯著差異。基於英偉達產品迭代(更多實時紀要加微信:aileesir)規律,其不同代產品均會重新進行供應商篩選,部分供應商可能延續但整體需重新選擇。因此,Ruby系列同樣會重新篩選供應商,確定會引入新供應商。對於已定型的成熟產品,后期很少引入新供應商,除非現有一供、二供出現重大故障問題,否則供應商格局保持穩定。
Q: B200產品的液冷板結構及數量如何?
A: B200服務器托盤採用大冷板結構,單塊大冷板覆蓋1塊CPU與2塊GPU,18個服務器托盤共包含36塊大冷板;9塊switch托盤採用另一種大冷板結構,每塊大冷板覆蓋2張ASIC卡,共包含9塊大冷板。B200整體液冷板數量為36+9=45塊。
Q: B200產品液冷板的單體價值量及主要供應商情況如何?
A: B200中GPU加CPU的大冷板單體價值量約為650美元。大冷板主要供應商包括AVC、雙宏及Kura master,其中AVC為主供應商,供應量佔比超60%;雙宏與Kura master合計佔比約30-40%,剩余約10%由其他小份額供應商提供。
Q: B300產品的液冷板結構及數量有何變化?
A: B300的GPU單張發熱量較B200增加200瓦至1.4千瓦,原非接觸式液冷板無法滿足散熱需求,因此B300服務器托盤中每塊芯片配備獨立液冷板。其中computer tree部分液冷板數量為36張CPU冷板加72張GPU冷板,共108張;switch tree部分仍為兩張ASIC卡共用一張液冷板,整體液冷板數量為108+9=117張。
Q: B300產品液冷板的單體價值量及供應商格局如何?
A: B300液冷板單體價值量因體積減小有所下降,為240美元/張。供應商格局顯著變化,主要供應商變更為酷冷大師;雙宏供應量降至不足5%,基本退出供應體系,寶德加入供應商行列。酷冷大師需承擔小集成任務,並引入英維克、穿環等國產液冷板及軟管、快插產品。
Q: B200與B300產品快速插頭在方案規格、價值量、數量及供應商方面有何差異?
A: B200快速插頭採用UQD04方案,單體價值量45美元/對,總數量為144對,主要由CPC、史陶比爾、Parker等歐美企業供應;B300快速插頭升級為NVU QD03規格,體積縮減至原體積的2/3,單體價值量提升至55美元/對,總數量增加至270對,供應商為酷冷大師帶入的英維克及自產。
Q: B200與B300產品軟管的價值量變化情況如何?
A: B200中每個櫃的軟管價值量約為1,200美元,B300中提升至1,800-2,000美元。
Q: B200和B300產品液冷板數量變化對管路及快速插頭數量有何影響?
A: B200的computer tree包含126對接頭,B300的computer tree快速接頭數量翻倍至252對,加上switch tree的18對,B300共配置270對快速插頭。液冷板數量增加直接導致管路數量與快速插頭數量大幅增長。
Q: 液冷相關廠商的導入時間周期大概需要多久?若計劃明年下半年上量,需提前多久進行測試?
A: 當前各廠商已配合開展測試,過程中仍有新玩家持續送樣,預計導入截止時間為2026年4月GTC大會前。
Q: NV液冷相關組件及集成業務的毛利率情況如何?
A: NV液冷整體業務毛利率約40%,其中櫃外CDU在B200和B300方案中毛利率可達50%-55%,是主要利潤來源;冷板、快插、manyfold等組件因屬於精加工金屬結構件,毛利率較低,約30%-35%。
Q: 液冷方案后續是否有升級可能性?若採用純浸沒式與冷板加氟化液兩種方案,製冷效果提升情況如何?
A: 英偉達在基礎設施領域不專業但想法多,通過合作伙伴實現方案並自行決策。當前主流方案為浸墨加冷板,優勢是不改變既有機房佈局;純浸沒式採用大tank結構,對機房佈局造成空間浪費,大規模應用場景下不可接受。但單櫃功率密度超500千瓦后,純浸沒式換熱效果更優,可支持700-800千瓦功率密度,且僅需一套CPU實現換熱,成本低於冷板加氟化液方案。未來若功率超600千瓦,可能轉向純浸沒式,且其前期投資低於冷板加氟化液方案,技術迭代方向為純浸沒式。
Q: 純浸沒式方案中電子氟化液作為消耗品,其后續使用成本如何,儘管前期投資比例較低?
A: 國內已有廠家生產電子氟化液。乙二醇、丙二醇等溶劑每升價格約100-200元,電子氟化液每升價格約400-450元。純浸沒式方案需持續補液,后期氟化液採購成本佔CAPEX至少一半。
Q: 谷歌與Meta在ASIC卡功率相對較低的背景下,對冷板液冷及浸沒式液冷的規劃是怎樣的?
A: 谷歌與Meta同步推進採購英偉達高性能算力卡與自研ASIC卡,短期內不會快速完全替代英偉達卡。在ASIC卡應用場景中,低功率場景可能採用風冷;架構複用場景將堅持採用冷板液冷。針對英偉達卡路線,因功率迭代需配合其技術建議,可能採用冷板加浸沒或純浸沒方案。預計到2027年,ASIC卡與英偉達卡應用比例將從當前的顯著傾斜逐步變為各佔一半,對應液冷方案中一半將堅持冷板液冷,另一半可能直接採用浸沒式。
Q: 單雙向冷板技術的滲透率及當前應用現狀如何?
A: 相變冷板當前應用場景有限,處於尷尬區間。單向冷板技術上限約為120千瓦,120-200千瓦區間理論上可採用相變冷板,但英偉達因144方案功率超過200千瓦,其B200、B300等產品未採用相變冷板;Rubin方案則直接跨越該區間,導致相變冷板缺乏應用空(更多實時紀要加微信:aileesir)間。北美四家CSP因採購算力卡自研服務器,其堆疊功率可能落在120-200千瓦區間,存在部分採用相變冷板的可能性,但當前滲透率極低,不足10%。