熱門資訊> 正文
2025-08-19 22:49
(來源:老司機駕新車)
1、英偉達液冷技術路線演進
·GB系列芯片液冷方案迭代:英偉達GB系列芯片液冷方案從GB200迭代到GB300。GB200採用單板單向冷板+風冷組合,冷板覆蓋CPU、GPU等高温區,風冷負責電源等低温部件。但GB200量產遇散熱、漏液、高温等問題,解熱困難。GB300改為全冷板液冷,可應對1400瓦散熱需求。后續通過測試,GB300量產問題不大,難點在非GPU和CPU部件定製。英偉達裹挾供應商能力強,推動該方案有先天優勢。
·Rubin芯片液冷技術方向:Rubin芯片單卡TDP超1500瓦,熱流密度超200瓦/平方釐米,將強制採用液冷,或需雙向液冷或靜默式液冷。單櫃功率300-500千瓦,兩相冷板液冷與靜默式液冷耦合方案均可。英偉達2024年年初佈局兩相冷板液冷加浸沒式耦合方案,但未明確后續選用方案。黃仁勛表述曖昧,未來方案不用水基液體。
·靜默式液冷定位與應用:靜默式液冷(浸沒式液冷)需與冷板式液冷結合。國內曙光數創已驗證兩相浸沒式液冷單櫃超0.5兆瓦的應用,有1.5兆瓦集成解決方案(兩櫃子中間加一個CDU),並在城市超算規模化應用。這表明單櫃功率超0.5兆瓦時,浸沒式液冷適配性好,與英偉達共識相符。
2、液冷產業鏈關鍵環節變化
·液冷板材料替代趨勢:液冷板原用銅製材料加工,採用兩相工質后,可用鋁製液冷板完全替代。鋁材料比銅好加工,從精密空調發展看,微通道換熱器基本用全鋁材料,預計兩相冷板液冷技術應用后,液冷系統中銅用量將大幅減少。
·CDU系統設計調整:當前單向冷板液冷的CDU由換熱器、循環泵和水質檢測裝置構成,其中pH、電導等水質檢測傳感器佔成本8%-10%。兩相冷板液冷的CDU無需水質檢測裝置,核心是增加儲液罐和氣液分離器完成冷媒液化,且對冷媒型儲液罐和氣液分離器要求高於液體型。此外,CDU中的泵有差異,當前液體泵主要由格蘭富、威樂等傳統水泵廠商提供,而冷媒泵領域傳統水泵大廠技術積累不足,市場處於同一起跑線,如Vertiv進入中國后其氟利昂泵採用國產品牌,同類型精密空調企業的氟利昂泵也多使用國產化供應商。
·流體連接系統標準:UQD與NVQD均基於結構性聯通器原理,NVQD是統一標準,其市場份額變化與技術進步無關。互聯網大廠因大體量使用需求制定企業級規範和標準,如字節用中航光電的連接器,移動自研通用型流體連接器。NVQD市場份額可能上升,因其對應的解決方案對rack和服務器耦合性更高、可拆解性更差,系統解耦難度增大,同時其他互聯網大廠也可能推出自身基礎方案,本質是商業博弈過程。
3、液冷系統成本結構分析
·冷板硬件成本趨勢:冷板硬件在總成本中佔比約30%-40%。材質切換方面,鋁製冷板因物料成本低於銅製,或降低冷板售價,但兩相冷板流道結構複雜(需汽化結合),加工難度高於單相冷板。單相冷板多采用平行鏟齒加工,兩相冷板需燒結或焊接,增加了勞動和工藝流程成本,前期冷板單價降幅有限;后期隨量產擴大,或因原材料價格低而下降。
·整機櫃成本變化:當前單機櫃成本約10萬美金(合人民幣六七十萬),功率約130千瓦。未來採用兩相冷板或浸沒式液冷,單櫃功率上升,但每千瓦成本會因氟化物工質成本高於水基液體而增加。全冷板液冷方案下,每千瓦成本約為當前的1.5-1.6倍;結合浸沒式液冷,成本漲幅達1.8倍。全冷板液冷成本相對低,但英偉達因有近兩年技術儲備,傾向結合浸沒式液冷。
·成本佔比核心驅動:冷板成本佔比含大量連接器(如冷板上的90度轉接連接器),非僅冷板本身。冷板本身成本低(更多實時紀要加微信:aileesir),不含連接頭一套僅幾百元;加工后,四塊冷板組成的套件(含連接器)約五六千元。整機櫃定價非基於液冷板廠商套件成本,而是多層迭代的定價體系。
4、國內外廠商部署差異與趨勢
·國內存量芯片部署現狀:國內存量A卡、H卡約30萬張(年初數據),當前市場已進入H20芯片庫存消化階段。其中,H卡以液冷方案為主,A卡則以風冷為主,H20芯片當前保有量最大。從大廠部署策略看,其AIDC建設普遍採用風液混布方式,且風冷比例大於液冷。一般一個園區內約25%-30%的機架會按液冷方式規劃設計,但國內目前H20仍以風冷為主,液冷尚未真正放量。
·大廠技術選擇邏輯:不同大廠在液冷部署與數據中心建設策略上存在差異。阿里因自建速度慢、土地電力資源受限,年初轉向租賃賽道,並公佈3年3800億投資計劃;其2025年Q1以超市場平均價獲取500兆瓦資源,后續計劃借鑑字節的交付節奏以提升競爭力。字節憑藉成本控制與交付節奏優勢,年交付量達1.6-2吉瓦,年投資約1600億,已形成規模化部署能力。騰訊堅持自研複雜冷板液冷系統(液冷型tblock),並通過聯合開發、分包建設等流程形成獨特部署體系。百度因算力需求(搜索、智能駕駛業務)遠低於阿里和字節,數據中心部署規模較小。
·未來部署節點判斷:兩相冷板放量節點與芯片迭代密切相關。Rubin芯片發佈前,液冷部署以樣機或實驗測試為主;華為910C芯片雖在開發中測試過兩相冷板及靜默式液冷(千卡模塊級別),但試點部署仍採用單向冷板。對於B系列芯片(如Blackwell200/300),因風冷冷卻問題頻發,未來部署必用冷板液冷。國內BATZ、京東等大廠已儲備兩相冷板技術,后續放量需單櫃功率密度提升(當前單櫃約100千瓦以內),需Rubin級芯片推動。
5、數據中心PUE優化與影響因素
·液冷系統PUE極限:單向冷板液冷PUE在1.15至1.2之間,因需空氣冷卻補償有侷限;全冷板或耦合浸沒式液冷可進一步降低PUE。數據中心PUE要達1.1左右,供配電系統需優化,採用DC800伏供電可縮短鏈路、提效,理論上供配電能效因子可降至0.5;液冷CLF需0.5左右,且為純液冷系統,北方地區液冷全年能效因子約0.5。
·PUE降低驅動因素:PUE被動降低是因功率密度提升,液冷均攤到每千瓦的額外能耗比例變小。如阿里數據中心PUE低是上架率高,非技術優勢;當前液冷方案能效水平無實質差距。
·液冷能耗佔比變化:液冷系統能效提升、能耗降低,其能耗佔比與供配電接近。數據中心PUE核心影響因素從冷卻轉向供配電:傳統模式下,即使液冷不耗電,PUE也難到1.1以內,因供配電能效因子超0.1。
6、液冷介質發展與成本佔比
·不同介質特性與成本:水基介質(水+乙二醇)在單向冷板液冷中建設成本佔比低,約3%-5%,但需添加多種添加劑,且因需持續補液,生命周期內運維成本較高。氟化物介質方面,單向浸沒式液冷中使用氟化液存在揮發性問題,若熱流密度不高時使用油類冷卻液則無此影響;兩相浸沒式液冷中,100千瓦場景下單個機櫃充注量約20-30公斤新型冷卻工質,其成本佔比約10%。硅油介質價格較低,但存在粘度高、介電性能弱的問題,大廠驗證后認為其雖便宜但付出的代價較大,高價值服務器使用存在一定風險。
·介質研發進展與挑戰:氟化物介質研發中,134A作為成熟冷媒,因環保問題(ODP、GWP不達標)僅用於短期測試驗證;沸點約35℃的冷媒(如1233ZD)需通過調和優化熱物性以達到最優狀態。硅油介質雖有改性方案,但介電性能仍弱於氟化液,未大規模商業化,高價值服務器使用存在風險,大廠驗證后傾向選擇氟化液,認為硅油的粘度問題難以解決。
·未來市場規模展望:基於當前AIDC交付比例推導,2028年液冷市場規模預計約500億,氟化物介質需求將隨兩相冷板液冷的推廣而增長。
Q&A
Q:未來rubing架構是否可能強制採用雙向冷板與靜默式耦合?國內第三梯隊供應商中哪些在Demo設計、技術儲備及聯合開發方面具備優勢?雙向冷板與單向冷板在CDU、連接器、軟管、液冷板、冷卻液等設計方案上有哪些調整?
A:雙向冷板液冷的核心在於工制問題,當前工制已迭代兩輪半,主要需解決揮發性、低毒性及成本問題。雙向冷板液冷控制選擇的官方信息與去年一致,NV聯合開發合作伙伴為霍尼韋爾;國內佈局企業包括巨化、東陽光,諾亞未明確公佈開發雙向冷卻液。常用工制並非最終解決方案,需關注其沸點温度區間。
Q:液冷系統中其他設備的情況如何?
A:從冷板液冷角度看,核心受影響設備為液冷板和CDU。其他觸液材料目前以304不鏽鋼為主,未來規模化交付后可能出現降本替代需求,但當前尚未實施。液冷板原採用銅製,採用兩相工質后可替換為鋁製,銅用量將大幅減少。CDU方面,單向液冷CDU由換熱器、循環泵及水質檢測裝置組成;兩相液冷CDU將取消水質檢測裝置,需新增儲液罐、氣液分離器,且泵類型從格蘭富、威樂等傳統水泵轉向冷媒泵。冷媒泵領域傳統循環泵大廠技術積累有限,產業格局變化,國產化趨勢明顯。
Q:GB300后流體連接系統中快接頭是否可能從UQD轉向NVQD,分水器是否有變化,以及一次側冷源設備是否存在升級改造的可能性?
A:UQD與MVQD的產業形態不會因技術進步發生顯著變化,因其本質是結構性聯通器原理,MVQD僅為統一標準,國內如字節、移動等大體量使用企業會制定自有企業級流體連接器規範。NVQD市場份額增長主要因未來Rubin方案對rack與服務器的耦合性更高、可拆解性更差,導致整體解決方案解耦難度增大,但互聯網大廠也會推出自有基礎方案,本質是商業博弈過程;ASIC方案是否採用NVQD連接器取決於系統架構調整或器件替代。分水器無明確變化描述。一次側冷源變化最小,其原理為HVC冷卻系統,僅需通過水系統冷卻二次側循環工質,需求未進一步變化,冷卻水系統迭代空間有限;當前方案複雜因(更多實時紀要加微信:aileesir)處於Blackwell單向冷板液冷與Rubin的迭代節點,單向冷板液冷解熱能力已接近上限,需通過降低二次側工質温度提升系統穩定性,因此需特殊降温方案;而兩相冷板液冷無需複雜一次冷源。
Q:當前單向冷板機櫃總成本約為10萬美元,若后續冷板採用鋁材質,與銅材質相比綜合成本趨勢如何?此外,兩相冷板涉及液冷板、泵、CDU、除液器、氣液分離器等調整后,整體總成本預計如何?
A:銅鋁材質切換對機櫃整體總成本影響較小,因機櫃定價不直接基於物料成本,而是經過多層體系迭代。冷板加工企業因鋁價更低可能調整售價,但兩相冷板加工難度高於單相冷板,前期單價降幅有限,后期隨量產或因原材料成本下降逐步降低。當前冷板硬件成本佔比包含服務器內連接器,冷板本身成本僅數百元,加工后套件約五六千元。對於兩相冷板整機櫃,需按平均每千瓦成本計算。未來單機櫃功率上升,但因氟化物工質成本高於水基液體,每千瓦平均成本將高於當前水平。若採用全冷板液冷方案,整櫃成本漲幅約1.5-1.6倍;結合浸沒式液冷則達1.8倍。NV基於兩年技術儲備及嚴格測試,可能延續結合浸沒式的方案,后續或推全冷板液冷版本,或由其他廠商通過ETIC方案實現。
Q:GB300冷板式液冷架構對比GB200為小幅升級,設計特點及實際提升效果有限,未來Rubin及RubinUltra迭代的突出亮點有哪些需要補充?
A:未來Rubin及RubinUltra迭代的核心難點在於與浸沒式液冷的耦合。若延續全冷板液冷系統,其核心價值集中在ODM廠商,英偉達主導整體設計並佔據主要價值;若結合浸沒式液冷,技術難度大、技術含量高且不易解耦,產業生態更健康,未來全冷板可能由其他廠商提供冷卻方案,話語權分散,英偉達對解決方案有一定把控但各環節依賴其名單。若不走此技術路線,每代技術方案將經歷發佈、研究、解構及替代的過程。
Q:國內廠商對液冷技術未來趨勢的判斷、考量及雙向冷板放量節點是什麼?
A:雙向冷板放量節點與Rubin發佈密切相關,發佈前市場以樣機及測試性質項目為主。國內升騰910C雖開展雙向冷板液冷研究,但規模化交付大概率不採用該方案,試點場景仍以單向液冷為主。當前國內液冷市場未真正放量,H20保有量最大且以風冷為主,市場處於消化H20庫存階段;字節、阿里等大廠AIDC建設採用風液混布模式,風冷比例高於液冷,園區內約25%-30%機架規劃液冷。國內液冷市場規模2023-2024年約十幾億,2024年預計約30億,遠低於海外2025年200-300億的市場規模,主要受限於卡類型及大廠對H20風冷/液冷選擇的模糊態度;大廠更注重部署速度,傾向採用更高效的風冷方案或轉向租賃。
Q:除部署速度外,國內外廠商選擇單向與雙向冷板方案的差異及原因還有哪些關鍵節點?國內大廠當前選擇的部署方案情況如何?
A:國內當前因主要使用H20芯片且B20尚未供貨,導致單向與雙向冷板方案選擇存在不確定性。若獲得B系列芯片,將因風冷方案在Blackwell200上驗證問題頻發而果斷採用液冷;目前小規模獲取Blackwell資源的項目均採用單向冷板液冷。雙向冷板液冷的推廣需等待Rubin發佈推動,國內BATZ、京東等大廠已開展雙向冷板液冷技術儲備,后續應用可行性較高。
Q:字節、騰訊、阿里等大廠當前在AIDC建設中的部署趨勢是什麼?
A:字節、阿里等大廠AIDC建設採用風液混布方式,且風冷比例大於液冷,通常一個園區內約25%-30%的機架按液冷方式規劃設計。
Q:阿里採用租賃數據中心的趨勢是否為行業普遍現象?百度、京東、騰訊仍以自建為主,是否因阿里市場份額高、體量大而採取租賃方式?租賃數據中心過程中部署液冷系統是否存在成本或投入問題?
A:當前互聯網行業數據中心建設模式存在差異,並非普遍採用租賃模式。百度因業務以搜索、智能駕駛為主,算力需求遠低於阿里、字節,數據中心部署規模及交付量較小;騰訊憑藉自研複雜冷板液冷系統形成特殊建設流程,通過聯合開發廠商、分包單位等完成部署,其雲服務以高端客户為主,市場份額約10%,與阿里的業務定位不同。阿里選擇租賃模式主要因早期全面轉自建后建設速度滯后於需求,且優質土地、電力資源已被字節搶佔,導致決策流程長、部署慢的惡性循環。目前阿里正通過與colocation廠商合作獲取資源,2024年Q1以超市場均價獲得500兆瓦資源。字節憑藉高效的成本控制與交付節奏已形成滾動開發模式,阿里計劃借鑑其拿地、建設、交付節奏以保持業務競爭力。關於租賃中部署液冷系統的成本問題,會議未提及具體障礙。
Q:阿里張北數據中心採用英維克浸沒式液冷系統實現PUE1.08的數據是否存在問題?當前單向冷板與雙向冷板液冷技術的POE極限值是多少?最新的服務器工作温度一般能達到多少?
A:單向冷板液冷技術當前POE極限值在1.15-1.2之間,因需空氣冷卻補償,存在技術硬傷;全冷板液冷或耦合液冷技術可進一步降低POE。當前數據中心綜合PUE已不僅取決於液冷系統,供配電系統影響顯著:傳統供配電模式下,即使液冷系統不耗電,PUE也難以達到1.1以內;採用DC800伏供電等優化技術,供配電能效因子可降至0.5左右,此時若液冷CLF達0.5,PUE可接近1.1。PUE進一步降低主要因功率密度提升,均攤額外能耗比例降低,屬被動式降低。阿里張北數據中心PUE低主因是上架率高,而非技術優勢,當前液冷方案能效水平無實質差異。關於最新服務器工作温度,原文未提及具體數據。
Q:單向浸沒液冷除介質價格貴外,是否存在自然對流或泵驅動循環的技術壁壘?介質是否因不夠完美導致運行不穩定?雙向浸沒液冷的可能部署節點及與單向浸沒液冷的原理差異是什麼?
A:單向浸沒液冷技術相對成熟,核心問題在於介質的毒性與揮發性。開式維護場景下,若介質揮發性強會引發系列問題。雙向浸沒液冷基於介質相變汽化原理,其汽化過程類似水蒸發,無需考慮氣液分離和兩相態問題,比兩相冷板液冷更簡單,難點在於維護。部署節點方面,通算場景因服務器頻繁上下架難以適用;智算場景允許算力節點或整機櫃退出,需配套簡化的現場維護流程或產品化方案。
Q:鋁的抗腐蝕性較差,為何認為液冷板中鋁可以替代銅?Rubin是否計劃於明年發佈?其全能版液冷方案是否確定?
A:關於鋁替代銅的可行性,當前討論聚焦於兩相液冷場景:鋁與主流氟利昂、1233ZD等介質的兼容性已通過測試,腐蝕程度在產品設計生命周期可接受範圍內;而銅目前多用於水基液體場景。未來若採用鹵代烴,其與鋁的接觸兼容性已驗證,問題不大。關於Rubin發佈及全能版方案,目前未明確其明年發佈時是否採用全能版液冷。全能版液冷與英偉達初始的耦合靜默式液冷方案並行推進,未確定最終選擇方向。耦合靜默式為初始方案,全能版是200-300迭代中為解決問題提出的,其成本上升比例較小可能影響決策,但耦合靜默式方案的沉沒成本已較高,預計靜默式方案採用可能性約60%,全能版約40%。
Q:若13C不符合雙向冷板30-40度沸點要求,是否有其他可用製冷劑?若英偉達與霍尼韋爾開發的非國內傳統方案採用其他物質,可能涉及哪些製冷劑?天虹134A的最新驗證進展如何?
A:134A是成熟冷媒,但按歐盟標準134A與410A將被淘汰,目前僅用於短期測試驗證。替代製冷劑需滿足沸點約35度的要求,現有此類冷媒但熱物性參數尚未調至最優狀態,基礎物質為1233ZD,需通過調和優化性能,主體物質為1233BD,可能存在1366等新命名。若13C未重新調和或調整比例,仍沿用原配方則不符合要求。
Q:13C作為冷媒的優勢與問題是什麼?
A:13C的優勢在於其為中低壓冷媒,相比高壓冷媒可降低系統設計成本;主要問題包括ODP與GWP不符合環保標準,且在冷板內無法充分氣化,氣液分離難度較大。
Q:硅油對於GB300的熱流密度及單機櫃功率是否有適用性?其主要缺點是什麼?
A:硅油的優勢在於成(更多實時紀要加微信:aileesir)本較低,但存在粘度問題,導致其在規模化交付中受限。字節等企業基於實踐經驗認為,儘管硅油成本低,但其粘度問題帶來的代價較大,因此傾向於使用氟化液。此外,高價值服務器使用油類存在一定風險。