热门资讯> 正文
2025-08-19 22:49
(来源:老司机驾新车)
1、英伟达液冷技术路线演进
·GB系列芯片液冷方案迭代:英伟达GB系列芯片液冷方案从GB200迭代到GB300。GB200采用单板单向冷板+风冷组合,冷板覆盖CPU、GPU等高温区,风冷负责电源等低温部件。但GB200量产遇散热、漏液、高温等问题,解热困难。GB300改为全冷板液冷,可应对1400瓦散热需求。后续通过测试,GB300量产问题不大,难点在非GPU和CPU部件定制。英伟达裹挟供应商能力强,推动该方案有先天优势。
·Rubin芯片液冷技术方向:Rubin芯片单卡TDP超1500瓦,热流密度超200瓦/平方厘米,将强制采用液冷,或需双向液冷或静默式液冷。单柜功率300-500千瓦,两相冷板液冷与静默式液冷耦合方案均可。英伟达2024年年初布局两相冷板液冷加浸没式耦合方案,但未明确后续选用方案。黄仁勋表述暧昧,未来方案不用水基液体。
·静默式液冷定位与应用:静默式液冷(浸没式液冷)需与冷板式液冷结合。国内曙光数创已验证两相浸没式液冷单柜超0.5兆瓦的应用,有1.5兆瓦集成解决方案(两柜子中间加一个CDU),并在城市超算规模化应用。这表明单柜功率超0.5兆瓦时,浸没式液冷适配性好,与英伟达共识相符。
2、液冷产业链关键环节变化
·液冷板材料替代趋势:液冷板原用铜制材料加工,采用两相工质后,可用铝制液冷板完全替代。铝材料比铜好加工,从精密空调发展看,微通道换热器基本用全铝材料,预计两相冷板液冷技术应用后,液冷系统中铜用量将大幅减少。
·CDU系统设计调整:当前单向冷板液冷的CDU由换热器、循环泵和水质检测装置构成,其中pH、电导等水质检测传感器占成本8%-10%。两相冷板液冷的CDU无需水质检测装置,核心是增加储液罐和气液分离器完成冷媒液化,且对冷媒型储液罐和气液分离器要求高于液体型。此外,CDU中的泵有差异,当前液体泵主要由格兰富、威乐等传统水泵厂商提供,而冷媒泵领域传统水泵大厂技术积累不足,市场处于同一起跑线,如Vertiv进入中国后其氟利昂泵采用国产品牌,同类型精密空调企业的氟利昂泵也多使用国产化供应商。
·流体连接系统标准:UQD与NVQD均基于结构性联通器原理,NVQD是统一标准,其市场份额变化与技术进步无关。互联网大厂因大体量使用需求制定企业级规范和标准,如字节用中航光电的连接器,移动自研通用型流体连接器。NVQD市场份额可能上升,因其对应的解决方案对rack和服务器耦合性更高、可拆解性更差,系统解耦难度增大,同时其他互联网大厂也可能推出自身基础方案,本质是商业博弈过程。
3、液冷系统成本结构分析
·冷板硬件成本趋势:冷板硬件在总成本中占比约30%-40%。材质切换方面,铝制冷板因物料成本低于铜制,或降低冷板售价,但两相冷板流道结构复杂(需汽化结合),加工难度高于单相冷板。单相冷板多采用平行铲齿加工,两相冷板需烧结或焊接,增加了劳动和工艺流程成本,前期冷板单价降幅有限;后期随量产扩大,或因原材料价格低而下降。
·整机柜成本变化:当前单机柜成本约10万美金(合人民币六七十万),功率约130千瓦。未来采用两相冷板或浸没式液冷,单柜功率上升,但每千瓦成本会因氟化物工质成本高于水基液体而增加。全冷板液冷方案下,每千瓦成本约为当前的1.5-1.6倍;结合浸没式液冷,成本涨幅达1.8倍。全冷板液冷成本相对低,但英伟达因有近两年技术储备,倾向结合浸没式液冷。
·成本占比核心驱动:冷板成本占比含大量连接器(如冷板上的90度转接连接器),非仅冷板本身。冷板本身成本低(更多实时纪要加微信:aileesir),不含连接头一套仅几百元;加工后,四块冷板组成的套件(含连接器)约五六千元。整机柜定价非基于液冷板厂商套件成本,而是多层迭代的定价体系。
4、国内外厂商部署差异与趋势
·国内存量芯片部署现状:国内存量A卡、H卡约30万张(年初数据),当前市场已进入H20芯片库存消化阶段。其中,H卡以液冷方案为主,A卡则以风冷为主,H20芯片当前保有量最大。从大厂部署策略看,其AIDC建设普遍采用风液混布方式,且风冷比例大于液冷。一般一个园区内约25%-30%的机架会按液冷方式规划设计,但国内目前H20仍以风冷为主,液冷尚未真正放量。
·大厂技术选择逻辑:不同大厂在液冷部署与数据中心建设策略上存在差异。阿里因自建速度慢、土地电力资源受限,年初转向租赁赛道,并公布3年3800亿投资计划;其2025年Q1以超市场平均价获取500兆瓦资源,后续计划借鉴字节的交付节奏以提升竞争力。字节凭借成本控制与交付节奏优势,年交付量达1.6-2吉瓦,年投资约1600亿,已形成规模化部署能力。腾讯坚持自研复杂冷板液冷系统(液冷型tblock),并通过联合开发、分包建设等流程形成独特部署体系。百度因算力需求(搜索、智能驾驶业务)远低于阿里和字节,数据中心部署规模较小。
·未来部署节点判断:两相冷板放量节点与芯片迭代密切相关。Rubin芯片发布前,液冷部署以样机或实验测试为主;华为910C芯片虽在开发中测试过两相冷板及静默式液冷(千卡模块级别),但试点部署仍采用单向冷板。对于B系列芯片(如Blackwell200/300),因风冷冷却问题频发,未来部署必用冷板液冷。国内BATZ、京东等大厂已储备两相冷板技术,后续放量需单柜功率密度提升(当前单柜约100千瓦以内),需Rubin级芯片推动。
5、数据中心PUE优化与影响因素
·液冷系统PUE极限:单向冷板液冷PUE在1.15至1.2之间,因需空气冷却补偿有局限;全冷板或耦合浸没式液冷可进一步降低PUE。数据中心PUE要达1.1左右,供配电系统需优化,采用DC800伏供电可缩短链路、提效,理论上供配电能效因子可降至0.5;液冷CLF需0.5左右,且为纯液冷系统,北方地区液冷全年能效因子约0.5。
·PUE降低驱动因素:PUE被动降低是因功率密度提升,液冷均摊到每千瓦的额外能耗比例变小。如阿里数据中心PUE低是上架率高,非技术优势;当前液冷方案能效水平无实质差距。
·液冷能耗占比变化:液冷系统能效提升、能耗降低,其能耗占比与供配电接近。数据中心PUE核心影响因素从冷却转向供配电:传统模式下,即使液冷不耗电,PUE也难到1.1以内,因供配电能效因子超0.1。
6、液冷介质发展与成本占比
·不同介质特性与成本:水基介质(水+乙二醇)在单向冷板液冷中建设成本占比低,约3%-5%,但需添加多种添加剂,且因需持续补液,生命周期内运维成本较高。氟化物介质方面,单向浸没式液冷中使用氟化液存在挥发性问题,若热流密度不高时使用油类冷却液则无此影响;两相浸没式液冷中,100千瓦场景下单个机柜充注量约20-30公斤新型冷却工质,其成本占比约10%。硅油介质价格较低,但存在粘度高、介电性能弱的问题,大厂验证后认为其虽便宜但付出的代价较大,高价值服务器使用存在一定风险。
·介质研发进展与挑战:氟化物介质研发中,134A作为成熟冷媒,因环保问题(ODP、GWP不达标)仅用于短期测试验证;沸点约35℃的冷媒(如1233ZD)需通过调和优化热物性以达到最优状态。硅油介质虽有改性方案,但介电性能仍弱于氟化液,未大规模商业化,高价值服务器使用存在风险,大厂验证后倾向选择氟化液,认为硅油的粘度问题难以解决。
·未来市场规模展望:基于当前AIDC交付比例推导,2028年液冷市场规模预计约500亿,氟化物介质需求将随两相冷板液冷的推广而增长。
Q&A
Q:未来rubing架构是否可能强制采用双向冷板与静默式耦合?国内第三梯队供应商中哪些在Demo设计、技术储备及联合开发方面具备优势?双向冷板与单向冷板在CDU、连接器、软管、液冷板、冷却液等设计方案上有哪些调整?
A:双向冷板液冷的核心在于工制问题,当前工制已迭代两轮半,主要需解决挥发性、低毒性及成本问题。双向冷板液冷控制选择的官方信息与去年一致,NV联合开发合作伙伴为霍尼韦尔;国内布局企业包括巨化、东阳光,诺亚未明确公布开发双向冷却液。常用工制并非最终解决方案,需关注其沸点温度区间。
Q:液冷系统中其他设备的情况如何?
A:从冷板液冷角度看,核心受影响设备为液冷板和CDU。其他触液材料目前以304不锈钢为主,未来规模化交付后可能出现降本替代需求,但当前尚未实施。液冷板原采用铜制,采用两相工质后可替换为铝制,铜用量将大幅减少。CDU方面,单向液冷CDU由换热器、循环泵及水质检测装置组成;两相液冷CDU将取消水质检测装置,需新增储液罐、气液分离器,且泵类型从格兰富、威乐等传统水泵转向冷媒泵。冷媒泵领域传统循环泵大厂技术积累有限,产业格局变化,国产化趋势明显。
Q:GB300后流体连接系统中快接头是否可能从UQD转向NVQD,分水器是否有变化,以及一次侧冷源设备是否存在升级改造的可能性?
A:UQD与MVQD的产业形态不会因技术进步发生显著变化,因其本质是结构性联通器原理,MVQD仅为统一标准,国内如字节、移动等大体量使用企业会制定自有企业级流体连接器规范。NVQD市场份额增长主要因未来Rubin方案对rack与服务器的耦合性更高、可拆解性更差,导致整体解决方案解耦难度增大,但互联网大厂也会推出自有基础方案,本质是商业博弈过程;ASIC方案是否采用NVQD连接器取决于系统架构调整或器件替代。分水器无明确变化描述。一次侧冷源变化最小,其原理为HVC冷却系统,仅需通过水系统冷却二次侧循环工质,需求未进一步变化,冷却水系统迭代空间有限;当前方案复杂因(更多实时纪要加微信:aileesir)处于Blackwell单向冷板液冷与Rubin的迭代节点,单向冷板液冷解热能力已接近上限,需通过降低二次侧工质温度提升系统稳定性,因此需特殊降温方案;而两相冷板液冷无需复杂一次冷源。
Q:当前单向冷板机柜总成本约为10万美元,若后续冷板采用铝材质,与铜材质相比综合成本趋势如何?此外,两相冷板涉及液冷板、泵、CDU、除液器、气液分离器等调整后,整体总成本预计如何?
A:铜铝材质切换对机柜整体总成本影响较小,因机柜定价不直接基于物料成本,而是经过多层体系迭代。冷板加工企业因铝价更低可能调整售价,但两相冷板加工难度高于单相冷板,前期单价降幅有限,后期随量产或因原材料成本下降逐步降低。当前冷板硬件成本占比包含服务器内连接器,冷板本身成本仅数百元,加工后套件约五六千元。对于两相冷板整机柜,需按平均每千瓦成本计算。未来单机柜功率上升,但因氟化物工质成本高于水基液体,每千瓦平均成本将高于当前水平。若采用全冷板液冷方案,整柜成本涨幅约1.5-1.6倍;结合浸没式液冷则达1.8倍。NV基于两年技术储备及严格测试,可能延续结合浸没式的方案,后续或推全冷板液冷版本,或由其他厂商通过ETIC方案实现。
Q:GB300冷板式液冷架构对比GB200为小幅升级,设计特点及实际提升效果有限,未来Rubin及RubinUltra迭代的突出亮点有哪些需要补充?
A:未来Rubin及RubinUltra迭代的核心难点在于与浸没式液冷的耦合。若延续全冷板液冷系统,其核心价值集中在ODM厂商,英伟达主导整体设计并占据主要价值;若结合浸没式液冷,技术难度大、技术含量高且不易解耦,产业生态更健康,未来全冷板可能由其他厂商提供冷却方案,话语权分散,英伟达对解决方案有一定把控但各环节依赖其名单。若不走此技术路线,每代技术方案将经历发布、研究、解构及替代的过程。
Q:国内厂商对液冷技术未来趋势的判断、考量及双向冷板放量节点是什么?
A:双向冷板放量节点与Rubin发布密切相关,发布前市场以样机及测试性质项目为主。国内升腾910C虽开展双向冷板液冷研究,但规模化交付大概率不采用该方案,试点场景仍以单向液冷为主。当前国内液冷市场未真正放量,H20保有量最大且以风冷为主,市场处于消化H20库存阶段;字节、阿里等大厂AIDC建设采用风液混布模式,风冷比例高于液冷,园区内约25%-30%机架规划液冷。国内液冷市场规模2023-2024年约十几亿,2024年预计约30亿,远低于海外2025年200-300亿的市场规模,主要受限于卡类型及大厂对H20风冷/液冷选择的模糊态度;大厂更注重部署速度,倾向采用更高效的风冷方案或转向租赁。
Q:除部署速度外,国内外厂商选择单向与双向冷板方案的差异及原因还有哪些关键节点?国内大厂当前选择的部署方案情况如何?
A:国内当前因主要使用H20芯片且B20尚未供货,导致单向与双向冷板方案选择存在不确定性。若获得B系列芯片,将因风冷方案在Blackwell200上验证问题频发而果断采用液冷;目前小规模获取Blackwell资源的项目均采用单向冷板液冷。双向冷板液冷的推广需等待Rubin发布推动,国内BATZ、京东等大厂已开展双向冷板液冷技术储备,后续应用可行性较高。
Q:字节、腾讯、阿里等大厂当前在AIDC建设中的部署趋势是什么?
A:字节、阿里等大厂AIDC建设采用风液混布方式,且风冷比例大于液冷,通常一个园区内约25%-30%的机架按液冷方式规划设计。
Q:阿里采用租赁数据中心的趋势是否为行业普遍现象?百度、京东、腾讯仍以自建为主,是否因阿里市场份额高、体量大而采取租赁方式?租赁数据中心过程中部署液冷系统是否存在成本或投入问题?
A:当前互联网行业数据中心建设模式存在差异,并非普遍采用租赁模式。百度因业务以搜索、智能驾驶为主,算力需求远低于阿里、字节,数据中心部署规模及交付量较小;腾讯凭借自研复杂冷板液冷系统形成特殊建设流程,通过联合开发厂商、分包单位等完成部署,其云服务以高端客户为主,市场份额约10%,与阿里的业务定位不同。阿里选择租赁模式主要因早期全面转自建后建设速度滞后于需求,且优质土地、电力资源已被字节抢占,导致决策流程长、部署慢的恶性循环。目前阿里正通过与colocation厂商合作获取资源,2024年Q1以超市场均价获得500兆瓦资源。字节凭借高效的成本控制与交付节奏已形成滚动开发模式,阿里计划借鉴其拿地、建设、交付节奏以保持业务竞争力。关于租赁中部署液冷系统的成本问题,会议未提及具体障碍。
Q:阿里张北数据中心采用英维克浸没式液冷系统实现PUE1.08的数据是否存在问题?当前单向冷板与双向冷板液冷技术的POE极限值是多少?最新的服务器工作温度一般能达到多少?
A:单向冷板液冷技术当前POE极限值在1.15-1.2之间,因需空气冷却补偿,存在技术硬伤;全冷板液冷或耦合液冷技术可进一步降低POE。当前数据中心综合PUE已不仅取决于液冷系统,供配电系统影响显著:传统供配电模式下,即使液冷系统不耗电,PUE也难以达到1.1以内;采用DC800伏供电等优化技术,供配电能效因子可降至0.5左右,此时若液冷CLF达0.5,PUE可接近1.1。PUE进一步降低主要因功率密度提升,均摊额外能耗比例降低,属被动式降低。阿里张北数据中心PUE低主因是上架率高,而非技术优势,当前液冷方案能效水平无实质差异。关于最新服务器工作温度,原文未提及具体数据。
Q:单向浸没液冷除介质价格贵外,是否存在自然对流或泵驱动循环的技术壁垒?介质是否因不够完美导致运行不稳定?双向浸没液冷的可能部署节点及与单向浸没液冷的原理差异是什么?
A:单向浸没液冷技术相对成熟,核心问题在于介质的毒性与挥发性。开式维护场景下,若介质挥发性强会引发系列问题。双向浸没液冷基于介质相变汽化原理,其汽化过程类似水蒸发,无需考虑气液分离和两相态问题,比两相冷板液冷更简单,难点在于维护。部署节点方面,通算场景因服务器频繁上下架难以适用;智算场景允许算力节点或整机柜退出,需配套简化的现场维护流程或产品化方案。
Q:铝的抗腐蚀性较差,为何认为液冷板中铝可以替代铜?Rubin是否计划于明年发布?其全能版液冷方案是否确定?
A:关于铝替代铜的可行性,当前讨论聚焦于两相液冷场景:铝与主流氟利昂、1233ZD等介质的兼容性已通过测试,腐蚀程度在产品设计生命周期可接受范围内;而铜目前多用于水基液体场景。未来若采用卤代烃,其与铝的接触兼容性已验证,问题不大。关于Rubin发布及全能版方案,目前未明确其明年发布时是否采用全能版液冷。全能版液冷与英伟达初始的耦合静默式液冷方案并行推进,未确定最终选择方向。耦合静默式为初始方案,全能版是200-300迭代中为解决问题提出的,其成本上升比例较小可能影响决策,但耦合静默式方案的沉没成本已较高,预计静默式方案采用可能性约60%,全能版约40%。
Q:若13C不符合双向冷板30-40度沸点要求,是否有其他可用制冷剂?若英伟达与霍尼韦尔开发的非国内传统方案采用其他物质,可能涉及哪些制冷剂?天虹134A的最新验证进展如何?
A:134A是成熟冷媒,但按欧盟标准134A与410A将被淘汰,目前仅用于短期测试验证。替代制冷剂需满足沸点约35度的要求,现有此类冷媒但热物性参数尚未调至最优状态,基础物质为1233ZD,需通过调和优化性能,主体物质为1233BD,可能存在1366等新命名。若13C未重新调和或调整比例,仍沿用原配方则不符合要求。
Q:13C作为冷媒的优势与问题是什么?
A:13C的优势在于其为中低压冷媒,相比高压冷媒可降低系统设计成本;主要问题包括ODP与GWP不符合环保标准,且在冷板内无法充分气化,气液分离难度较大。
Q:硅油对于GB300的热流密度及单机柜功率是否有适用性?其主要缺点是什么?
A:硅油的优势在于成(更多实时纪要加微信:aileesir)本较低,但存在粘度问题,导致其在规模化交付中受限。字节等企业基于实践经验认为,尽管硅油成本低,但其粘度问题带来的代价较大,因此倾向于使用氟化液。此外,高价值服务器使用油类存在一定风险。