简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

AI机柜功率提升,液冷成长几何

2025-08-07 21:30

(来源:老司机驾新车)

AI机柜功率提升,液冷成长几何

1、AI场景下液冷两条技术路线及应用现状

·英伟达与ASIC卡技术路线:AI场景下液冷技术有两条核心路线:英伟达技术路线与ASIC卡技术路线。英伟达技术路线上,其产品规划和液冷方案随迭代演变。现有产品NVL的GD200或GD300,配套算力卡B200、B300(B300比B200单卡功率提升200瓦),整柜功率126千瓦(电源模块峰值功率132千瓦),液冷用常规单向冷板液冷方案。按规划,2026年下半年量产Rubin 288产品,单卡功率1.2-1.4千瓦,整柜功率趋近500千瓦,常规冷板液冷无法满足散热,需新方案(如单柜600千瓦需求的三种模式或静默式方案)。2026年GTC大会(每年3-4月召开)预计展出过渡产品Ruby 144,单柜容量超200千瓦,其制冷方案或代表Rubin 288的技术方向。

ASIC卡技术路线中,Meta推进较快,功率与架构变化显著。第一代ASIC卡单卡功率约150瓦,第二代提至350瓦。原64张卡构成整机柜,单柜功率约25-30千瓦(技术上无需液冷),但国内供应商在A7卡方案用了液冷。近期架构变为128张卡,单柜功率提至60千瓦,仍用常规单向冷板液冷方案。2025-2026年,上述技术路线的液冷应用大致如此。

2、NV液冷方案供应商迭代逻辑

·NV供应商筛选机制:NV液冷技术升级推动供应商筛选机制变化。从需求端看,液冷需求功率从126千瓦提升至400-500千瓦,技术应用从单向冷板液冷向浸没式(包括纯浸没、浸没加冷板等方案)转变,与B200、B300单向冷板方案形成差异。从产品代际看,英伟达针对不同代际产品(B200→B300→Ruby)会重新送样、测试及分配份额。Ruby(144/288方案)会重新筛选供应商,且100%引入新供应商。成熟产品B200已标准化,后期极少引入新供应商,其供应商格局固定,仅在一供、二供出现重大故障时才调整。

3、B200与B300液冷方案对比分析

·冷板结构与数量变化:B200采用大冷板方案,每块大冷板覆盖1块CPU加2块GPU,服务器托盘包含36块此类冷板,交换机托盘包含9块冷板(覆盖两张ASIC卡),总计45块冷板。单块大冷板(GPU+CPU)价值量约650美元,主要供应商为AVC(主供60%)、双宏及Kura master。B300因GPU功率提升至1.4千瓦(较B200高200瓦),原大(更多实时纪要加微信:aileesir)冷板非接触式换热方式无法满足需求,改为每芯片独立冷板方案。服务器托盘包含36块CPU冷板和72块GPU冷板,交换机托盘沿用9块冷板(覆盖两张ASIC卡),总计117块冷板。单块独立冷板体积较小,价值量约240美元。供应商格局变化显著,主供转为Kura master(占比60%),双宏份额降至不足5%,宝德新加入供应链。

·管路与快插变化:B200的computer tree包含126对快插,switch tree包含18对快插,总计144对,采用UQD04规格,单价约45美元/对。B300因液冷板数量增加,computer tree快插数量翻倍至252对,switch tree仍为18对,总计270对,升级为NVUQD03规格(体积为原2/3),单价提升至55美元/对。软管方面,B200每柜软管价值量约1200美元,B300提升至1800-2000美元。快插供应商格局变化:B200由CPC、史陶比尔、Parker等欧美企业主供;B300主要供应商转为酷冷大师、AVC、力敏达及富士达

·柜外CDU供应商变化:B200仅认证Vertiv为CDU合作伙伴,其提供的CDU为唯一匹配方案。B300取消认证模式,改为以参考设计形式推荐供应商,涵盖Vertiv、施耐德(收购Moty Air)、台达、nvent、宝德、酷冷大师等5-6家企业。

4、Rubin液冷方案技术变化解析

·冷板加浸没式方案特点:Rubin液冷方案采用冷板加浸没式设计,其核心结构为竖放的45优或47优机柜(高度2.2米或2.5米),内部以托盘形式分布switch tree与computer tree,所有托盘被设计为密闭壳体(类似鱼缸)。该密闭壳体内部需充满氟化液,GPU表面仍贴有液冷板用于散热,液冷板通过内部微通道构成一进一回的散热回路。冷却系统包含双回路:液冷板内部微通道回路采用丙二醇作为介质,负责GPU散热;密闭壳体回路则以电子氟化液为介质,可吸收液冷板及外壳的热量,形成第二散热回路。此方案对液冷系统的影响主要体现在两方面:一是氟化液用量大幅提升,单机柜氟化液用量达上千升;二是快插数量减少,因CPU散热直接依赖氟化液浸没,不再需要液冷板,但144张或288张GPU仍需液冷板,液冷板数量因GPU需求增加而提升。

5、液冷技术未来演进方向探讨

·两种液冷方案选择考量:NV在选择冷板加浸没与纯浸没两种液冷方案时,会从成本、性能提升、价值量等维度综合考量后做决策。当前,冷板加浸没方案优势更明显。

·冷板加浸没方案特点:冷板加浸没方案对机房布局影响小。从技术成本看,该方案需两组CDU分别驱动不同介质:冷板内走乙二醇或丙二醇,封闭壳体内走电子氟化液,且流速不同,set car维度成本有所提升,目的是不破坏既有机房布局。

·纯浸没式方案优劣势:纯浸没式方案换热效果好,可支持700-800千瓦的高功率密度,且仅需一套CDU实现tank内换热,整体功率小。但该方案对机房举架高度要求仅3米,而标准机房楼举架高度通常为4.5-5.5米,会造成较大空间浪费,大规模应用场景的CSP难以接受。

·技术迭代趋势:未来若单柜功率密度超600千瓦,可能转向纯浸没式方案。且从前期投资看,纯浸没式方案投资比例低于冷板加浸没方案,未来或向纯浸没式产品迭代。

6、ASIC卡与NV卡液冷规划差异

·Meta的液冷技术路线:Meta同时布局自研ASIC卡与英伟达卡,会同时考量两者技术维度,不会很快完全替代英伟达卡,如26年规划的普罗米修斯仍会大量应用英伟达卡。在液冷方案选择上,64张卡场景(单柜功率25-30千瓦)可能回归风冷;128张卡场景采用冷板液冷;迭代至120千瓦,仍坚持采用冷板液冷。未来,Meta的ASIC卡与英伟达卡应用比例或从当前远低于9:1逐步变化,预计27年可能达到1:1。针对液冷方案,一半场景将坚持用冷板液冷,另一半可能采用浸没式液冷,因其更经济。

·谷歌的液冷方案评估:谷歌未公开完整架构,正观察Meta A7卡液冷应用状态。对于A7卡的液冷方案,谷歌未明确选择冷板或风冷,仍在进行技术判断,未急切推进。

·相变冷板应用现状:相变冷板适用范围为120-200千瓦,当前处于技术尴尬区间。英伟达的B200、B300未采用相变冷板,Rubin方案直接跨过该区间(如144方案功率超200千瓦),因此英伟达不考虑相变冷板。北美四家CSP因定制化服务器需求,可能在120-200千瓦区间考虑相变冷板,但目前渗透率很低,仅可能用于自研服务器的CSP过渡场景。

7、液冷工艺格局变化与厂商机会

·新供应商导入机会:在Rubin方案(冷板+浸没式)下,液冷工艺格局将出现新的独立组装环节——密闭壳体封装。该环节对密封性要求极高,若漏液,风险与常规快接头漏液不同(整体充满电子冷却液)。这一环节价值量将从原PCB方案转移至液冷设备供应商。潜在供应商方面,Vertiv、台达等可能承接密闭壳体供应;Coolermaster提供液冷板模组,广达红海负责服务器托盘的PCB组装。流程为:Coolermaster给广达红海提供液冷板模组,广达红海完成服务器托盘PCB组装后,将集成液冷板的PCB交付液冷厂家;液冷厂家制作密闭壳体并完成PCB内部封装,最终将产品回给广达,插入Rubin框架。这表明液冷设备供应商将新增关键独立组装环节,会有新供应商参与。

Q&A

Q: 在液冷技术发展背景下,英伟达与ODM是否会引入新的供应商?

A: 英伟达Ruby系列因制冷需求从当前126千瓦提升至400-500千瓦,技术方案需从单向冷板液冷向浸没式转变,与现有B200/B300的单向冷板方案形成显著差异。基于英伟达产品迭代(更多实时纪要加微信:aileesir)规律,其不同代产品均会重新进行供应商筛选,部分供应商可能延续但整体需重新选择。因此,Ruby系列同样会重新筛选供应商,确定会引入新供应商。对于已定型的成熟产品,后期很少引入新供应商,除非现有一供、二供出现重大故障问题,否则供应商格局保持稳定。

Q: B200产品的液冷板结构及数量如何?

A: B200服务器托盘采用大冷板结构,单块大冷板覆盖1块CPU与2块GPU,18个服务器托盘共包含36块大冷板;9块switch托盘采用另一种大冷板结构,每块大冷板覆盖2张ASIC卡,共包含9块大冷板。B200整体液冷板数量为36+9=45块。

Q: B200产品液冷板的单体价值量及主要供应商情况如何?

A: B200中GPU加CPU的大冷板单体价值量约为650美元。大冷板主要供应商包括AVC、双宏及Kura master,其中AVC为主供应商,供应量占比超60%;双宏与Kura master合计占比约30-40%,剩余约10%由其他小份额供应商提供。

Q: B300产品的液冷板结构及数量有何变化?

A: B300的GPU单张发热量较B200增加200瓦至1.4千瓦,原非接触式液冷板无法满足散热需求,因此B300服务器托盘中每块芯片配备独立液冷板。其中computer tree部分液冷板数量为36张CPU冷板加72张GPU冷板,共108张;switch tree部分仍为两张ASIC卡共用一张液冷板,整体液冷板数量为108+9=117张。

Q: B300产品液冷板的单体价值量及供应商格局如何?

A: B300液冷板单体价值量因体积减小有所下降,为240美元/张。供应商格局显著变化,主要供应商变更为酷冷大师;双宏供应量降至不足5%,基本退出供应体系,宝德加入供应商行列。酷冷大师需承担小集成任务,并引入英维克、穿环等国产液冷板及软管、快插产品。

Q: B200与B300产品快速插头在方案规格、价值量、数量及供应商方面有何差异?

A: B200快速插头采用UQD04方案,单体价值量45美元/对,总数量为144对,主要由CPC、史陶比尔、Parker等欧美企业供应;B300快速插头升级为NVU QD03规格,体积缩减至原体积的2/3,单体价值量提升至55美元/对,总数量增加至270对,供应商为酷冷大师带入的英维克及自产。

Q: B200与B300产品软管的价值量变化情况如何?

A: B200中每个柜的软管价值量约为1,200美元,B300中提升至1,800-2,000美元。

Q: B200和B300产品液冷板数量变化对管路及快速插头数量有何影响?

A: B200的computer tree包含126对接头,B300的computer tree快速接头数量翻倍至252对,加上switch tree的18对,B300共配置270对快速插头。液冷板数量增加直接导致管路数量与快速插头数量大幅增长。

Q: 液冷相关厂商的导入时间周期大概需要多久?若计划明年下半年上量,需提前多久进行测试?

A: 当前各厂商已配合开展测试,过程中仍有新玩家持续送样,预计导入截止时间为2026年4月GTC大会前。

Q: NV液冷相关组件及集成业务的毛利率情况如何?

A: NV液冷整体业务毛利率约40%,其中柜外CDU在B200和B300方案中毛利率可达50%-55%,是主要利润来源;冷板、快插、manyfold等组件因属于精加工金属结构件,毛利率较低,约30%-35%。

Q: 液冷方案后续是否有升级可能性?若采用纯浸没式与冷板加氟化液两种方案,制冷效果提升情况如何?

A: 英伟达在基础设施领域不专业但想法多,通过合作伙伴实现方案并自行决策。当前主流方案为浸墨加冷板,优势是不改变既有机房布局;纯浸没式采用大tank结构,对机房布局造成空间浪费,大规模应用场景下不可接受。但单柜功率密度超500千瓦后,纯浸没式换热效果更优,可支持700-800千瓦功率密度,且仅需一套CPU实现换热,成本低于冷板加氟化液方案。未来若功率超600千瓦,可能转向纯浸没式,且其前期投资低于冷板加氟化液方案,技术迭代方向为纯浸没式。

Q: 纯浸没式方案中电子氟化液作为消耗品,其后续使用成本如何,尽管前期投资比例较低?

A: 国内已有厂家生产电子氟化液。乙二醇、丙二醇等溶剂每升价格约100-200元,电子氟化液每升价格约400-450元。纯浸没式方案需持续补液,后期氟化液采购成本占CAPEX至少一半。

Q: 谷歌与Meta在ASIC卡功率相对较低的背景下,对冷板液冷及浸没式液冷的规划是怎样的?

A: 谷歌与Meta同步推进采购英伟达高性能算力卡与自研ASIC卡,短期内不会快速完全替代英伟达卡。在ASIC卡应用场景中,低功率场景可能采用风冷;架构复用场景将坚持采用冷板液冷。针对英伟达卡路线,因功率迭代需配合其技术建议,可能采用冷板加浸没或纯浸没方案。预计到2027年,ASIC卡与英伟达卡应用比例将从当前的显著倾斜逐步变为各占一半,对应液冷方案中一半将坚持冷板液冷,另一半可能直接采用浸没式。

Q: 单双向冷板技术的渗透率及当前应用现状如何?

A: 相变冷板当前应用场景有限,处于尴尬区间。单向冷板技术上限约为120千瓦,120-200千瓦区间理论上可采用相变冷板,但英伟达因144方案功率超过200千瓦,其B200、B300等产品未采用相变冷板;Rubin方案则直接跨越该区间,导致相变冷板缺乏应用空(更多实时纪要加微信:aileesir)间。北美四家CSP因采购算力卡自研服务器,其堆叠功率可能落在120-200千瓦区间,存在部分采用相变冷板的可能性,但当前渗透率极低,不足10%。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。