热门资讯> 正文
2025-11-03 10:30
“AI不是工具,是会用工具的工人。”
英伟达在华盛顿特区召开GTC(GPU技术大会),创始人兼CEO黄仁勋穿着标志性的皮衣小跑上台。
在这个由英伟达主办的,探讨人工智能、深度学习、自动驾驶等领域最新技术的,全球性的技术大会上,黄仁勋首次提出了这个颠覆性的AI理念。
这一认知转变,从根本上重新定义了人类与技术的关系,也为英伟达的未来画出了清晰的路线图。
英伟达正向政策制定者证明,公司是美国技术栈的核心,限制其发展就是损害美国自身的利益。
黄仁勋甚至在小组讨论中坦言,选择华盛顿是为了让特朗普总统能够出席。尽管总统当时正在亚洲访问,但已计划在第二天与黄仁勋会面。
英伟达重新定义AI产业
黄仁勋对AI的定义,远不止于聊天机器人。
他将AI的演进类比为一场编程范式的革命。
在CPU(中央处理器)时代,人类工程师手工编写代码、软件在Windows系统上运行。
今天,机器学习模型直接在GPU上训练和运行。
能源、GPU、超算、模型、应用,这条完整的技术栈构成了现代AI。
最关键的洞察在于对产业本质的剖析。
AI是工人。更准确地说,是会使用工具的工人。
这是历史性的差异。
在此之前,人类发明的一切都是服务于自身的工具。但AI不同。这一次,技术本身开始学会自己干活。
当AI从工具转变为工人,它就催生了一个全新的产业。
信息被编码成tokens后,就需要一个AI工厂来处理它们。
这个工厂是什么?就是AI的物理大脑,数据中心。
这种工厂与传统数据中心不同,它的目标就是运行AI。就像人的大脑就是“运行”思想。
生产尽可能有价值、更智能的token。
以极致的速度生产出来。
AI工人的诞生需要三大定律
驱动这一切的底层逻辑,是黄仁勋多次提到的三大扩展定律(Scaling Laws)。
这三条定律构成了英伟达内部一个强大的良性循环。
第一条是预训练扩展(Pretraining Scaling)。
这是AI开发的元定律。
它揭示了一个可预测的关系:增加训练数据量、模型参数和计算资源,模型的智能和准确性就会相应提升。数据、模型大小和计算三者相互关联,更大的模型在更多数据的喂养下,性能会变得更强。
正是这条定律催生了万亿参数的Transformer模型、专家混合模型(MoE)和各种分布式训练技术,它们都极度渴求计算资源。
第二条是后训练扩展(Post-training Scaling)。
预训练一个巨大的基础模型,投资巨大,门槛极高。但模型一旦发布,其他人就可以在其基础上进行微调,以适应自己的特定应用。这个过程极大地降低了AI的采用门槛。
后训练过程催生了对加速计算的累积需求。
一个流行的开源模型,可能会衍生出成百上千个针对不同领域的变体。开发这些衍生模型所需的总计算量,可能是预训练原始模型的30倍。
后训练就像是把一个通才AI送到专门的职业学校,学习特定领域的技能。
技术手段包括微调、剪枝、量化、蒸馏和合成数据增强等,它们能有效提升模型在特定任务上的效率和准确性。
第三条是测试时扩展(Test-time Scaling)。
这条定律作用于推理阶段,也被称为长思考(long thinking)。
传统的AI模型对用户提问,会迅速给出一个答案。
采用长思考技术的模型,则会在推理时投入额外的计算,在给出最终答案前,评估和推理多种可能的响应路径。
在生成复杂代码这类任务上,这个推理过程可能需要几分钟甚至几小时。
对于一个极具挑战性的问题,相比传统大语言模型(LLM)一次性回答,它可能需要超过100倍的计算量,但最终得到正确答案的可能性也大大增加。
这种能力让AI能够探索不同的解决方案,逐步优化答案。
具体方法包括思维链提示,将复杂问题拆解成简单步骤;或是多数投票采样,生成多个回答后选择出现频率最高的那个。
测试时扩展解锁了AI进行复杂、多步骤推理的能力,这是自主代理AI和物理AI应用的核心要求。
新一代AI工人的大脑构造
理解了AI工人的理念和驱动其发展的定律,我们再看英伟达发布的硬件,就有了全新的视角。
故事要从九年前说起。
2016年,黄仁勋亲手将世界上第一台AI超级计算机DGX-1,交付给旧金山一家名为OpenAI的初创公司。
黄仁勋回忆道:在一家名为OpenAI的小型初创公司,我亲手将第一台系统交给了马斯克从它诞生了ChatGPT,开启了AI革命。
九年后的今天,在华盛顿的舞台上,黄仁勋公布了未来三年的GPU路线图:从Blackwell,到Rubin,再到Feynman。
这直接回应了特朗普总统九个月前提出的要求:制造业回流。
10月初,英伟达和台积电宣布,第一批Blackwell晶圆已在凤凰城的工厂生产。基于Blackwell的系统也将在美国本土组装。
而本次大会真正的明星,是下一代超级芯片Vera Rubin的首次亮相。
Vera Rubin是英伟达第三代NVLink 72机架级超级计算机,它彻底实现了无线缆连接。目前芯片已在实验室完成测试,预计明年10月即可投产。
它的计算能力达到了惊人的100 Petaflops(FP4格式),恰好是九年前那台DGX-1性能的100倍。
过去需要25个机架才能完成的任务,现在一个Vera Rubin机架就能胜任。
Vera Rubin超级芯片板本身的设计也极具革命性。
它摒弃了行业标准的有线连接器插槽,取而代之的是顶部的两个NVLink背板连接器和底部的三个用于电源、PCIe、CXL的连接器。这种设计大幅提升了集成度和效率。
为了应对AI模型日益增长的上下文需求,黄仁勋还介绍了一种全新的上下文处理器(Context Processor),支持超过100万token的上下文。
这意味着AI在回答问题前,可以学习和阅读成千上万份PDF、论文和视频。
与之配套的,还有革命性的BlueField-4处理器,用于加速AI模型加载;NVLink交换机,让所有GPU同步传输数据;以太网交换机Spectrum-X,确保处理器间通信不拥堵。
所有这些组件被集成在一个机架中,零件总数高达150万个,重达两吨。
它的主干网络每秒传输的数据量,相当于整个互联网的流量,刷新了全球最快的token生成速度。
黄仁勋展望道:一个1GW规模的数据中心,大概需要8000到9000台这样的机架。
这就是未来的AI工厂。
在摩尔定律趋于平缓的今天,单纯堆砌晶体管已无法满足AI指数级增长的算力需求。
英伟达的答案是极致协同设计(Extreme Co-design)。
英伟达是当今世界上唯一一家能从一张白纸开始,同时思考芯片、系统、软件、模型和应用的公司。
这种协同设计,将AI算力实现了从纵向扩展(Scale up)到横向扩展(Scale out),再到跨域扩展(Scale across)的全面飞跃。
黄仁勋再次上演了他的经典展示,手里拿着一块由72块GPU无缝互联的巨型Grace Blackwell NVL72芯片板。
他开玩笑说,下次要扮演雷神,一伸手,芯片就自动飞到手里。
万亿参数的混合专家(MoE)模型。传统系统受限于GPU间的互联带宽,一块GPU要承载32位专家的计算量。在NVLink 72架构下,每块GPU只需负责4位专家。
SemiAnalysis的基准测试显示,Grace Blackwell每块GPU的性能是H200的十倍。
晶体管数量只增加了一倍,性能却提升了十倍,秘诀就在于极致协同设计。
因此,世界上最昂贵的计算机GB200,反而能生成成本最低的token。
它的极致性能,摊薄了每一次计算的总拥有成本(TCO)。
在三大扩展定律的驱动下,黄仁勋预测,到2026年底,仅凭Blackwell和Rubin两代产品就足以冲击5000亿美元的营收。
后来公司澄清,这个数字是指2025至2026年两代产品及网络设备的总累计出货量,预计未来五个季度的收入为3070亿美元。
即便如此,这个数字依旧庞大,并且还未将中国市场计算在内。
全球六大云服务商的资本支出(CapEx)曲线正以前所未有的速度飙升。
黄仁勋指出,这场变革是双平台迁移。
通用计算正转向加速计算,工具计算正转向智能计算。
而英伟达的GPU是唯一能同时兼容这两大趋势的架构。
算上已出货的600万块Blackwell,未来两年GPU出货量预计将达到2000万块,是Hopper时代的5倍。
黄仁勋正在释放一个强烈的信号:AI工厂已成为新时代的基础设施。
AI工人开始进入各个行业
英伟达正将AI工人部署到通信、汽车、量子计算乃至物理世界。
在通信领域,英伟达与诺基亚达成合作,推出支持AI原生6G的加速计算平台Aerial RAN Computer Pro(ARC-Pro)。
作为合作的一部分,英伟达将以每股6.01美元的价格向诺基亚投资10亿美元。
消息宣布后,诺基亚股价大涨20.86%。
ARC-Pro本质上是一个AI基站主机,融合了连接、计算和感知能力。运营商未来可以通过软件升级,平滑地从5G-Advanced过渡到6G。
AI-RAN技术则让无线通信处理和AI推理(如频谱调度、节能控制)运行在同一套由GPU加速的软件定义基础设施上。
基站在处理通信任务的闲暇时间,还能承载生成式AI的边缘服务,有效利用了闲置算力。
诺基亚将使用英伟达的Grace CPU、Blackwell GPU和网络部件来构建这一新产品。
通过下一代6G网络传输的AI,将能帮助操作机器人,或提供更精准的天气预报。
在自动驾驶领域,英伟达推出了DRIVE AGX Hyperion 10平台,一套开箱即用的L4级自动驾驶底座。
该平台包括DRIVE AGX系统级芯片(SoC)、参考设计、操作系统、传感器套件以及L2+级驾驶软件栈。梅赛德斯-奔驰、JLR和沃尔沃等车企已率先采用。
最新版本的平台将采用基于Blackwell架构的DRIVE AGX Thor SoC。
黄仁勋说:自动驾驶机器是最大的机器人市场之一。下一代自主机器将依赖物理AI世界基础模型来理解和与现实世界互动,NVIDIA DRIVE正是为这个新时代而设计的。
它能处理数万亿英里的真实及合成驾驶数据,让车辆不仅能识别红绿灯,还能在无结构路口或面对突发状况时,做出类似人类的判断,例如理解交警的临时手势指挥。
这一切都在车上实时完成。
车企可以直接获得可量产的参考架构和数据闭环,从而更快地将Robotaxi或无人配送车投入运营。
在量子计算领域,量子计算机的核心量子比特虽然潜力巨大,但在计算过程中极易出错。
要让它稳定工作,必须依赖一台传统超级计算机通过超低延迟的连接进行实时校准和纠错。这条连接线,一直是量子计算走向实用的瓶颈。
英伟达为此推出了全新的互连技术NVQLink,它首次将量子处理器与AI超级计算机无缝连接,形成一个统一的混合系统。
软件上,通过CUDA-Q编程接口,研究人员可以统一编排CPU、GPU和QPU(量子处理器),在一个平台内完成仿真、控制和闭环。
生态上,英伟达联合了9家美国实验室和17家量子硬件公司,共同推动这一混合计算范式的发展。
加速量子超级计算。NVIDIA NVQLink提供了关键技术。
黄仁勋说:NVQLink是连接量子和经典超级计算机的罗塞塔石碑。它的出现,标志着量子-GPU计算时代的正式开启。
当AI走向应用的最后一公里,便进入了物理AI(Physical AI)的范畴。
黄仁勋一直认为,实现物理AI需要三台计算机:一台GPU超算用于训练,一台Omniverse计算机用于模拟,以及一台机器人计算机用于执行。
这三台计算机都运行着CUDA,共同推动AI理解物理世界、物理定律和因果关系。英伟达正与合作伙伴共同打造工厂级的物理AI,未来将有大量机器人在数字孪生的世界中工作。
Robotaxi,本质上也是一种机器人。
在构建完整生态方面,英伟达也在全力投入开源。
黄仁勋指出,开源AI在推理、多模态和蒸馏效率上取得了巨大飞跃,首次成为开发者手中真正实用的工具。
英伟达在全球开源贡献榜上,有23个模型上榜,覆盖语言、物理AI、语音、推理等所有领域。
黄仁勋说:我们拥有全球第一的语音模型、第一的推理模型、第一的物理AI模型。
从DGX-1到Vera Rubin,九年性能百倍。
从工具到工人,重塑产业认知。
从单一芯片到全栈生态,构建AI时代的基础设施。
英伟达GTC 2025大会,宣告了一场深刻的范式革命已经到来。(AIGC开放社区)