北京时间3月17日凌晨,当黄仁勋再次身着标志性黑色皮衣登上GTC舞台时,他带来的不是单一芯片,而是一整套AI“全家桶”。在长达两个半小时的演讲中,这位英伟达CEO向全球开发者宣告:AI的推理拐点已经到来,智能体革命正在重塑计算基础设施。
一、CUDA 20年:飞轮效应铸就的生态壁垒
演讲伊始,黄仁勋用十分钟回顾了CUDA架构诞生20年的历程,将其定义为英伟达一切业务的“中心”。
1.1 安装基数:20年积累的终极护城河
“最难实现的东西在这里——安装基数。”黄仁勋指向图表底层,“我们花了20年,在全球建立起数亿块运行CUDA的GPU和计算系统。” 他总结的“飞轮效应”逻辑清晰:
- 安装基数吸引开发者
- 开发者创造新算法(如深度学习)
- 突破催生全新市场
- 更多公司加入,进一步扩大安装基数
1.2 持续优化的成本下降曲线
“这个飞轮正在加速:NVIDIA库的下载量增长极快,规模巨大。”黄仁勋强调,“一旦安装NVIDIA GPU,它的使用寿命极高。这也是为什么六年前出货的Ampere架构,在云上的定价反而在上涨。” 当安装基数足够大、飞轮足够快、软件持续更新时,结果就是计算成本不断下降。“我们愿意支持全球每一块GPU,因为它们架构兼容。
为什么愿意?因为安装基数足够大——每发布一项新优化,数百万用户受益。”
二、 推理拐点:Token成为AI时代的新商品
黄仁勋开篇即抛出核心论断:“AI终于能做生产性的工作了。因此,推理的转折点已经到来。”
2.1 计算需求的百万倍增长
过去两年,AI经历了三大关键突破:
- ChatGPT开启生成式AI时代:计算从“基于检索”转向“基于生成”
- 推理AI(o1/o3)的出现:AI开始拥有反思、规划、拆解问题的能力
- Claude Code开启代理时代:首个能阅读文件、编码、编译、测试并迭代的智能体模型
“AI已经从‘感知’进化到‘生成’,再到‘推理’,现在已经可以执行极其高效的实际工作。”黄仁勋表示,“过去两年,计算需求增长了约10,000倍,而使用量增长了约100倍。我深感这两年的计算需求实际增长了100万倍。”
2.2 万亿美元市场的底气
基于这一判断,黄仁勋给出了激进的预测:“我现在至少可以看到2027年能达到1万亿美元的收入。”这一数字较去年预测的5000亿美元直接翻倍。
支撑这一预测的是英伟达业务结构的根本性变化:
-
60%业务来自超大规模云服务商:不仅支持其内部AI消费(如推荐系统、搜索向大模型的迁移),更通过英伟达生态系统加速每一家AI实验室
-
40%业务遍布各垂直领域:区域云、主权云、企业、工业、机器人、边缘等全场景覆盖
“NVIDIA系统是全球你能获得的最低成本的AI基础设施。”黄仁勋自信地表示。
三、 Token工厂经济学:重新定义数据中心价值
3.1 每瓦特Token数成为核心指标
黄仁勋引入了一个革命性的概念:数据中心是生产Token的工厂。在SemiAnalysis的全面评测中,衡量AI系统效率的关键指标是每瓦特能够生成多少Token(tokens per watt)。
“每个数据中心都受电力限制,1吉瓦的工厂是物理上限。你要在这有限的电力内,驱动最大数量的Token产出——这就是你的收入。”
3.2 极致的软硬件协同设计
从Hopper H200到Grace Blackwell NVLink 72架构,英伟达实现了每瓦特性能提升约35倍的飞跃。SemiAnalysis分析师Dylan Patel甚至认为实际提升接近50倍。
“NVIDIA的Token成本在世界范围内是‘不可触碰’的。”黄仁勋强调,“即便竞争对手的架构是免费的,它也不够便宜。因为建立一个1GW的工厂,即便里面什么都不放,15年的摊销成本也高达400亿美元。”
3.3 Token分层定价模型
黄仁勋预测Token将像所有商品一样细分为不同层级:
- 免费层:高吞吐量、低速度的Token
- 基础层:每百万Token 3-6美元
- 高级层:每百万Token 150美元,用于关键路径或长研究任务
“对于一个研究团队来说,每天使用5000万个Token,按每百万Token 150美元计算,这根本不算什么。”
四、 Vera Rubin:为智能体AI而生的超级计算机
4.1 全栈垂直整合的系统
“过去我发布产品时,可能只是手里举着一块芯片;但现在,当我谈到Vera Rubin时,我说的是一个全栈垂直整合的庞大系统。”
Vera Rubin平台由七款芯片组成,涵盖计算、网络和存储三大功能:
- 40个机架、1.2千万亿个晶体管、近2万个NVIDIA芯片
- 1152个NVIDIA Rubin GPU、60 exaflops运算能力、10 PB/s总扩展带宽
4.2 三大技术突破:液冷、无缆化与CPO光互联
-
100%液冷架构:支持45°C热水冷却,大幅降低数据中心散热能耗。散热材料向“金刚石”等级演进,导热介质引入“液态金属”。
-
全线缆消失:机架安装时间从两天缩短至两小时。互联不再靠外部线缆,而是在液冷模块内部做板级/背板式集成互联。
-
CPO(共封装光学)互联革命:这是本次演讲在互联技术上的最大亮点。
-
全球首款量产CPO交换机:英伟达发布了基于Spectrum-6芯片的Spectrum-X CPO以太网交换机。传统交换机中,电信号需要经过PCB走线、到达独立的光模块进行电-光转换,损耗大、延迟高。CPO技术将光学器件直接封装在芯片上,电子在硅片表面就转换成光子,消除了传统光模块和铜线中转,实现了带宽大幅提升与功耗显著降低。
-
与台积电联合开发的CoUP封装工艺:黄仁勋强调,这项技术目前全球只有英伟达在量产。它让光子传输得更远、损耗更低,是打破机架尺寸限制、实现72块乃至144块GPU全互联的物理基础。
-
铜与光的战略:针对“铜缆还是光学”的行业疑问,黄仁勋明确表示:“我们都要,我们需要更多的铜缆产能,更多的光芯片产能,更多的CPO产能。”这揭示了未来数据中心互联将是铜缆、可插拔光模块、CPO等多种技术并存的格局。
4.3 专为智能体优化的设计
Vera Rubin专门为Agentic AI设计,原因很明确:
- 大型语言模型会变得越来越大,生成越来越多的Token
- 智能体需要猛烈冲击内存:KV缓存、结构化数据、非结构化数据
- AI希望工具尽可能快,未来的网页浏览器也可能是云中的虚拟PC
为此,英伟达开发了全新的Vera CPU——全球首个在数据中心中使用LPDDR5X内存的CPU,拥有无与伦比的单线程性能和每瓦性能。
4.4 系统级创新:Kyber机架与Rubin Ultra
英伟达还展示了Rubin Ultra计算系统。该系统通过全新的Kyber机架架构,可以在一个NVLink域中连接144个GPU,形成一台规模极大的统一计算机:前部为计算节点,后部为NVLink交换系统,通过中板结构连接,从而突破传统铜缆互连的距离限制。
五、 下一代架构:Feynman前瞻
4.1 1.6nm制程与深度集成
Feynman架构将成为全球首款采用台积电1.6nm A16制程的AI芯片,计划2028年量产、2029年交付。其核心突破在于:
- 将LPU(语言处理单元)与GPU深度集成,专攻推理延迟和内存墙问题
- 采用共封装光学(CPO)技术,硅光子光互连让带宽提升10倍、能耗下降90%
5.2 定制化HBM与Rosa CPU
- 定制化HBM技术:跳过通用规格,可能采用基于HBM4E的定制增强版甚至提前布局定制化HBM5方案
- Rosa CPU:专为AI智能体编排设计,旨在更高效地调度GPU、存储与网络之间的Token流动
5.3 互联技术的延续与扩展
Feynman架构将继续深化CPO等先进互联技术。黄仁勋透露,Feynman将首次同时支持铜缆纵向扩展和CPO纵向扩展的Kyber机架互连方案。这意味着英伟达的“垂直整合”战略在互连这一关键瓶颈上,将继续保持从材料、封装到系统级的全面领先。
“Feynman时代标志着NVIDIA将计算、存储和封装三者进行了深度耦合。”黄仁勋表示。
六、 OpenClaw与智能体革命
6.1 “龙虾”创造了历史
黄仁勋高度评价了由Peter Steinberger创建的开源项目OpenClaw:“OpenClaw的增长速度甚至超过了Linux在过去几十年的传播速度,其影响力‘极其深远’。”
OpenClaw可以被理解为一种智能体计算机的操作系统:
- 能够连接大语言模型,管理各种计算资源
- 调用文件系统、工具和模型服务
- 具备任务调度能力,将复杂问题分解为多个步骤
- 提供多模态输入输出能力
6.2 企业级安全方案:NemoClaw
智能体系统进入企业网络带来了新的安全挑战。为此,英伟达推出NVIDIA NemoClaw参考架构:
- 在OpenClaw基础上加入名为OpenShell的安全组件
- 提供企业级策略执行、网络防护和隐私路由等能力
- 支持连接企业已有的策略引擎和治理工具
6.3 所有SaaS公司都将消失
黄仁勋断言:“未来所有科技公司和软件公司都会面临一个问题——‘你的OpenClaw战略是什么?’”
他认为,企业软件正在从传统工具型软件,转向以智能体为核心的系统。“未来几乎所有SaaS公司都将演变为AaaS(Agentic as a Service)——即以智能体为核心的服务平台。”
他甚至预测了招聘模式的变化:“在未来,我们公司的每个工程师都需要一个年度Token预算。他们的基本工资可能每年几十万美元。我可能会在此基础上再给他们一半作为Token预算,这样他们的效率就能放大10倍。”
七、 数据处理新基石:cuDF与cuVS
7.1 结构化数据与非结构化数据的全面加速
黄仁勋指出,演讲中展示的一张技术架构图是“本场演讲中最重要的一张图”,因为它揭示了英伟达为数据处理打造的新核心软件库。
结构化数据是企业计算的“事实来源”(ground truth),而非结构化数据占全球每年产生数据的约90%。过去,非结构化数据几乎无法被计算系统有效利用。
7.2 两大核心软件库
- cuDF:用于加速数据框计算,主要面向结构化数据处理
- cuVS:面向向量存储和语义数据,用于处理非结构化数据和AI数据
“就像当年为3D图形计算推出RTX技术一样,NVIDIA现在为数据处理打造了新的核心软件库。”黄仁勋表示。
IBM——SQL的发明者之一——正在利用cuDF来加速其数据平台IBM watsonx.data,这标志着AI正在逐步重塑整个数据处理基础设施。
八、 物理AI:机器人、自动驾驶与太空算力
8.1 人形机器人商业化元年
黄仁勋将2026年定义为人形机器人商业化元年。GTC现场展示了超过100台机器人,“世界上几乎每一家正在建造机器人的公司都在与NVIDIA合作”。
英伟达提供完整的技术体系:
- 训练计算平台、合成数据与仿真平台
- 部署在机器人内部的计算系统
- 完整的软件和模型生态
8.2 自动驾驶的“ChatGPT时刻”
“自动驾驶的ChatGPT时刻已经到来。”黄仁勋宣布了新的Robotaxi合作伙伴:
- 比亚迪、现代、日产、吉利:每年合计生产约1800万辆汽车
- Uber:在多个城市部署自动驾驶出租车网络
基于NVIDIA Drive AV和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。
8.3 布局太空算力
英伟达正在研发Vera Rubin Space One太空计算平台,用于在轨道上建设数据中心。由于太空环境中不存在对流或传导散热,只能通过辐射散热,系统冷却成为一项极具挑战的工程问题。
九、 战略核心:垂直整合,横向开放
9.1 从芯片公司到AI基础设施服务商
“英伟达早已不是那个卖显卡的公司,现在的英伟达是一家为‘数万亿美元AI基建时代’搭建完整技术栈的‘总包工头’。”黄仁勋在演讲中明确表示。
英伟达构建了从能源、芯片、基础设施,到模型、应用的AI五层蛋糕架构。CUDA生态迎来20周年,持续加固技术壁垒。
9.2 AI工厂平台:NVIDIA DSX
英伟达推出NVIDIA DSX——一个面向“AI工厂”的基础设施平台,基于Omniverse数字孪生技术:
- DSX SIM:用于物理、电气、热和网络模拟
- DSX Exchange:用于AI工厂运营数据
- DSX Flex:用于电网之间的安全动态电源管理
- DSX Max-Q:用于动态最大化Token吞吐量
“每延误一个月,就损失数十亿美元的收入。”黄仁勋强调AI工厂建设的时间紧迫性。
十、 总结:AI产业的三大变革
在演讲总结中,黄仁勋指出AI产业正同时经历三大变革:
- AI推理与AI工厂:推理拐点已至,Token成为新商品,数据中心转变为Token生产工厂
- 智能体系统革命:OpenClaw开启智能体计算时代,企业IT从工具时代走向智能体时代
- 物理AI与机器人:具身智能正在规模化落地,自动驾驶、工业机器人、人形机器人共同构成物理AI的下一个重大机遇
“这是一个重塑,这是一个复兴,企业IT的复兴,从一个价值2万亿美元的产业,这将变成一个价值数万亿美元的产业。”黄仁勋最后表示。