「【新智元导读】凌晨,老黄 GTC 主题演讲华盛顿首秀,直接亮出下一代 GPU 核弹——Vera Rubin,性能狂飙 100 倍。目前,Blackwell 已全面量产,2026 年底两大 GPU 王牌预计爆赚 5000 亿美金。」
英伟达 GTC 大会,首次在华盛顿召开。
在近两小时演讲中,老黄不仅再次上演了一波 AI 美队,而且还给出了 AI 时代独一份的洞察——
AI 不是工具,而是会用工具的「工人」。
当老黄首次掏出下一代「杀手锏」Vera Rubin 超级芯片时,全场都震撼了。
相较于九年前,他亲手交付给 OpenAI 的首个超算 DGX-1,性能足足提升了 100 倍。并且明年就能量产。
当然,老黄的野心远不止于硬件。接下来的一系列震撼合作,将英伟达的 AI 帝国展示在了所有人面前:
- 「AI 原生 6G」:推出「AI on RAN」技术,将 AI 与 6G 网络深度融合,让基站成为边缘的 AI 计算中心。
- 「超算基建」:与美国能源部合作,建造 7 座全新的 AI 超算。
- 「自动驾驶」:发布「开箱即用」的 DRIVE Hyperion 平台,让汽车「生而为 Robotaxi」。
- 「量子计算」:发布 NVQLink 技术,首次将 AI 超算与量子处理器无缝连接,加速量子计算的实用化进程。
- 「物理」 「AI」:通过 Omniverse 中的数字孪生技术,训练「物理 AI」,加速机器人在现实世界中的部署,目标直指美国「再工业化」。
在三大 Scaling Law 驱使下,英伟达内部早已形成了良性正循环。
老黄预测,在 2026 年底前,仅凭「Blackwell+Rubin」就足以冲击 5000 亿美元的营收。
而且,这一数字还未将中国市场计算在内。
「下一代 Vera Rubin 首秀」
「性能狂飙百倍」
现场,老黄再次搬出了,未来三年英伟达 GPU 路线图,从 Blackwell,到 Rubin,再到 Feynman。
他激动官宣,短短 9 个月后,Blackwell 芯片已在亚利桑那州全面量产。
而真正站在全场 C 位的,还是下一代 Vera Rubin 的首次亮相。
这是英伟达第三代 NVLink 72 机架级超级计算机,彻底实现了无线缆连接。
目前,Vera Rubin 超级芯片已在实验室完成测试,预计明年 10 月可以投产。
这块超级芯片计算能力达到 100 Petaflops,是 DGX-1 性能的 100 倍。
换句话说,以前需要 25 个机架,现在一个 Vera Rubin 就能完成。
如下,便是 Rubin 计算托盘,推理性能可达 440PF。
其底部配备了 8 个 Rubin CPX GPU、BlueField-4 数据处理器,还有两颗 Vera CPU,以及 4 个 Rubin 封装——总共 8 个 GPU,全部实现了无缆、全液冷。
同时,英伟达还引入了一种全新「上下文处理器」(Context Processor),支持超 100 万 token 上下文。
如今,AI 模型要处理、记忆的上下文越来越多,它可以在回答问题前,学习和阅读成千上万份 PDF、论文、视频。
此外,BlueField-4 革命性处理器,可以加速 AI 模型加载时间。
还有 NVLink 交换机,可以让所有 GPU 同步传输数据;以太网交换机 Spectrum-X 可以确保处理器同时通信而不拥堵。
再加上 Quantum 交换机,三者结合,系统全部兼容 InfiniBand、Quantum 和 Spectrum Ethernet。
所有这些组合起来,一个完整的机架塞满 150 万个零件,重量足足有两吨。
它的主干网络,一秒内就能传输相当于整个互联网的流量,刷新全球最快的 token 生成速度。
老黄表示,「一个 1GW 规模的数据中心,大概需要 8000-9000 台这样的机架。这就是未来的 AI 工厂」!
「老黄抛出 5000 亿预言」
「AI 美队再上线」
GPU 是 AI 革命的核心引擎,而 AI 的世界,远不止 ChatGPT。
主题演讲上,老黄亲自科普了 AI 的定义。
一上来,他就给大众认知来了一个降维打击,AI 并不等于聊天机器人。
他将其比作一个数据密集型的「编程」,在 CPU 时代的旧世界,人们手工编码,软件在 CPU 上运行,Windows 主导了一切。
而在当下,机器学习训练,模型直接跑在 GPU 之上。
能源 - GPU - 超算 - 模型 - 应用,全栈的能力构成了完整的 AI。
接下来,老黄还提出了一个对于 AI 的深刻洞察——
过去的软件产业,本质上是在「造工具」,Excel、Word、浏览器皆是工具。
在 IT 领域,这些工具可能就是「数据库」之类的,其市场规模大约在一万亿美元左右。
但 AI 不是工具,是「工人」。事实上,AI 是「会用工具的工人」。
这就是根本性差异。
到目前为止,人类发明的一切东西,本质上都是工具,都是给自己用的。
但这回是历史上头一次,技术自己会「干活」了。
老黄举例道,英伟达每一位工程师都在用 Cursor,生产力得以大幅提升。而 Cursor 使用的工具是 VS Code。
AI 本身也正在成为一个「全新的产业」,当人们把各种形式的信息编程 token 之后,就需要一个「AI 工厂」。
「」
「10x 的性能,1/10 的成本」
「AI 工厂」不同于过去的数据中心,是因为它基本上只做一件事——运行 AI。
一来,生产尽可能有价值、更智能的 token;其次,要用极高的速度将其生产出来。
过去两年,业界让 AI 学会了变得更加聪明的方法,预训练是第一阶段。
下一步就是后训练,再之后就是测试时,让 AI 不断思考(Long Thinking)。
这也是老黄一直以来,反复强调的三大 Scaling Law。
模型越聪明,使用的人越多;用的人越多,需要的算力越多。
与此同时,摩尔定律边际趋缓,仅靠狂堆晶体管,无法解决两条指数曲线带来的「饥饿感」。
那么,摩尔定律已死,又该如何将成本大幅压下来?
老黄给出的答案是:极致协同设计(Extreme Co-design)。
英伟达是当今世界上,唯一一家真正从一张白纸开始,同时思考芯片、系统、软件、模型、应用的公司。
他们的协同设计,将 AI 算力实现了从 Scale up 到 Scale out,再到 Scale across 的扩展。
Grace Blackwell NVL72,一台思考机器,就是英伟达「协同设计」的典型代表。
为了更直观说明,老黄再次上演「芯片版美队」,手里拿着巨型芯片,由 72 块 GPU 无缝互联。
他还调侃道,「下次要演雷神,一伸手,芯片就到手里了」
为了驾驭万亿级参数模型,它采用了 MoE 架构。传统系统受限于 GPU 间互联带宽,一块 GPU 要扛 32 位专家的计算。
在 NVLink 72 架构下,每块 GPU 可以放 4 位专家。
SemiAnalysis 最新基准测试显示,Grace Blackwell 每块 GPU 的性能,是 H200 的十倍。
只多了一倍晶体管,速度却快了十倍,秘诀就在于——极致协同设计。
GB200,这台世界上最昂贵的计算机,却能生成成本最低的 token。
它的极致性能,均摊了每一次计算的总拥有成本(TCO),也就是说——
10 倍性能,十分之一成本。
而此刻,这一突破正逢其时。
老黄展示了,全球六大云巨头的资本支出曲线(CapEx),正以史无前例的速度飙升。
它还联手能源部,官宣未来要建七大全新 AI 超算。
与此同时,老黄还指出,这场变革不是单线的,而是「双平台迁移」。
即通用计算转向加速计算,工具计算转向智能计算。
而英伟达 GPU 是唯一兼容以上所有的架构,包括加速计算和 AI。
最令人震惊是,他预测,截至 2026 年,Blackwell+Rubin 的可预见性收入累计 5000 亿美元。
算上目前已经出货的 600 万块 Blackwell,未来两年将达 2000 万 GPU 出货量,相较于 Hopper 增长 5 倍(400 万块)。
老黄正在释放一种信号——AI 工厂已成新基建。
「」
「开源扛把子,没有弱项」
不仅如此,老黄这场演讲,还在向世界宣告:英伟达不仅是算力之王,更是 AI 生态的绝对核心。
老黄一针见血,「过去几年,开源 AI 在推理、多模态、蒸馏效率三大维度上,实现巨大飞跃」。
正是这些进步,让开源模型第一次真正成为开发者手中非常实用的工具。
全世界,都离不开开源。
为此,英伟达也在全力投入这一方向。目前,他们在全球开源贡献榜上,23 个模型上榜,覆盖了语言、物理 AI、语音、推理等全领域。
我们拥有全球第一的语音模型、第一的推理模型、第一的物理 AI 模型。下载量也非常惊人。
「物理 AI 时代」
「三台计算机铸真神」
当 AI 走向应用最后一层堆栈,那便是物理 AI(Physical AI)。
一直以来,老黄认为,要实现物理 AI,需要三台计算机——
一个是 GPU 超算用于训练,一个通过 Omniverse Computer 用于模拟,另一个是机器人计算机。
以上这三种计算机上都运行着 CUDA,由此才能推动「物理 AI」发展,也就是理解物理世界、物理定律、因果关系的 AI。
目前,英伟达正联手伙伴,打造一个工厂级的物理 AI。一旦建成,就会有大量机器人在数字孪生的世界中工作。
「」
「Robotaxi,也是一种机器人」
在自动驾驶领域,英伟达推出了一套「开箱即用的 L4 级自动驾驶底座」——「DRIVE AGX Hyperion 10。」
它搭载了 NVIDIA DRIVE AGX Thor 系统级芯片、经过安全认证的 NVIDIA DriveOS 操作系统、一套经过完整认证的多模态传感器套件(包含 14 个高清摄像头、9 个雷达、1 个激光雷达和 12 个超声波传感器)以及认证的板卡设计。
- 算力与模型:共有两颗基于 Blackwell 架构的 DRIVE AGX Thor,每颗算力超 2,000 FP4 TFLOPS(1,000 INT8 TOPS),专为 Transformer、VLA 与 GenAI 优化,360° 融合多模态传感器,面向 L4 自动驾驶。
- 迭代与验证:平台可 OTA 升级、兼容现有 AV 软件,并引入 Foretellix Foretify Physical AI 工具链做测试与验证;同时开放全球最大多模态 AV 数据集(1700 小时、25 国),用于基础模型的开发 / 后训练 / 验证。
在数万亿英里真实及合成驾驶数据的加持下,新一代 VLA(视觉 - 语言 - 动作)推理模型,让车辆不只能识别红绿灯,还能在无结构路口或人车行为突变时做出类人判断(比如理解交警临时指挥、突发改道),而且是在车上实时完成。
对于行业来说,公司可以直接拿到可量产的参考架构与数据 / 验证闭环,更快把 Robotaxi 或无人配送车跑起来。
「NVIDIA ARC:用 AI 重新定义 6G 网络」
在通信行业,英伟达则宣布与诺基亚达成合作,并推出了支持 AI 原生 6G 的加速计算平台——Aerial RAN Computer Pro(ARC-Pro)。
- ARC-Pro = AI 基站主机:融合了「连接 + 计算 + 感知」能力的 6G-ready 加速计算平台;运营商未来可以通过软件升级的方式从 5G-Advanced 升到 6G。
- AI-RAN = 无线 + AI 共生:把 AI 推理(如频谱调度、节能控制、用户体验优化)和传统 RAN 处理跑在同一套、由 GPU 加速的软定义基础设施上;同一站点还能顺带承载生成式 / 智能体 AI 的边缘服务,有效利用「基站闲时算力」。
与此同时,英伟达还将以每股 6.01 美元的认购价向诺基亚投资 10 亿美元。
交易宣布后,诺基亚股价收盘上涨 20.86%,创下自 2016 年 1 月下旬以来的新高。
「NVQLink:打通 AI 与量子的融合之路」
在量子计算领域,众所周知,量子计算机的核心「量子比特」(Qubits),虽具备碾压传统计算机的并行计算潜力,但在计算过程会不断产生错误。
为了让它们正常工作,就必须依赖一台传统的超级计算机,通过一条要求严苛的超低延迟、超高吞吐量的连接,实时进行复杂的校准和纠错。
这条连接线,就是量子计算通往现实世界的最大瓶颈。
为此,英伟达推出了一款全新的互连技术——NVQLink,首次将量子处理器与 AI 超级计算机无缝地、紧密地连接在一起,形成一个单一、连贯的超级系统。
- 硬件层:通过 NVQLink,研究人员可以把不同量子路线(超导、离子阱、光子等)的处理器和控制硬件直接接到 GPU 超算上,避免了「绕以太网一大圈」的抖动与时延;同时,连在一起的 GPU 集群还可以继续向外扩展。
- 软件层:通过 CUDA-Q,研究人员可以在同一套编程接口里,把 CPU、GPU、QPU 编排成一台「混合超算」,让仿真、编排、实时控制能够在一个平台里闭环。
- 生态层:集合 9 家美国实验室、17 家量子硬件公司、5 家控制系统公司之力,目标是把**「校准、纠错、混合应用」**做成可复用的「套路」。
正如老黄所说:「NVQLink 是连接量子和经典超级计算机的罗塞塔石碑。它的出现,标志着量子 - GPU 计算时代的正式开启。」
参考资料: