Ray Summit 2025:数据最大化,模型最小化,Jim Fan揭示英伟达的机器人训练之道

132 阅读6分钟

在 Ray Summit 2025峰会上,NVIDIA 研究科学家 Jim Fan 带来了一个关于 “物理AI图灵测试(Physical AI Turing Test)” 的演讲。他认为,当人工智能已经能够处理任何可以被简化为字符串序列的任务——从下棋、打游戏到赢得诺贝尔奖。AI 的下一个,或许也是最后一个宏伟挑战,将不再是数字世界的智力游戏,而是回归我们身边的物理世界。

演讲中,Jim Fan 不仅清晰地剖析了为何实现这一目标如此艰难(核心在于数据匮乏),更系统地揭示了 NVIDIA 为攻克这一难题所设计的蓝图:一个“数据最大化,模型最小化”的策略,其核心动力源自于“核燃料”般的合成数据。

演讲者背景

Jim Fan,NVIDIA的董事兼杰出研究科学家。作为全球顶尖 AI 公司在前沿研究领域的关键人物,他正致力于推动机器人技术从简单的机械系统,迈向能够学习和适应真实世界的智能体,其研究工作在物理人工智能领域具有权威影响力。

演讲核心内容

AI 的终极挑战:物理图灵测试

Jim Fan 以一个生动的思想实验开场:想象一下,你周日办派对把房子弄得一团糟,周一出门上班,晚上回家时却发现房间窗明几净,甚至还有一顿烛光晚餐等着你,而你完全无法判断这是人类还是机器人所为。这就是“物理图灵测试”。它看似平凡,却对 AI 在混乱、不可预测的物理世界中执行任务的能力提出了终极考验。

为什么这如此困难?Jim Fan 指出,与拥有整个互联网作为“化石燃料”的语言模型不同,机器人领域极度缺乏高质量的训练数据。通过人类操作员佩戴 VR 设备远程控制机器人(即“遥操作”)来收集数据,效率极低且不具备规模化的可能,这成为了机器人发展的核心瓶颈。

数据策略:“核燃料”将驱动机器人革命

为了解决数据困境,Jim Fan 提出了一个“数据金字塔”模型,并给出了 NVIDIA 的答案:合成数据。

  • 金字塔顶端 - 人类燃料(Real Data): 通过遥操作收集的真实数据。质量高,但极其有限。
  • 金字塔底部 - 化石燃料(Web Data): 互联网上的海量文本和图片,可用于预训练模型的通用知识和推理能力。
  • 金字塔中间 - 核燃料(Synthetic Data): 这正是 NVIDIA 的战略核心。它原则上是无限的,通过大规模并行仿真生成,用计算换数据。Jim Fan 将其称为驱动下一代机器人革命的“核能”。

“核反应堆”的构建:从数字孪生到神经物理引擎

如何生成这些“核燃料”?Jim Fan 展示了一条清晰的技术演进路径。

仿真 1.0 - 数字孪生(Digital Twins): 通过为机器人和环境创建一比一的精确复制品,在仿真环境中进行强化学习训练。例如,NVIDIA 的 Eureka 技术让机器手在仿真中学会了转笔,并通过“域随机化”(Domain Randomization)技术——即在成千上万个仿真环境中改变重力、摩擦力等物理参数——使得模型能够成功迁移到现实世界,实现“零样本”执行。在 Isaac Lab 仿真平台上,NVIDIA 能在短短两小时内完成人形机器人长达十年的训练量。


仿真 2.0 - 神经物理引擎(Neurophysics Engines): 这是更进一步的革命。它不再依赖工程师手动创建仿真世界,而是利用生成式 AI 自动构建。

  • 程序化内容生成: 通过 Robocassa 这样的开源引擎,利用文生 3D、扩散模型等技术,程序化地生成无穷无尽、细节丰富的室内训练场景。

  • 视频世界模型(Groot Dreams): 这项技术堪称“黑科技”。NVIDIA 利用在海量视频上预训练的基础模型,再结合机器人收集的真实数据进行微调,让模型化身为一个“神经模拟器”。只需给定一个初始画面和一句语言指令(如“把苹果放到盘子里”),该模型就能“梦”出(即生成)一条物理上看似可信的、机器人执行该任务的未来视频。这个过程完全基于学习,无需传统的光线追踪或物理引擎,因此可以处理流体、软体等极其复杂的场景,生成数百万条“神经轨迹”用于训练。

模型策略:数据最大化,模型最小化

在构建了如此庞大的数据生产线后,Jim Fan 揭示了 NVIDIA 的模型哲学: “数据最大化,模型最小化”(Data Maximalist and Model Minimalist)。 他们认为,模型的任务是高效压缩数据管道产生的海量信息,而非追求自身的过度复杂。

NVIDIA 的 Groot N-1 就是这一理念的产物。这是一个 20 亿参数的视觉-语言-动作(VLA)基础模型,其架构受“思考,快与慢”理论启发 :

  • 系统二(慢思考): 一个视觉语言模型(VLM),负责进行缓慢、审慎的推理和理解语言指令。
  • 系统一(快思考): 一个扩散模型,负责快速、反应式地生成连续的机器人动作指令。

终极愿景:物理 API 与技能经济

所有这些努力的最终目标是什么?Jim Fan 展望,随着物理 AI 的成熟,世界将迎来“物理 API”(Physical API)的诞生。这将是人类历史上首次拥有一个程序化接口,用以重构原子世界。

一旦物理 API 实现,所有在数字 AI 代理上应用的概念,如提示工程(Prompting)、多智能体协作等,都将无缝迁移到机器人领域。这将催生一个全新的“物理技能经济”(Physical Skill Economy),一个类似应用商店的平台,任何人都可以下载和使用由所有人类灵巧汇聚而成的机器人技能,并最终实现可编程化的工厂和自动化科学实验室。

小结

Jim Fan 的演讲为我们描绘了一幅通往通用物理智能的路线图,其核心论点是:解决机器人难题的关键,在于采用“数据最大化,模型最小化”的策略,通过整合真实数据、数字孪生仿真和神经物理引擎产生的海量合成数据,来训练一个相对简洁但反应迅速的 VLA 模型。

演讲最后,Jim Fan 畅想,在不远的未来,当我们从工作中回到家,机器人将悄无声息地处理掉所有家务,让我们能把时间留给家人和爱人。那个我们最终解决了物理图灵测试的日子,将不会被历史铭记为一个惊天动地的时刻,它或许只是一个平平无奇的“星期二”。

欢迎关注公众号“AI观读记”并持续获取AI前沿进展跟踪和解读

图片