Ray Summit 2025：数据最大化，模型最小化，Jim Fan揭示英伟达的机器人训练之道在 Ray Summit

在 Ray Summit 2025峰会上，NVIDIA 研究科学家 Jim Fan 带来了一个关于 “物理AI图灵测试(Physical AI Turing Test)” 的演讲。他认为，当人工智能已经能够处理任何可以被简化为字符串序列的任务——从下棋、打游戏到赢得诺贝尔奖。AI 的下一个，或许也是最后一个宏伟挑战，将不再是数字世界的智力游戏，而是回归我们身边的物理世界。

演讲中，Jim Fan 不仅清晰地剖析了为何实现这一目标如此艰难（核心在于数据匮乏），更系统地揭示了 NVIDIA 为攻克这一难题所设计的蓝图：一个“数据最大化，模型最小化”的策略，其核心动力源自于“核燃料”般的合成数据。

演讲者背景

Jim Fan，NVIDIA的董事兼杰出研究科学家。作为全球顶尖 AI 公司在前沿研究领域的关键人物，他正致力于推动机器人技术从简单的机械系统，迈向能够学习和适应真实世界的智能体，其研究工作在物理人工智能领域具有权威影响力。

演讲核心内容

AI 的终极挑战：物理图灵测试

Jim Fan 以一个生动的思想实验开场：想象一下，你周日办派对把房子弄得一团糟，周一出门上班，晚上回家时却发现房间窗明几净，甚至还有一顿烛光晚餐等着你，而你完全无法判断这是人类还是机器人所为。这就是“物理图灵测试”。它看似平凡，却对 AI 在混乱、不可预测的物理世界中执行任务的能力提出了终极考验。

为什么这如此困难？Jim Fan 指出，与拥有整个互联网作为“化石燃料”的语言模型不同，机器人领域极度缺乏高质量的训练数据。通过人类操作员佩戴 VR 设备远程控制机器人（即“遥操作”）来收集数据，效率极低且不具备规模化的可能，这成为了机器人发展的核心瓶颈。

数据策略：“核燃料”将驱动机器人革命

为了解决数据困境，Jim Fan 提出了一个“数据金字塔”模型，并给出了 NVIDIA 的答案：合成数据。

金字塔顶端 - 人类燃料（Real Data）： 通过遥操作收集的真实数据。质量高，但极其有限。
金字塔底部 - 化石燃料（Web Data）： 互联网上的海量文本和图片，可用于预训练模型的通用知识和推理能力。
金字塔中间 - 核燃料（Synthetic Data）： 这正是 NVIDIA 的战略核心。它原则上是无限的，通过大规模并行仿真生成，用计算换数据。Jim Fan 将其称为驱动下一代机器人革命的“核能”。

“核反应堆”的构建：从数字孪生到神经物理引擎

如何生成这些“核燃料”？Jim Fan 展示了一条清晰的技术演进路径。

仿真 1.0 - 数字孪生（Digital Twins）： 通过为机器人和环境创建一比一的精确复制品，在仿真环境中进行强化学习训练。例如，NVIDIA 的 Eureka 技术让机器手在仿真中学会了转笔，并通过“域随机化”（Domain Randomization）技术——即在成千上万个仿真环境中改变重力、摩擦力等物理参数——使得模型能够成功迁移到现实世界，实现“零样本”执行。在 Isaac Lab 仿真平台上，NVIDIA 能在短短两小时内完成人形机器人长达十年的训练量。

仿真 2.0 - 神经物理引擎（Neurophysics Engines）： 这是更进一步的革命。它不再依赖工程师手动创建仿真世界，而是利用生成式 AI 自动构建。

程序化内容生成： 通过 Robocassa 这样的开源引擎，利用文生 3D、扩散模型等技术，程序化地生成无穷无尽、细节丰富的室内训练场景。

视频世界模型（Groot Dreams）： 这项技术堪称“黑科技”。NVIDIA 利用在海量视频上预训练的基础模型，再结合机器人收集的真实数据进行微调，让模型化身为一个“神经模拟器”。只需给定一个初始画面和一句语言指令（如“把苹果放到盘子里”），该模型就能“梦”出（即生成）一条物理上看似可信的、机器人执行该任务的未来视频。这个过程完全基于学习，无需传统的光线追踪或物理引擎，因此可以处理流体、软体等极其复杂的场景，生成数百万条“神经轨迹”用于训练。

模型策略：数据最大化，模型最小化

在构建了如此庞大的数据生产线后，Jim Fan 揭示了 NVIDIA 的模型哲学： “数据最大化，模型最小化”（Data Maximalist and Model Minimalist）。 他们认为，模型的任务是高效压缩数据管道产生的海量信息，而非追求自身的过度复杂。

NVIDIA 的 Groot N-1 就是这一理念的产物。这是一个 20 亿参数的视觉-语言-动作（VLA）基础模型，其架构受“思考，快与慢”理论启发：

系统二（慢思考）： 一个视觉语言模型（VLM），负责进行缓慢、审慎的推理和理解语言指令。
系统一（快思考）： 一个扩散模型，负责快速、反应式地生成连续的机器人动作指令。

终极愿景：物理 API 与技能经济

所有这些努力的最终目标是什么？Jim Fan 展望，随着物理 AI 的成熟，世界将迎来“物理 API”（Physical API）的诞生。这将是人类历史上首次拥有一个程序化接口，用以重构原子世界。

一旦物理 API 实现，所有在数字 AI 代理上应用的概念，如提示工程（Prompting）、多智能体协作等，都将无缝迁移到机器人领域。这将催生一个全新的“物理技能经济”（Physical Skill Economy），一个类似应用商店的平台，任何人都可以下载和使用由所有人类灵巧汇聚而成的机器人技能，并最终实现可编程化的工厂和自动化科学实验室。

小结

Jim Fan 的演讲为我们描绘了一幅通往通用物理智能的路线图，其核心论点是：解决机器人难题的关键，在于采用“数据最大化，模型最小化”的策略，通过整合真实数据、数字孪生仿真和神经物理引擎产生的海量合成数据，来训练一个相对简洁但反应迅速的 VLA 模型。

演讲最后，Jim Fan 畅想，在不远的未来，当我们从工作中回到家，机器人将悄无声息地处理掉所有家务，让我们能把时间留给家人和爱人。那个我们最终解决了物理图灵测试的日子，将不会被历史铭记为一个惊天动地的时刻，它或许只是一个平平无奇的“星期二”。

欢迎关注公众号“AI观读记”并持续获取AI前沿进展跟踪和解读。