为了使人形机器人具备实用性,它们需要具备在动态环境中跨越感知、规划和全身控制的认知与运动操作能力。
构建这类通才机器人需要一个统一仿真、控制与学习的工作流,使机器人在迁移到现实世界之前能够习得复杂技能。
本文介绍某机构Isaac GR00T N1.6,并描述一种模拟到现实的工作流,该工作流结合了某机构Isaac Lab中的全身强化学习、基于COMPASS合成数据训练导航,以及使用某机构CUDA加速视觉建图与即时定位与地图构建的视觉定位技术。
这些组件使机器人能够在不同形态上实现运动操作、鲁棒导航和环境感知行为。
视觉-语言-行动与推理
GR00T N1.6是一种多模态视觉-语言-行动模型,它将来自第一人称摄像头流的视觉观测、机器人状态和自然语言指令整合到一个统一的策略表示中。该模型使用世界模型(如某机构Cosmos Reason)将高级指令分解为基于场景理解的逐步行动规划,以执行现实世界任务。这种架构使GR00T能够通过端到端学习的表征来执行运动与灵巧操作。
GR00T N1.6相比先前版本引入了多项增强功能,扩展了其能力和现实世界的适用性:
- 增强的推理与感知:使用支持原生分辨率的Cosmos-Reason-2B VLM变体,使机器人能够无失真地“看清”环境,并更好地推理周围环境。这一改进转化为更好的场景理解和更可靠的任务分解。
- 流畅的自适应运动:扩大2倍的扩散Transformer(32层)和状态相关的行动预测,实现了更平滑、抖动更少的运动,并能轻松适应不断变化的位置。
- 改进的跨形态性能:在数千小时新的多样化遥操作数据(人形机器人、移动操作臂、双臂)上训练,能够更好地泛化到各种机器人形态。
GR00T N1.6在多种数据集上训练,包括仿真数据和真实世界数据。仿真数据包括来自BEHAVIOR、RoboCasa以及为GR-1开发的定制仿真环境中的环境和任务演示。真实世界部分整合了在多种机器人平台上收集的演示,包括GR-1、G1、双臂YAM机械臂、Agibot以及DROID数据集。
图1:Isaac GR00T N1.6的训练数据分布。
GR00T N1.6包含了用于零样本评估和基本操作原语验证的预训练权重。当部署到特定形态或任务时,对模型进行微调是有益的。
全身强化学习训练与模拟到现实迁移
仿真中的全身强化学习训练提供了底层的运动智能,GR00T N1.6通过其更高层的VLA策略使用和协调这些智能。在Isaac Lab中使用强化学习训练出的全身控制器能产生类似人类的、动态稳定的运动基元,涵盖运动、操作和协调的多接触行为。
这些策略在Isaac Lab和Isaac Sim中进行大规模训练和压力测试,然后零样本迁移到物理人形机器人上,在最小化任务特定微调的同时,保持跨环境和形态的鲁棒性。这种模拟到现实的流程使GR00T的高层VLA能够依赖可靠的全身控制,将其推理集中在任务序列化和场景感知决策上,而非原始的运动稳定性。
GR00T-WholeBodyControl作为全身控制器,提供了GR00T N1.6底层的运动操作层。使用该控制器,整个技术栈——涵盖高层指令跟随、中层行为组合和底层鲁棒控制——在部署到硬件之前都会在仿真中得到验证。
基于合成数据训练的导航
为了在全身控制之上叠加目标导向的导航能力,GR00T N1.6使用由Isaac Lab中的COMPASS生成的大规模合成数据集进行点对点导航的微调。在这种设置下,COMPASS作为导航专家,生成跨场景和机器人形态的多样化轨迹,用于将GR00T从VLA模型适配为强大的点导航策略。
导航策略在仿真中训练,并通过简单的速度指令暴露给全身控制器,而不是直接产生关节扭矩。这使得底层的全身强化学习策略能够处理平衡和接触,而导航头则专注于现实场景中的避障、路径跟踪以及导航-操作交接。在实验中,这种纯合成训练流程实现了零样本的模拟到现实迁移,包括零样本部署到新的物理环境,而无需额外的任务特定数据收集。
COMPASS是一种新颖的工作流,通过整合模仿学习、残余强化学习和策略蒸馏来开发跨形态移动策略。它已经证明了使用Isaac Lab进行强化学习微调的有效性和强大的零样本模拟到现实性能。
图2:使用COMPASS工作流的GR1机器人。
在此基础上,GR00T N1.6 PointNav示例发布版提供了使用COMPASS生成的数据进行导航策略微调和评估的分步说明和代码,以便实践者可以为其自身的形态和场景复现和扩展该导航技术栈。
基于视觉的定位
基于视觉的定位使GR00T N1.6技术栈能够在大型真实世界环境中使用其全身控制器和导航策略。在全身强化学习赋予机器人鲁棒的运动操作技能,以及COMPASS风格的合成数据微调GR00T用于点对点导航之后,系统仍然需要精确估计机器人的位置,以便指令和路径点对应真实的坐标。
为此,一个以视觉为中心的建图与定位技术栈使用机载摄像头和预建地图来维持低漂移的姿态估计,使机器人指令能够基于精确的机器人和物体坐标。
该视觉建图与定位技术栈构建于某机构Isaac、某机构CUDA-X库以及以下立体深度模型之上:
- cuVSLAM:一个实时的视觉-惯性SLAM和里程计库。其里程计提供平滑的车辆速度,其后端SLAM通过闭环校正产生低漂移姿态用于导航。
- cuVGL:一个视觉全局定位库,用于在预建地图中计算初始姿态,该姿态用于引导cuVSLAM。
- FoundationStereo:一个用于立体深度估计的基础模型,在多样化环境中具有强大的零样本泛化能力。
- nvblox:一个高效的3D感知库,用于重建环境并生成用于路径规划的2D占用网格地图。
收集环境的立体图像并预建地图,包括cuVSLAM地标地图、cuVGL词袋地图和占用网格地图。语义位置(如厨房桌子)在占用网格地图中被识别并用于任务规划。
在运行时,cuVGL从预建地图中检索视觉相似的图像对,并从立体图像对中估计初始姿态。以该姿态为先验,cuVSLAM将局部地标与预建地标地图匹配以进行定位。成功定位后,cuVSLAM连续跟踪特征并执行基于地图的优化,在导航过程中保持机器人精确定位。
开发了一个在Isaac ROS中的离线地图创建工作流,用于从ROS包中创建地图,以及用于定位的isaac_ros_visual_slam和isaac_ros_visual_global_localization包。可以使用立体相机驱动、图像校正节点、占用网格地图服务器、cuVSLAM和cuVGL节点在ROS2中创建定位流程。
图3:机器人捡起苹果时的cuVSLAM特征跟踪。
开始使用
- 下载与实验:
- 从Hugging Face打开Isaac GR00T N1.6模型
- 在BEHAVIOR 1K数据集上后训练的GR00T N1.6变体
- 使用Isaac Lab和Newton进行强化学习和策略训练,以及使用Isaac Lab通过COMPASS生成合成导航数据
- 使用Isaac Lab – Arena进行机器人策略评估
- 使用作为Isaac ROS一部分发布的CUDA-X视觉建图与定位库:
- 从校正后的立体图像创建视觉和占用网格地图
- 启动cuVSLAM和cuVGL,使用生成的地图定位机器人FINISHED