论文Universal Manipulation Interface:让机器人从真实世界人类演示中学习

0 阅读1分钟

论文Universal Manipulation Interface:让机器人从真实世界人类演示中学习

论文标题:Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

论文链接arXiv

作者团队:Cheng Chi, Zhenjia Xu, Chuer Pan(斯坦福大学/哥伦比亚大学), Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake(丰田研究院), Shuran Song(斯坦福大学/哥伦比亚大学)


想象一下:你只需要用一个手持的夹爪和一部 GoPro 相机,就能教会机器人任何复杂的操作技能——从叠衣服到洗碗,从单手操作到双手协作,甚至是从桌面直接把物体"抛"进垃圾桶。这听起来像是科幻,但斯坦福大学和丰田研究院的研究团队已经把它变成了现实。

为什么教机器人这么难?

在机器人学习领域,有一个根本性的问题:怎么让机器人学会人类的操作技能?

传统的做法有两种。第一种是遥操作(Teleoperation):让操作员通过各种设备控制机器人完成演示。这需要昂贵的硬件(空间鼠标、VR 控制器、力反馈设备等),而且需要真实的机器人现场配合,收集数据的成本极高。另一种是直接从互联网视频学习——比如从 YouTube 视频中让机器人模仿人类动作。但这存在巨大的"本体差距"(Embodiment Gap):人类的手和机器人的夹爪结构完全不同,看到的动作很难直接转移到机器人身上。

还有第三种路——使用手持夹爪进行数据收集。之前的工作如 ALOHA、GELLO 等已经证明这种思路的可行性。但问题是:这些方案要么只能做简单的抓取,要么动作精度不够,无法处理需要快速、精细操作的复杂任务。

UMI 团队发现了三个关键瓶颈:

第一,视觉上下文不足。之前的手持设备只用腕部相机,视野太窄,物体经常被手挡住,机器人根本看不清要操作什么。

第二,动作精度不够。很多方案用单目视觉重建(Structure-from-Motion)来恢复动作,但这种方法在快速运动或物体缺乏纹理时会失效,导致动作偏差大。

第三,时延不匹配。人类演示时动作和观察是同步的,但机器人实际执行时,传感器、推理、电机响应都有延迟。如果不处理这个差异,动作就会"对不上"。

第四,策略表示能力不足。之前很多工作用简单的 MLP 直接回归动作,无法捕捉人类演示中复杂的多模态动作分布。

UMI 的核心设计

针对这些问题,UMI 提出了一个完整的数据采集和策略学习框架,包含硬件和策略接口两个层面的创新。

硬件设计:手持夹爪

UMI 的硬件是一个手持的数据采集装置,由三个关键部分组成:

第一,155° 超广角鱼眼镜头。之前的方案视野只有 60-70°,UMI 用了 155° 超广角镜头后,能够看到更大的场景范围,大幅减少物体离开视野的情况。更重要的是,鱼眼镜头直接输出原始图像,不需要校正畸变——如果把 155° 的广角图像"校正"成普通视角,周围区域会被极度拉伸,反而丢失重要信息。

第二,侧边镜子提供隐式立体视觉。没有深度传感器怎么获取深度信息?UMI 在夹爪两侧安装了小镜子,通过主相机同时看到三个视角(左镜、主视角、右镜),形成了"隐式立体视觉"。研究团队还发现,需要对镜子里的图像做数字化镜像(digital reflection),否则左右视角的物体方向是反的,会让策略学习产生混淆。

第三,IMU 辅助的姿态追踪。GoPro 内置了 IMU(惯性测量单元),结合视觉信息进行 SLAM(同时定位与地图构建),即使在快速运动或视觉特征缺失的情况下也能保持追踪。这对于"抛掷"这类需要快速动作的任务至关重要。

UMI 夹爪的硬件成本只有约 370 美元(夹爪 73 美元 + GoPro 298 美元),可以装在任何机械臂上使用。

策略接口:如何让数据变成可部署的策略

有了数据,怎么让它变成机器人能用的策略?UMI 在策略接口层面也做了三个关键设计:

设计一:推理时延匹配(Latency Matching)。之前的工作没有处理训练和推理之间的时延差异,导致动态任务(快速抛掷)效果很差。UMI 的做法是分别测量观察时延(图像、夹爪宽度、末端姿态各有不同时延)和执行时延,然后在推理时做时间对齐——观察数据按实际时延对齐,动作提前发送以补偿执行延迟。

设计二:相对末端姿态表示。之前很多方案用绝对坐标,但野外采集的数据没有世界坐标系。UMI 用"相对轨迹"表示动作:每个动作步骤的末端姿态都是相对于同一个初始姿态。这带来了额外的好处——机器人基座移动也不影响任务执行,因为一切都相对于当前夹爪位置。

设计三: Diffusion Policy。UMI 使用扩散模型来学习动作分布,而不是传统的回归损失。这让它能捕捉人类演示中的多模态行为——比如把杯子放到盘子上,既可以顺时针转也可以逆时针转,两种方式都能成功。

实验结果

研究团队在四个真实机器人任务上全面评估了 UMI:

任务一:杯子排列。把浓缩咖啡杯放到茶托上,杯柄必须朝向左侧。这个任务需要学习"非抓取"动作(推杯子调整方向),而且存在多模态(顺时针或逆时针转都可以)。UMI 在训练数据上达到 20/20 成功率,更惊人的是,同一个策略直接部署到另一款机器人(Franka)上也能达到 90% 成功率(18/20)。

消融实验表明:没有鱼眼镜头只有 55% 成功率,用绝对动作坐标只有 25%,用相对轨迹但不做数字镜像只有 85%——每个设计选择都有明显贡献。

任务二:动态抛掷。把物体从桌面抛进对应的垃圾桶。这需要极快的动作速度和精确的手眼协调。UMI 达到了 87.5% 的成功率,而传统遥操作在 15 分钟内一个成功的演示都收集不到。

任务三:双手布料折叠。用两只手协作把衣服折好。双手协调是机器人操作的老大难问题。UMI 通过"相对夹爪姿态"(PD2.3)来提供双手之间的本体感知信息,最终达到 80-90% 的成功率。没有这个相对姿态信息,成功率只有 30%。

任务四:洗碗。长时序任务,包含开水龙头、拿盘子、用海绵擦洗、冲干净、摆放等多个步骤。这也是 UMI 首次在真实机器人上展示的复杂长时序任务。

泛化能力:真正的亮点

最令人惊讶的是泛化能力。研究团队在多个不同的室内环境(咖啡厅、饮水机旁、实验室)采集数据,然后在一个全新的、未见过的环境中测试。仅仅通过在野外采集多样化数据,不需要任何微调,UMI 达到了 70% 的零样本泛化成功率。相比之下,如果只在实验室采集数据,即使使用同样的预训练视觉骨干网络,泛化成功率是 0%——机器人甚至不会朝杯子移动。

这说明:大规模、多样化的野外数据才是泛化的关键,而不仅仅是预训练视觉模型。

数据采集效率

UME 的数据采集速度也远超传统遥操作。在 15 分钟内,UMI 可以收集 48 次杯子排列演示,是传统遥操作(SpaceMouse)的 3 倍以上,达到人类直接用手演示速度的 48%。对于动态抛掷任务,传统遥操作根本无法采集数据,而 UMI 能达到人类速度的 64%。

SLAM 追踪精度方面,UMI 的平均轨迹误差(ATE)为 6.1mm(位置)和 3.5°(旋转),双手相对位置误差为 10.1mm。

核心洞见

读完整篇论文,我觉得最核心的洞见是:数据和策略的表示方式决定了泛化能力的上限

之前的工作过度依赖"在实验室里用遥操作精细采集少量高质量数据"这条路径。但 UMI 证明了另一条路可行——用低成本设备在各种真实环境中快速采集大量多样化数据,配合合适的策略表示(相对轨迹、扩散模型、时延匹配),可以实现零样本泛化到全新环境。

这其实反映了机器人学习领域的一个范式转变:从"精耕细作"到"大规模采集"。就像计算机视觉领域从 ImageNet 到 LAION-400M 的跨越,机器人操作也需要从"小规模、高质量、实验室数据"走向"大规模、多样化、野外数据"。

局限性

UMI 也有几个局限性。首先,依赖视觉 SLAM 的纹理要求,在纯白色墙面等低纹理环境可能失效。其次,数据采集效率仍然低于人类直接用手(只有 48-64%),夹爪的重量和体积是瓶颈。最后,目前的数据筛选是后处理的,无法在采集时实时判断动作是否对特定机器人可行。

总结

UMI(Universal Manipulation Interface)为机器人操作的数据采集提供了一个全新的范式:用手持夹爪 + GoPro 在任何环境中采集人类演示,然后直接部署到不同机器人上。核心贡献包括:

  • 低成本(~370 美元)、便携的数据采集硬件
  • 鱼眼镜头 + 侧边镜子的视觉系统设计
  • 推理时延匹配和相对轨迹动作表示
  • Diffusion Policy 建模多模态动作分布
  • 首次展示野外数据采集 + 零样本泛化的完整流程

论文相关资源已开源:umi-gripper.github.io