论文Universal Manipulation Interface:让机器人从真实世界人类演示中学习
论文标题:Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
论文链接:arXiv
作者团队:Cheng Chi, Zhenjia Xu, Chuer Pan(斯坦福大学/哥伦比亚大学), Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake(丰田研究院), Shuran Song(斯坦福大学/哥伦比亚大学)
想象一下:你只需要用一个手持的夹爪和一部 GoPro 相机,就能教会机器人任何复杂的操作技能——从叠衣服到洗碗,从单手操作到双手协作,甚至是从桌面直接把物体"抛"进垃圾桶。这听起来像是科幻,但斯坦福大学和丰田研究院的研究团队已经把它变成了现实。
为什么教机器人这么难?
在机器人学习领域,有一个根本性的问题:怎么让机器人学会人类的操作技能?
传统的做法有两种。第一种是遥操作(Teleoperation):让操作员通过各种设备控制机器人完成演示。这需要昂贵的硬件(空间鼠标、VR 控制器、力反馈设备等),而且需要真实的机器人现场配合,收集数据的成本极高。另一种是直接从互联网视频学习——比如从 YouTube 视频中让机器人模仿人类动作。但这存在巨大的"本体差距"(Embodiment Gap):人类的手和机器人的夹爪结构完全不同,看到的动作很难直接转移到机器人身上。
还有第三种路——使用手持夹爪进行数据收集。之前的工作如 ALOHA、GELLO 等已经证明这种思路的可行性。但问题是:这些方案要么只能做简单的抓取,要么动作精度不够,无法处理需要快速、精细操作的复杂任务。
UMI 团队发现了三个关键瓶颈:
第一,视觉上下文不足。之前的手持设备只用腕部相机,视野太窄,物体经常被手挡住,机器人根本看不清要操作什么。
第二,动作精度不够。很多方案用单目视觉重建(Structure-from-Motion)来恢复动作,但这种方法在快速运动或物体缺乏纹理时会失效,导致动作偏差大。
第三,时延不匹配。人类演示时动作和观察是同步的,但机器人实际执行时,传感器、推理、电机响应都有延迟。如果不处理这个差异,动作就会"对不上"。
第四,策略表示能力不足。之前很多工作用简单的 MLP 直接回归动作,无法捕捉人类演示中复杂的多模态动作分布。
UMI 的核心设计
针对这些问题,UMI 提出了一个完整的数据采集和策略学习框架,包含硬件和策略接口两个层面的创新。
硬件设计:手持夹爪
UMI 的硬件是一个手持的数据采集装置,由三个关键部分组成:
第一,155° 超广角鱼眼镜头。之前的方案视野只有 60-70°,UMI 用了 155° 超广角镜头后,能够看到更大的场景范围,大幅减少物体离开视野的情况。更重要的是,鱼眼镜头直接输出原始图像,不需要校正畸变——如果把 155° 的广角图像"校正"成普通视角,周围区域会被极度拉伸,反而丢失重要信息。
第二,侧边镜子提供隐式立体视觉。没有深度传感器怎么获取深度信息?UMI 在夹爪两侧安装了小镜子,通过主相机同时看到三个视角(左镜、主视角、右镜),形成了"隐式立体视觉"。研究团队还发现,需要对镜子里的图像做数字化镜像(digital reflection),否则左右视角的物体方向是反的,会让策略学习产生混淆。
第三,IMU 辅助的姿态追踪。GoPro 内置了 IMU(惯性测量单元),结合视觉信息进行 SLAM(同时定位与地图构建),即使在快速运动或视觉特征缺失的情况下也能保持追踪。这对于"抛掷"这类需要快速动作的任务至关重要。
UMI 夹爪的硬件成本只有约 370 美元(夹爪 73 美元 + GoPro 298 美元),可以装在任何机械臂上使用。
策略接口:如何让数据变成可部署的策略
有了数据,怎么让它变成机器人能用的策略?UMI 在策略接口层面也做了三个关键设计:
设计一:推理时延匹配(Latency Matching)。之前的工作没有处理训练和推理之间的时延差异,导致动态任务(快速抛掷)效果很差。UMI 的做法是分别测量观察时延(图像、夹爪宽度、末端姿态各有不同时延)和执行时延,然后在推理时做时间对齐——观察数据按实际时延对齐,动作提前发送以补偿执行延迟。
设计二:相对末端姿态表示。之前很多方案用绝对坐标,但野外采集的数据没有世界坐标系。UMI 用"相对轨迹"表示动作:每个动作步骤的末端姿态都是相对于同一个初始姿态。这带来了额外的好处——机器人基座移动也不影响任务执行,因为一切都相对于当前夹爪位置。
设计三: Diffusion Policy。UMI 使用扩散模型来学习动作分布,而不是传统的回归损失。这让它能捕捉人类演示中的多模态行为——比如把杯子放到盘子上,既可以顺时针转也可以逆时针转,两种方式都能成功。
实验结果
研究团队在四个真实机器人任务上全面评估了 UMI:
任务一:杯子排列。把浓缩咖啡杯放到茶托上,杯柄必须朝向左侧。这个任务需要学习"非抓取"动作(推杯子调整方向),而且存在多模态(顺时针或逆时针转都可以)。UMI 在训练数据上达到 20/20 成功率,更惊人的是,同一个策略直接部署到另一款机器人(Franka)上也能达到 90% 成功率(18/20)。
消融实验表明:没有鱼眼镜头只有 55% 成功率,用绝对动作坐标只有 25%,用相对轨迹但不做数字镜像只有 85%——每个设计选择都有明显贡献。
任务二:动态抛掷。把物体从桌面抛进对应的垃圾桶。这需要极快的动作速度和精确的手眼协调。UMI 达到了 87.5% 的成功率,而传统遥操作在 15 分钟内一个成功的演示都收集不到。
任务三:双手布料折叠。用两只手协作把衣服折好。双手协调是机器人操作的老大难问题。UMI 通过"相对夹爪姿态"(PD2.3)来提供双手之间的本体感知信息,最终达到 80-90% 的成功率。没有这个相对姿态信息,成功率只有 30%。
任务四:洗碗。长时序任务,包含开水龙头、拿盘子、用海绵擦洗、冲干净、摆放等多个步骤。这也是 UMI 首次在真实机器人上展示的复杂长时序任务。
泛化能力:真正的亮点
最令人惊讶的是泛化能力。研究团队在多个不同的室内环境(咖啡厅、饮水机旁、实验室)采集数据,然后在一个全新的、未见过的环境中测试。仅仅通过在野外采集多样化数据,不需要任何微调,UMI 达到了 70% 的零样本泛化成功率。相比之下,如果只在实验室采集数据,即使使用同样的预训练视觉骨干网络,泛化成功率是 0%——机器人甚至不会朝杯子移动。
这说明:大规模、多样化的野外数据才是泛化的关键,而不仅仅是预训练视觉模型。
数据采集效率
UME 的数据采集速度也远超传统遥操作。在 15 分钟内,UMI 可以收集 48 次杯子排列演示,是传统遥操作(SpaceMouse)的 3 倍以上,达到人类直接用手演示速度的 48%。对于动态抛掷任务,传统遥操作根本无法采集数据,而 UMI 能达到人类速度的 64%。
SLAM 追踪精度方面,UMI 的平均轨迹误差(ATE)为 6.1mm(位置)和 3.5°(旋转),双手相对位置误差为 10.1mm。
核心洞见
读完整篇论文,我觉得最核心的洞见是:数据和策略的表示方式决定了泛化能力的上限。
之前的工作过度依赖"在实验室里用遥操作精细采集少量高质量数据"这条路径。但 UMI 证明了另一条路可行——用低成本设备在各种真实环境中快速采集大量多样化数据,配合合适的策略表示(相对轨迹、扩散模型、时延匹配),可以实现零样本泛化到全新环境。
这其实反映了机器人学习领域的一个范式转变:从"精耕细作"到"大规模采集"。就像计算机视觉领域从 ImageNet 到 LAION-400M 的跨越,机器人操作也需要从"小规模、高质量、实验室数据"走向"大规模、多样化、野外数据"。
局限性
UMI 也有几个局限性。首先,依赖视觉 SLAM 的纹理要求,在纯白色墙面等低纹理环境可能失效。其次,数据采集效率仍然低于人类直接用手(只有 48-64%),夹爪的重量和体积是瓶颈。最后,目前的数据筛选是后处理的,无法在采集时实时判断动作是否对特定机器人可行。
总结
UMI(Universal Manipulation Interface)为机器人操作的数据采集提供了一个全新的范式:用手持夹爪 + GoPro 在任何环境中采集人类演示,然后直接部署到不同机器人上。核心贡献包括:
- 低成本(~370 美元)、便携的数据采集硬件
- 鱼眼镜头 + 侧边镜子的视觉系统设计
- 推理时延匹配和相对轨迹动作表示
- Diffusion Policy 建模多模态动作分布
- 首次展示野外数据采集 + 零样本泛化的完整流程
论文相关资源已开源:umi-gripper.github.io