论文Universal Manipulation Interface：让机器人从真实世界人类演示中学习由于掘金平台的摘要

论文Universal Manipulation Interface：让机器人从真实世界人类演示中学习

论文标题：Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

论文链接：arXiv

作者团队：Cheng Chi, Zhenjia Xu, Chuer Pan（斯坦福大学/哥伦比亚大学）, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake（丰田研究院）, Shuran Song（斯坦福大学/哥伦比亚大学）

想象一下：你只需要用一个手持的夹爪和一部 GoPro 相机，就能教会机器人任何复杂的操作技能——从叠衣服到洗碗，从单手操作到双手协作，甚至是从桌面直接把物体"抛"进垃圾桶。这听起来像是科幻，但斯坦福大学和丰田研究院的研究团队已经把它变成了现实。

为什么教机器人这么难？

在机器人学习领域，有一个根本性的问题：怎么让机器人学会人类的操作技能？

传统的做法有两种。第一种是遥操作（Teleoperation）：让操作员通过各种设备控制机器人完成演示。这需要昂贵的硬件（空间鼠标、VR 控制器、力反馈设备等），而且需要真实的机器人现场配合，收集数据的成本极高。另一种是直接从互联网视频学习——比如从 YouTube 视频中让机器人模仿人类动作。但这存在巨大的"本体差距"（Embodiment Gap）：人类的手和机器人的夹爪结构完全不同，看到的动作很难直接转移到机器人身上。

还有第三种路——使用手持夹爪进行数据收集。之前的工作如 ALOHA、GELLO 等已经证明这种思路的可行性。但问题是：这些方案要么只能做简单的抓取，要么动作精度不够，无法处理需要快速、精细操作的复杂任务。

UMI 团队发现了三个关键瓶颈：

第一，视觉上下文不足。之前的手持设备只用腕部相机，视野太窄，物体经常被手挡住，机器人根本看不清要操作什么。

第二，动作精度不够。很多方案用单目视觉重建（Structure-from-Motion）来恢复动作，但这种方法在快速运动或物体缺乏纹理时会失效，导致动作偏差大。

第三，时延不匹配。人类演示时动作和观察是同步的，但机器人实际执行时，传感器、推理、电机响应都有延迟。如果不处理这个差异，动作就会"对不上"。

第四，策略表示能力不足。之前很多工作用简单的 MLP 直接回归动作，无法捕捉人类演示中复杂的多模态动作分布。

UMI 的核心设计

针对这些问题，UMI 提出了一个完整的数据采集和策略学习框架，包含硬件和策略接口两个层面的创新。

硬件设计：手持夹爪

UMI 的硬件是一个手持的数据采集装置，由三个关键部分组成：

第一，155° 超广角鱼眼镜头。之前的方案视野只有 60-70°，UMI 用了 155° 超广角镜头后，能够看到更大的场景范围，大幅减少物体离开视野的情况。更重要的是，鱼眼镜头直接输出原始图像，不需要校正畸变——如果把 155° 的广角图像"校正"成普通视角，周围区域会被极度拉伸，反而丢失重要信息。

第二，侧边镜子提供隐式立体视觉。没有深度传感器怎么获取深度信息？UMI 在夹爪两侧安装了小镜子，通过主相机同时看到三个视角（左镜、主视角、右镜），形成了"隐式立体视觉"。研究团队还发现，需要对镜子里的图像做数字化镜像（digital reflection），否则左右视角的物体方向是反的，会让策略学习产生混淆。

第三，IMU 辅助的姿态追踪。GoPro 内置了 IMU（惯性测量单元），结合视觉信息进行 SLAM（同时定位与地图构建），即使在快速运动或视觉特征缺失的情况下也能保持追踪。这对于"抛掷"这类需要快速动作的任务至关重要。

UMI 夹爪的硬件成本只有约 370 美元（夹爪 73 美元 + GoPro 298 美元），可以装在任何机械臂上使用。

策略接口：如何让数据变成可部署的策略

有了数据，怎么让它变成机器人能用的策略？UMI 在策略接口层面也做了三个关键设计：

设计一：推理时延匹配（Latency Matching）。之前的工作没有处理训练和推理之间的时延差异，导致动态任务（快速抛掷）效果很差。UMI 的做法是分别测量观察时延（图像、夹爪宽度、末端姿态各有不同时延）和执行时延，然后在推理时做时间对齐——观察数据按实际时延对齐，动作提前发送以补偿执行延迟。

设计二：相对末端姿态表示。之前很多方案用绝对坐标，但野外采集的数据没有世界坐标系。UMI 用"相对轨迹"表示动作：每个动作步骤的末端姿态都是相对于同一个初始姿态。这带来了额外的好处——机器人基座移动也不影响任务执行，因为一切都相对于当前夹爪位置。

设计三： Diffusion Policy。UMI 使用扩散模型来学习动作分布，而不是传统的回归损失。这让它能捕捉人类演示中的多模态行为——比如把杯子放到盘子上，既可以顺时针转也可以逆时针转，两种方式都能成功。

实验结果

研究团队在四个真实机器人任务上全面评估了 UMI：

任务一：杯子排列。把浓缩咖啡杯放到茶托上，杯柄必须朝向左侧。这个任务需要学习"非抓取"动作（推杯子调整方向），而且存在多模态（顺时针或逆时针转都可以）。UMI 在训练数据上达到 20/20 成功率，更惊人的是，同一个策略直接部署到另一款机器人（Franka）上也能达到 90% 成功率（18/20）。

消融实验表明：没有鱼眼镜头只有 55% 成功率，用绝对动作坐标只有 25%，用相对轨迹但不做数字镜像只有 85%——每个设计选择都有明显贡献。

任务二：动态抛掷。把物体从桌面抛进对应的垃圾桶。这需要极快的动作速度和精确的手眼协调。UMI 达到了 87.5% 的成功率，而传统遥操作在 15 分钟内一个成功的演示都收集不到。

任务三：双手布料折叠。用两只手协作把衣服折好。双手协调是机器人操作的老大难问题。UMI 通过"相对夹爪姿态"（PD2.3）来提供双手之间的本体感知信息，最终达到 80-90% 的成功率。没有这个相对姿态信息，成功率只有 30%。

任务四：洗碗。长时序任务，包含开水龙头、拿盘子、用海绵擦洗、冲干净、摆放等多个步骤。这也是 UMI 首次在真实机器人上展示的复杂长时序任务。

泛化能力：真正的亮点

最令人惊讶的是泛化能力。研究团队在多个不同的室内环境（咖啡厅、饮水机旁、实验室）采集数据，然后在一个全新的、未见过的环境中测试。仅仅通过在野外采集多样化数据，不需要任何微调，UMI 达到了 70% 的零样本泛化成功率。相比之下，如果只在实验室采集数据，即使使用同样的预训练视觉骨干网络，泛化成功率是 0%——机器人甚至不会朝杯子移动。

这说明：大规模、多样化的野外数据才是泛化的关键，而不仅仅是预训练视觉模型。

数据采集效率

UME 的数据采集速度也远超传统遥操作。在 15 分钟内，UMI 可以收集 48 次杯子排列演示，是传统遥操作（SpaceMouse）的 3 倍以上，达到人类直接用手演示速度的 48%。对于动态抛掷任务，传统遥操作根本无法采集数据，而 UMI 能达到人类速度的 64%。

SLAM 追踪精度方面，UMI 的平均轨迹误差（ATE）为 6.1mm（位置）和 3.5°（旋转），双手相对位置误差为 10.1mm。

核心洞见

读完整篇论文，我觉得最核心的洞见是：数据和策略的表示方式决定了泛化能力的上限。

之前的工作过度依赖"在实验室里用遥操作精细采集少量高质量数据"这条路径。但 UMI 证明了另一条路可行——用低成本设备在各种真实环境中快速采集大量多样化数据，配合合适的策略表示（相对轨迹、扩散模型、时延匹配），可以实现零样本泛化到全新环境。

这其实反映了机器人学习领域的一个范式转变：从"精耕细作"到"大规模采集"。就像计算机视觉领域从 ImageNet 到 LAION-400M 的跨越，机器人操作也需要从"小规模、高质量、实验室数据"走向"大规模、多样化、野外数据"。

局限性

UMI 也有几个局限性。首先，依赖视觉 SLAM 的纹理要求，在纯白色墙面等低纹理环境可能失效。其次，数据采集效率仍然低于人类直接用手（只有 48-64%），夹爪的重量和体积是瓶颈。最后，目前的数据筛选是后处理的，无法在采集时实时判断动作是否对特定机器人可行。

总结

UMI（Universal Manipulation Interface）为机器人操作的数据采集提供了一个全新的范式：用手持夹爪 + GoPro 在任何环境中采集人类演示，然后直接部署到不同机器人上。核心贡献包括：

低成本（~370 美元）、便携的数据采集硬件
鱼眼镜头 + 侧边镜子的视觉系统设计
推理时延匹配和相对轨迹动作表示
Diffusion Policy 建模多模态动作分布
首次展示野外数据采集 + 零样本泛化的完整流程

论文相关资源已开源：umi-gripper.github.io