打造真实场景下的高质量人机交互数据新标杆📊 arXiv:2604.23570
📋 文章目录
-
一、研究背景:机器人学习的数据瓶颈
-
二、EgoLive数据集核心概览
-
三、JoyEgoCam:专为真实场景设计的采集设备
-
四、自动化标注流程:从原始视频到多模态标注
-
五、数据分布与多样性分析
-
六、精度评估:毫米级重建与高质量语义标注
-
七、应用前景与未来展望
-
参考文献
一、研究背景:机器人学习的数据瓶颈
近年来,基于视觉-语言-动作(Vision-Language-Action, VLA)预训练模型的机器人操作策略取得了显著进展。然而,当前机器人学习领域面临一个关键瓶颈:缺乏大规模、高质量、且具备真实场景多样性的数据集。现有的数据收集方法主要依赖三种范式:真实机器人遥操作、通用操作接口(Universal Manipulation Interface, UMI)以及人类第一视角视频采集。
遥操作系统通过主从控制、VR设备或动作捕捉服等方式生成高保真轨迹,例如ALOHA、AgiBot和Tesla Optimus等代表性工作。这类方法虽然能够产生具有强物理先验的策略学习信号,但受限于专用硬件需求、密集人力投入以及高昂成本,难以实现大规模扩展。通用操作接口(如UMI系列)通过手持夹爪配合GoPro相机采集人类演示,虽能减少视觉域差异,但通常针对特定机器人本体设计,跨平台兼容性有限,且难以适配灵巧手操作。
**核心洞察:**人类第一视角视频采集作为一种轻量化、可扩展的数据范式,通过头戴式可穿戴设备捕捉自然交互,消除了硬件约束和空间限制,同时保留了人类手部形态的自然特征,为灵巧操作数据的直接采集提供了可能。
在此背景下,京东未来研究院的研究团队提出了EgoLive数据集,旨在为机器人操作学习社区提供可扩展、高质量的第一视角数据资源。该数据集专门针对真实世界中以服务为导向的人类日常工作场景进行采集,涵盖家庭服务、零售、药房等垂直领域,在数据规模、数据质量和场景多样性三个维度实现了显著提升。
二、EgoLive数据集核心概览
EgoLive是一个面向机器人操作学习的大规模野外第一视角操作数据集,具备以下核心特征:
1,680小时立体视频
65,866个操作片段
346种真实任务
60FPS 帧率
2160P单目分辨率
130°水平与垂直视场角
图1 EgoLive数据集概览:涵盖346种任务、1680小时立体视频、65,866个操作片段,以60FPS和2160P分辨率记录真实场景中的人机交互。
与现有第一视角数据集相比,EgoLive在三个技术维度上建立了差异化优势:
**规模领先:**截至论文发表时,EgoLive是面向真实世界任务导向人类日常操作的最大规模开源标注第一视角数据集。相较之下,EPIC-KITCHENS-100包含约100小时视频,Ego4D约3,680小时但分辨率不一致,EgoDex约829小时,Xperience-10M约1,059小时可用数据。
**质量卓越:**数据集通过定制化头戴采集设备实现了类人双目视觉,提供130°×130°超宽视场角,以60FPS和2160×2160分辨率记录视频。在标注层面,EgoLive提供6自由度运动追踪、细粒度语义分割和3D场景重建等多模态标注,且精度达到业界领先水平。
**场景真实:**与现有数据集多集中于实验室或家庭桌面环境不同,EgoLive全部数据均在无约束真实世界场景中采集,覆盖家庭服务、零售、药房等实际工作场景,具备更优的生态效度和场景多样性。
| 数据集 | 场景 | 规模 | 分辨率 | FPS | 多视角 | 运动追踪 | 语言标注 | 深度 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | EPIC-KITCHENS-100 | 真实世界 | 100h | 1920×1080 | 50 | ✗ | ✗ | ✓ | ✗ | | Ego4D | 真实世界 | 3680h | 不一致 | 30 | ✗ | ✗ | ✓ | ✗ | | EgoMimic | 实验室 | 55h | 1408×1408 | 30 | ✗ | ✓ | ✗ | ✗ | | EgoDex | 实验室 | 829h | 1920×1080 | 30 | ✗ | ✓ | ✓ | ✗ | | Xperience-10M | 真实世界 | 1059h | 512×512 | 20 | ✓ | ✓ | ✓ | ✓ | | EgoLive | 真实世界 | 1680h | 2160×2160 | 60 | ✓ | ✓ | ✓ | ✓ |
表1 代表性第一视角数据集对比(数据来源于Li et al., 2026)。标记为"✓"表示该数据集主要公开发布版本中包含对应模态。
三、JoyEgoCam:专为真实场景设计的采集设备
为实现大规模野外数据的高效采集,研究团队设计了一款名为JoyEgoCam的轻量化人体工学头戴设备。该设备的设计理念遵循"最小侵入原则",与VR头显遮挡用户面部或可穿戴设备干扰手部运动不同,JoyEgoCam在佩戴过程中几乎不影响用户的自然行为表现。
图2 JoyEgoCam头戴式数据采集系统:配备双目RGB相机、200Hz IMU惯性测量单元,提供130°超宽视场角,支持长时间野外佩戴。
JoyEgoCam的核心硬件配置包括:
-
双目RGB相机:
模拟人类双目视觉,提供130°水平×130°垂直的超宽视场角,以60FPS采集2160×2160分辨率视频,支持精细且敏捷的人体运动追踪。
-
集成IMU:
内置200Hz惯性测量单元,为相机位姿估计提供高频运动传感数据,显著提升SLAM系统的轨迹估计精度。
-
人体工学设计:
轻量化结构支持长时间佩戴,用户可在采集过程中自然执行日常操作,如烹饪、清洁、整理、物品搬运等。
受益于头戴式形态和类人视场角,JoyEgoCam能够自然捕捉手部运动,无需在操作者手部附加任何标记或传感器。这一设计对于需要精细手指动作的任务尤为重要,例如折叠衣物、摆放餐具、擦拭表面等复杂操作。研究团队招募了多名操作员在真实场景中进行数据采集,每个视频片段通常持续1至3分钟,记录单一连续的中长时长操作活动。
四、自动化标注流程:从原始视频到多模态标注
EgoLive的价值不仅体现在原始视频数据上,更在于其系统化的自动化多模态标注流程。研究团队开发了一套完整的内部数据处理管线,能够从双目RGB和IMU输入中生成几何、运动学和语义层面的高质量标注。
图3 自动化标注流程概览:涵盖数据预处理、手部重建(手-物分割与手势识别)、场景重建(深度重建与相机定位)以及文本描述(子任务分割与指令标注)四大模块。
4.1 运动追踪
运动追踪模块估计双手腕部和手部关节的6自由度轨迹,并与相机自运动估计进行同步,建立动作参考坐标系。手部运动估计采用基于HaMeR的两阶段方法:首先从单目视频中估计MANO参数,确保精确的2D投影;随后利用双目立体优化,在保持单目视频2D投影约束的同时,获得一致的3D手部关键点位置。
相机自运动估计采用ORB-SLAM3系统,融合双目RGB图像和IMU数据,从左相机第一帧开始初始化。通过视觉-惯性融合,系统能够在动态场景中保持稳健的轨迹估计,为后续3D重建提供可靠的相机位姿参考。
4.2 语义理解
语义理解模块通过检测、追踪、分割和大语言模型驱动的文本标注技术,获取层次化语义信息。具体而言,研究团队采用专用检测模型识别手部及交互物体,通过BoT-SORT算法进行多目标追踪,并采用SAM 2生成手和交互物体的分割掩码。
每个操作片段根据手-物检测和追踪结果划分为若干子任务。随后,经过微调的Qwen3-VL-32B多模态大模型接收这些子任务片段作为输入,通过多阶段推理策略生成细粒度指令描述。该描述明确建模三个核心要素:手部使用方式、被操作物体以及具体动作,从而为机器人策略学习提供结构化的语义监督信号。
4.3 三维重建
三维重建模块充分利用双目视觉优势,实现精确的3D手部重建和深度估计。深度重建基于FoundationStereo模型,从经过精细标定的双目RGB视频中重建1152×1152分辨率的深度图。结合相机位姿和深度信息,系统能够生成稠密点云表示,恢复场景的空间结构和复杂几何细节。
五、数据分布与多样性分析
基础模型的研究表明,数据多样性对于实现鲁棒泛化至关重要。EgoLive从离散语义和连续特征空间两个互补维度进行系统分析,证明其在覆盖范围和局部密度上均优于现有第一视角数据集。
5.1 离散语义分布
在离散语义分析层面,研究团队从指令标注中提取场景类别和物体-动作-属性标签,通过频率统计比较不同数据集的语义覆盖范围和长尾结构。
图4 EgoLive的离散语义构成。(a)任务类别分布,涵盖家庭服务、物品整理、清洁、物流等操作密集型场景;(b)从指令标注中提取的高频语义标签词云,覆盖动作、物体和属性三个维度。
如图4所示,EgoLive覆盖了广泛的操作密集型场景任务类别,包括物品清洁(165.9小时,占9.9%)、厨房整理(125.4小时,占7.5%)、浴室整理(118.9小时,占7.1%)、衣物折叠(72.5小时,占4.3%)等。词云可视化进一步表明,高频词在动作(如hold、wipe、pick up、place)、物体(如cloth、table、bottle、sponge)和属性(如white、black、red、blue)三个维度上均表现出丰富的语义多样性。
图5 基于指令标注的语义标签分布对比:(a)物体分布、(b)动作分布、(c)属性分布。横轴为词频阈值n,纵轴为频率大于n的不同词数量(对数-对数坐标)。
图5展示了EgoLive与EgoDex(829小时)和Xperience-10M(1059小时可用数据)的对比结果。在物体、动作和属性三个语义维度上,EgoLive的分布曲线均位于其他数据集之上,且展现出更长的尾部特征。这表明EgoLive具有更广泛的语义覆盖和更自然的语义长尾分布,反映了其在语义多样性方面的显著优势。
5.2 连续特征空间分析
除离散语义分析外,研究团队还利用Cosmos-Embed1-448p模型提取图像嵌入,通过t-SNE可视化在连续特征空间中分析数据集分布。
图6 物体、环境和动作联合嵌入的t-SNE可视化。红色点表示EgoLive数据,绿色和蓝色分别表示Xperience-10M和EgoDex。示例帧展示了不同区域的代表性样本。
t-SNE图中的局部邻域反映语义相似性,而聚类则对应共享相似物体、动作和场景结构的一致交互模式。如图6所示,EgoLive(红色)在表示流形上占据了更广泛的区域,且表现出比EgoDex和Xperience-10M更多的局部相干聚类。这说明EgoLive不仅实现了更广泛的交互模式覆盖,同时在连续表示空间中也保持了清晰的局部结构。
六、精度评估:毫米级重建与高质量语义标注
数据集的质量直接决定下游机器人策略学习的上限。研究团队从手部重建、深度重建和指令标注三个维度对EgoLive进行了严格的精度评估。
6.1 手部重建精度
为评估手部重建精度,研究团队首先提供了EgoLive与EgoDex的2D手部关键点标注视觉对比。如图7所示,EgoDex的关键点存在明显的定位误差,投影骨架与实际手部之间存在显著错位。相比之下,EgoLive生成的关键点在所有测试帧中均与实际手部高度对齐。
图7 2D关键点标注定性对比。(a)EgoDex的标注存在不可忽视的误差和空间错位;(b)EgoLive提供高精度且稳健的2D关键点标注。
在3D关键点精度方面,研究团队通过将估计的关键点投影到由深度图像重建的场景点云上进行验证。如图8所示,预测的3D手部骨架与手部点云表示实现了极佳的对齐。结合深度重建评估结果(详见6.2节),在典型人体操作范围内实现了毫米级深度精度,确认该手部重建框架有效解决了深度漂移问题,即使在严重动态遮挡条件下也能保持一致的绝对物理尺度。
图8 3D关键点多视角可视化:从第一视角、俯视图、左侧视图和右侧视图四个角度渲染3D关键点估计结果。该方法在所有视角下均保持强空间一致性,无腕部漂移。
6.2 深度重建精度
深度重建精度采用基于标定棋盘格的定量评估方法。研究团队使用具有已知深度梯度的阶梯阵列和ChArUco标定板作为参考目标,在0.5米至3.5米多个距离下进行采集。通过立体校正后,利用BFGS算法联合优化全局重投影误差估计相机相对于棋盘格的6D位姿,进而基于棋盘格已知几何计算各角点的深度真值。
图9 距离从500mm到3500mm的标定板点云重建结果,展示了深度重建方法在不同工作距离下的空间一致性。
定量评估结果如表2所示。在典型人体操作范围(约1.5米以内),深度重建的平均误差低于10毫米;在0.5米和0.7米距离处,误差小于5毫米的像素比例分别达到79.6%和79.8%,误差小于10毫米的比例均超过99%。即使在3.5米距离处,平均误差也控制在18毫米以内,误差小于40毫米的比例达到93.5%。这些结果表明,基于FoundationStereo的深度重建方法能够满足机器人操作学习对空间精度的高要求。
图10 真实场景深度与点云重建可视化。每行从左至右依次为:原始左图、预测深度图、重建点云。该方法能够有效恢复多样化真实场景中的空间结构和3D几何信息。
6.3 指令标注质量
每个操作片段被分割为持续约1至20秒的子任务片段,每个片段对应一个完整的原子动作。指令标注模块为每个片段生成结构化语义描述,明确包含手部、被操作物体和动作三个核心要素。
图11 指令标注流程的定性示例,涵盖玻璃擦拭、衣物折叠、冰箱清洁和床铺整理等多样化场景。每个样本展示了视频帧序列及对应的结构化文本描述。
为评估标注质量,研究团队采用基于大语言模型的细粒度评估协议,从手部一致性、物体一致性、动作一致性和全局一致性四个维度进行评判。评估结果表明,生成的标注在大多数样本中能够准确识别交互手部、匹配被操作物体(包括类别、颜色和形状)、正确反映观察到的操作行为,并提供忠实且连贯的子任务描述。对于复杂长时程任务(如整理床铺),模型能够捕捉主要动作序列,为下游任务分解和策略学习提供可靠的语义监督。
七、应用前景与未来展望
EgoLive的发布为机器人学习社区提供了工业级高质量的人类演示数据,其潜在应用方向涵盖多个前沿研究领域:
**人-机对齐:**第一视角数据天然具备人类中心视觉感知特征,可用于训练与人类视觉和行为对齐的机器人表示。通过从人类视频中学习操作先验,机器人策略能够更好地理解人类意图和任务目标,从而在人机协作场景中实现更自然的交互。
**人形机器人策略学习:**随着人形机器人技术的快速发展,对全身控制和协调操作的需求日益增长。EgoLive提供的头部运动轨迹、手部精细动作和场景3D结构,为从第一视角数据扩展到全身控制策略(如ZeroWBC、EgoHumanoid等研究方向)提供了数据基础。
**跨本体迁移:**人类第一视角数据与机器人本体之间存在形态差异(embodiment gap)。EgoLive的高质量标注和多样化场景覆盖,为研究从人类数据到不同机器人本体的有效迁移(如Phantom、Masquerade、EgoBridge等工作)提供了丰富的训练资源。
**持续扩展:**基于部署友好的采集设备和 streamlined 数据生产流程,EgoLive设计为可持续增长的数据集。随着采集范围的扩大,数据集在规模和覆盖度上将不断扩展,逐步建立自然人类行为先验的持续增长知识库。
"EgoLive的推出旨在为研究社区提供可扩展、高质量的数据集,加速通用机器人模型的突破,并促进机器人在真实世界中的部署应用。"
展望未来,第一视角数据在机器人学习中的作用将愈发重要。从人类日常操作中学习,不仅是解决当前数据稀缺问题的有效途径,更是实现通用具身智能的关键路径。EgoLive通过真实场景、高质量标注和大规模覆盖,为这一研究方向提供了坚实的数据基础,有望推动人-机器人对齐、人形机器人策略学习等领域取得新的突破,最终弥合人类行为与机器人动作之间的鸿沟。
参考文献
- Li Y, Wei X, Luo J, et al. EgoLive: A Large-Scale Egocentric Dataset from Real-World Human Tasks. arXiv preprint arXiv:2604.23570, 2026.