数据集汇总丨16个具身智能数据集,覆盖抓握/问答/逻辑推理/轨迹推理等领域

0 阅读12分钟

如果说过去十年人工智能的主战场在「看懂世界」和「生成内容」,那么下一阶段的核心问题正在转向一个更具挑战性的命题:AI 如何真正进入物理世界,并在其中行动、学习与进化。 在与此相关的研究与讨论声中,具身智能一词频繁出现。顾名思义,具身智能并非传统的机器人,而是强调 Agent 与环境交互在感知—决策—行动的闭环中形成智能。

而高质量数据集是训练和驱动具身智能模型的核心要素,被喻为具身智能时代的「石油」。它们通过提供多模态的真实或仿真交互数据,解决机器人数据采集成本高、稀缺的问题,是提升模型泛化能力、实现技能迁移和加速技术落地的关键资源,本文将系统整理并推荐目前所有与具身智能相关的高质量数据集,为进一步学习和研究提供参考。

数据集推荐

1

TongSIM-Asset

具身智能模拟数据集

下载地址: go.hyper.ai/2mwQM

这是一个由北京通用人工智能研究院 BIGAI 于 2025 年发布的一个面向具身智能(Embodied AI)研究的开源模拟环境与资产数据集,包含了超过 25,877 个不同的操作任务场景和 100 个高质量三维模拟场景,覆盖多房间室内环境与完整的室外城市场景,所有场景均可在 60 FPS 以上稳定运行,同时提供 3,000 余个可交互三维物体,涵盖 500 余类物品类别,并包含 10 余种智能体类型(如成人、儿童和机器人)以及 100 余种智能体动画,用于模拟真实世界中的多样化行为与交互过程。

2

OmniRetarget

全域机器人运动重映射数据集

预估大小: 349.61 MB

下载地址: go.hyper.ai/nT7n8

图片

这是由亚马逊联合麻省理工学院、加利福尼亚大学伯克利分校等机构发布的一个用于类人机器人全身运动重映射的高质量轨迹数据集,包含 G1 仿人机器人与物体及复杂地形交互时的运动轨迹,涵盖机器人携物运动、地形行走及物体 – 地形混合交互三类场景。由于许可限制,公开的数据集中不包含 LAFAN1 的重映射版本,分为三个子集,总计约 4 小时运动轨迹数据,具体构成如下:

  • robot-object:机器人携带物体的运动轨迹,源自 OMOMO 3.0 数据;

  • robot-terrain:机器人在复杂地形上的运动轨迹,由内部 MoCap** 采集生成,时长约 0.5 小时;

  • robot-object-terrain:同时涉及物体与地形交互的运动轨迹,时长约 0.5 小时。

此外,该数据集另含 models 目录,提供 URDF、SDF 与 OBJ 格式的可视化模型文件,用于展示而非训练。

3

InternScenes

室内模拟场景数据集

预估大小: 185.91 GB

下载地址: go.hyper.ai/VljGl

图片

该数据集由上海人工智能实验室联合上海交通大学、北京航空航天大学等机构发布,是一个具有逼真布局的大规模可模拟室内场景数据集。

该数据集由约 40k 个多样化场景和 196 万个三维对象组成,覆盖 15 种典型室内场景类型和 288 个对象类别,整体规模约为现有同类数据集的 10 倍。相比以往数据集,该数据集特别保留了大量小型物体,从而构建出更加逼真且复杂的场景布局,每个区域平均包含 41.5 个对象。其中约 20% 的对象是可交互对象(interactive objects),覆盖橱柜、微波炉、烤箱、冰箱等常见日用品。

4

FoMER Bench

多模态评测数据集

预估大小: 7.03 GB

下载地址: go.hyper.ai/MlwlQ

这是一个由穆罕默德·本·扎耶德人工智能大学联合林雪平大学、澳大利亚国立大学发布的一个基础模型具身推理(FoMER)基准,包含了超过 1,100 条样本,覆盖 10 种任务与 8 个具身推理的详细分步推理,涵盖 3 种不同的机器人类型和多种机器人模式,能够评估 LLM** 在各种任务上的能力。数据包括多项选择题 (MCQ) 、判断题 (TF) 和开放式问题。每条样本都配有输入观察(视频或图像帧 + 文本提示)、多个候选动作,以及对应的逐步推理链(step-by-step reasoning traces)。

5

DexGraspVLA

机器人抓握数据集

预估大小: 7.29 GB

下载地址: go.hyper.ai/nrJt9

图片

该数据集由 Psi-Robot 团队创建,包含 51 个人类演示数据样本,用于了解数据和格式,以及运行代码体验训练过程。其研究背景源于灵巧抓取在杂乱场景下的高成功率需求,特别是在未见过的物体、光照及背景组合下实现超过 90% 的成功率,此框架采用预训练的视觉-语言模型作为高层任务规划器,并学习基于扩散的策略作为低层行动控制器,其创新之处在于利用基础模型实现强大的泛化能力,并使用基于扩散的模仿学习获取灵巧行动。

6

EQA 问答数据集

预估大小: 839.6 KB

下载地址: go.hyper.ai/8zLIy

图片

EQA 全称 Embodied Question Answering,该数据集是是一个基于 House3D 的视觉问答数据集。在环境中任意位置的 agent 在得到一个问题后,能够自己在环境中寻找有用的信息并对该问题作出回答。比如:Q: 汽车是什么颜色的?为了回答这个问题,agent 必须首先通过智能导航来探索环境,从第一人称视角收集必要的视觉信息,然后回答问题:橙色。

7

EgoThink 第一人称视角下

视觉问答基准数据集

预估大小: 865.29 MB

下载地址: go.hyper.ai/1heWB

图片

该数据集是由清华大学提出的一个基于第一人称视角的视觉问答基准数据集,包含 700 张图像,涵盖了 6 个核心能力,细分为 12 个维度。其图像来源于 Ego4D 第一人称视频数据集的采样图片,为了确保数据的多样性,每个视频最多只采样 2 张图片。在数据集构建过程中,只选择了质量较高且能够清晰展现第一人称视角思维的图片。

EgoThink 的应用领域广泛,特别是在评估和提升 VLMs 在第一人称视角任务中的性能,为未来的具身人工智能和机器人研究提供了宝贵的资源。

8

Open X-Embodiment

真实机器人数据集

下载地址: go.hyper.ai/cP8sJ

图片

这是一个是由 DeepMind** 于 2023 年发起的一个大规模开源真实机器人数据集项目,旨在推动通用机器人学习研究。该数据集汇集了从单臂机器人到双手机器人和四足机器人的 22 种不同机器人类型的数据,由 21 个不同机构合作收集,涵盖了 527 种不同的技能和 160,266 项任务。这些数据以统一的 RLDS 格式提供,便于后续研究和应用。它是通过汇集来自全球 34 个机器人研究实验室的 60 个现有机器人数据集构建的,展示了各种机器人任务和环境。

9

SocialMaze

逻辑推理基准数据集

预估大小: 169.48 MB

下载地址: go.hyper.ai/uCruh

该数据集是一个社会推理基准数据集,聚焦于多智能体交互场景下的隐藏角色推理任务,旨在评估大型语言模型(LLMs)在复杂社交环境中的逻辑推理、欺骗识别和多轮对话理解能力。该数据集围绕隐藏角色推理游戏设计,模拟含欺骗与误判的社交场景,为研究 LLMs 的社会推理能力提供了标准化测试平台。

10

BC-Z 机器人学习数据集

预估大小: 32.28 GB

下载地址: go.hyper.ai/nh55W

图片

这是一个由谷歌、 Everyday Robots 、加州大学伯克利分校和斯坦福大学共同开发的大规模机器人学习数据集,包含了超过 25,877 个不同的操作任务场景,涵盖了 100 种多样化的操作任务。这些任务通过专家级的远程操作和共享自主过程来收集,涉及 12 个机器人和 7 名不同的操作员,累计了 125 小时的机器人操作时间。数据集支持训练一个 7 自由度的多任务策略,该策略可以根据任务的语言描述或人类操作视频来调整,以执行特定的操作任务。

11

Nav CoT-110k

轨迹推理数据集

预估大小: 15.33 GB

下载地址: go.hyper.ai/t3pBv

这是一个由北京大学联合上海工程技术大学发布的一个专为具身导航(embodied navigation)任务构建的大规模轨迹推理数据集,包含了约 110k 条逐步思维链(step-by-step Chain-of-Thought)轨迹。与传统导航数据集中仅提供指令(instruction)和目标位置(target location)不同,该数据集显式加入了与多模态观测相对应的结构化推理过程,从而实现了感知、语言与行动的衔接。旨在训练和评估模型在复杂三维场景中进行结构化推理与动作规划的能力,并作为 Nav-R1 框架冷启动阶段的重要基础。

12

ShareGPT-4o-Image

图像生成数据集

下载地址: go.hyper.ai/cW5kz

图片

这是一个大规模、高质量的图像生成数据集,包含了超过 25,877 个不同的操作任务场景,旨在将 GPT-4o 级别的图像生成能力迁移至开源多模态模型。

该数据集中所有图像均由 GPT-4o 的图像生成功能生成,数据共包含来自 GPT-4o 的 92,256 个图像生成样本,其中包含 45,717 个文本转图像(text-to-image)和 46,539 个文本与图像到图像(text-and-image-to-image)提示词,均经过精心筛选以确保多样性和质量。该数据集覆盖了广泛的风格和具身视觉推理场景,同时体现了 GPT-4o 在指令遵循和视觉美学方面的优势。

13

RT-1 Robot Action

真实世界 机器人 数据集

下载地址: go.hyper.ai/Dnb74

该数据集是谷歌的研究人员提出的个大规模的真实世界机器人数据集,用于训练 RT-1 模型。研究人员使用了 13 台 EDR 机械臂,每台机械臂配备有 7 个自由度的手臂、两指夹爪和移动底座,在 17 个月内收集了 13 万个片段,共 111.06 GB,每个片段被标注了机器人执行指令的文字描述。数据集中涵盖的高层次技能包括捡起和放置物品、开关抽屉、从抽屉中取出和放入物品、将细长物品竖直放置、推倒物体、拉餐巾纸和开罐子,覆盖了使用多种不同物体的 700 多项任务。

14

Motions Dataset

仿生臂动态运动数据集

下载地址: go.hyper.ai/hzeKh

该数据集由马克斯-普朗克智能系统研究所 (Max Planck Institute for Intelligent Systems) 的研究人员发布,包含了从新设计的 4 自由度气动肌肉驱动的仿生臂 (Pamy2) 上收集的长期动态运动数据,数据收集时间大约为 3.5 周。这些数据包括由随机多频信号生成的目标压力运动,以及重复的固定目标压力运动,有助于评估系统的重复性和性能。

此外,数据集还包含 6 个 zip 文件,每个文件中包含约 40 个「df」文件,每个「df」文件包含一个 pandas 数据框。每个数据框可以通过 pandas 库读取,每行对应机器人状态的一个观测值,数据框的列都有明确的名称。机器人的运动被标注为不同的行为段,这些行为段通过迭代号的区间提供(「iteration」是数据框列之一)。这些区间作为数据框的属性提供,共有 5 种标注类别。

15

BridgeData V2

大规模机器人学习数据集

下载地址: go.hyper.ai/buytZ

该数据集由加州大学伯克利分校、斯坦福大学、谷歌 DeepMind 和 CMU** 共同发布,旨在促进可扩展机器人学习研究的大型多样化数据集,包含在 24 个不同环境中收集的 60,096 条机器人轨迹。为了增强机器人的泛化能力, 研究人员在多种环境下收集大量的任务数据,这些环境中的对象、摄像头位置和工作区定位各有不同、每条轨迹都附有与机器人任务对应的自然语言指令。从这些数据中学到的技能可以应用于新对象和环境,甚至跨机构使用,这使得该数据集成为研究人员的重要资源。

16

Language-Table

机器人语言标签 轨迹数据集

下载地址: go.hyper.ai/X10ie

这是一个由谷歌、 Everyday Robots 、加州大学伯克利分校和斯坦福大学共同开发的大规模机器人学习数据集,包含了近 600,000 条带有语言标签的轨迹,用于推动更先进、更有能力、可自然语言交互的机器人发展。通过在包含数十万条带有语言注释的轨迹数据集上进行训练,研究人员发现所得的策略能够执行比以往多 10 倍的指令,这些指令描述了现实世界中的端到端视听觉-运动技能。

图片

以上就是本期推荐的所有数据集,快来一键下载使用吧~

阅读 10

**


**