具身智能基准测试项目官方链接汇总
一、导航基准测试 (Navigation benchmarks)
二、桌面操作基准测试 (Tabletop manipulation benchmarks)
三、语言引导式家庭场景基准测试 (Language-guided household benchmarks)
| 项目名称 | 官方网站 | GitHub 仓库 | 论文地址 |
|---|---|---|---|
| TEACH | teach.is.tue.mpg.de/ | - | arxiv.org/pdf/2209.04… |
| ALFRED | askforalfred.com/ | github.com/askforalfre… | arxiv.org/pdf/1912.01… |
| HomeRobot | ovmm.github.io/ | github.com/facebookres… | arxiv.org/pdf/2306.11… |
四、通用长时程/多模态大语言模型驱动的基准测试 (Broad, long-horizon/MLLM-centric benchmarks)
五、双模式清洁基准测试 (Dual-mode cleaning benchmarks)
| 项目名称 | 官方网站 | GitHub 仓库 | 论文地址 |
|---|---|---|---|
| CleanUpBench | - | - | - |
AI2-THOR: An Interactive 3D Environment for Visual AI
项目简介
AI2-THOR 的 3D 互动仿真平台,简单说就是给人工智能(AI)专门打造的 “虚拟训练场”,核心是让 AI 像人一样在逼真的室内环境里 “看、动、互动”,帮它学习各种实用技能。
现在很多 AI 都是靠看图片、看视频学本事,但人类学习离不开 “动手互动”—— 比如打开微波炉、往杯子里接水、找东西时绕开障碍物。而真实世界里训练 AI(比如机器人)又麻烦:场景少、成本高、还可能不安全(比如机器人撞坏东西)。 AI2-THOR 就是解决这个问题:它造了个 “虚拟世界”,AI 能在里面自由逛、碰各种东西,不用受真实世界的限制,还能反复练、快速练。
项目优势
- 能互动:不是只能看,还能做很多真实动作 —— 比如开冰箱、切面包、把杯子放进咖啡机,甚至扔东西会碎、开水龙头会接水(有因果关系)。
- 场景多:有 120 个手工打造的房间(卧室、厨房等),还有 89 个公寓场景,甚至能自动生成 1 万个不同的房子(叫 ProcTHOR-10K),避免 AI 学 “死”(只适应某几个场景)。
- 超逼真:3D 场景和真实照片差不多,AI 在这学的技能,更容易用到真实世界里(不像玩游戏学的技能,换个场景就没用)。
- 好上手:有 Python 接口,研究人员不用懂复杂的游戏引擎,就能操控 AI 在里面做事、拿数据。
项目功能
- 导航找东西(导航任务是最初论文的核心,后续不断发展拓展其他功能):比如根据图片找目标(像 “按照片找杯子”)、根据类别找东西(“找一张床”),甚至听声音找声源。
- 听懂指令做事:比如根据人类的自然语言(“把杯子洗干净放进咖啡机”)或对话,一步步完成任务。
- 人机互动:让人类用虚拟现实(VR)控制虚拟人,给 AI 发指令(比如指一个东西,让 AI 过去)。
- 虚拟转真实:在平台里练好的 AI,直接放到真实机器人上用(比如在虚拟公寓练找东西,真实机器人也能会)。
- 多 AI 协作:比如两个 AI 一起抬家具、一个藏东西一个找。
- 学物体关系:比如 AI 自己发现 “开关能控制灯”“ stove 的旋钮能控火”。
Habitat: A Platform for Embodied AI Research
项目简介
Habitat 是一个用于 embodied AI(具象化人工智能)研究的开源平台,核心是通过超逼真的 3D 模拟,让虚拟机器人(智能体)高效学习导航、理解指令等技能,再把技能迁移到真实世界,解决真实场景训练机器人慢、危险、费资源的问题。
项目优势
- 速度极快:3D 模拟器单线程每秒能渲染几千帧,多进程用单 GPU 可达上万帧,比同类模拟器快几十到几百倍,能让智能体快速积累海量训练经验。
- 灵活通用:支持多种 3D 场景数据集,可自定义智能体的传感器、动作,还能灵活定义训练任务和评估标准,适配不同研究需求。
- 实验可靠:统一了实验框架,能轻松对比不同算法(如学习型、传统 SLAM),还支持跨数据集测试,让研究结果更具参考性。
项目功能
- 3D 模拟:加载真实场景的 3D 数据,模拟智能体在环境中的移动、碰撞,生成视觉、深度等传感器数据。
- 全流程开发:提供工具库,支持定义任务(如找目标、跟指令)、配置智能体、用强化学习等方式训练,以及用统一指标评估性能。
- 跨场景适配:支持在不同 3D 数据集间训练和测试,还能通过挑战赛让全球研究者提交算法,公平比拼性能。
iGibson 1.0: A Simulation Environment for Interactive Tasks in Large Realistic Scenes
项目简介
iGibson 1.0 是一个开源的机器人模拟平台,核心是为机器人打造 “超逼真的虚拟实战场景”。它包含 15 个还原真实家庭的互动场景(共 108 个房间),还能导入 12000 多个额外场景,让机器人在接近现实的环境中学习导航、抓取、操作等任务,且学到的技能能轻松迁移到真实世界。
项目优势
- 场景 “真且能互动”:所有家具、物品都能触摸、移动,布局和现实家庭一致,解决了传统模拟器 “只能看不能碰” 或 “场景不真实” 的问题。
- 技能 “学了能用”:支持材质、物体形状随机变化,搭配真实的传感器信号,让机器人见多识广,在新场景或现实中也能稳定发挥。
- 上手 “简单高效”:自带运动规划工具和人机交互界面,不用复杂编程,既能让机器人自动找最优路径,也能让人亲手教机器人做事。
项目功能
- 提供高保真场景:内置 15 个高质量家庭场景,支持导入外部场景数据集,物体布局、材质都贴近现实。
- 模拟真实传感器:能生成彩色图像、距离信息、激光雷达等数据,和机器人在现实中感知到的信息一致。
- 环境随机化:可随机更换物体材质、替换同类型物体,帮机器人提升适应能力。
- 运动规划:自动为机器人规划无碰撞的移动和机械臂操作路径。
- 人机交互教学:通过鼠标键盘就能教机器人完成任务,快速收集演示数据用于训练。
RLBench: The Robot Learning Benchmark & Learning Environment
项目简介
RLBench 是一个机器人学习基准测试与训练平台,专为机器人视觉引导操作研发。它包含 100 个手工设计的独特任务,难度从简单的目标抓取到复杂的多步骤操作(如开烤箱放托盘),支持传统机器人技术与深度学习方法的训练和对比。
项目优势
- 任务真实多样,覆盖家居场景常见操作,避免 “玩具化” 任务局限;
- 可无限生成示范数据,无需手动录制,满足大规模训练需求;
- 支持快速扩展,用户能轻松创建新任务并上传,平台可持续丰富;
- 统一仿真环境,确保不同研究的结果可对比、可复现。
项目功能
- 提供视觉(彩色、深度、分割画面)和机器人本体(关节角度、速度等)多维度观测数据;
- 支持强化学习、模仿学习、少样本学习等多种机器人研究方向;
- 内置任务创建与验证工具,降低新任务开发门槛;
- 可轻松切换机器人模型,方便仿真到现实场景的技术迁移测试。
CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks
项目简介
CALVIN 是一款开源模拟基准测试平台,核心是让机器人听懂人类自然语言指令,完成 “打开抽屉→拿积木→放抽屉” 这类长流程操控任务。它包含 4 个结构相似但细节不同的室内环境、34 种具体操控任务、24 小时机器人 “探索式” 操作数据和 2 万条日常语言指令,能为研发通用语言驱动机器人提供统一的训练、测试和验证工具。
项目优势
- 贴近现实需求:支持无约束日常语言指令,而非专业代码或固定指令,符合普通人操控机器人的场景;
- 任务复杂度高:聚焦长流程任务(最多 5 个连续子任务),且需适应不同环境,比现有平台更能考验机器人的综合能力;
- 传感器配置灵活:涵盖摄像头、触觉、自身状态感知等多种传感器,可模拟真实机器人的感知模式;
- 数据资源丰富:自带海量无目的探索数据和多样化语言标注,降低研发的数据收集成本;
- 支持零样本测试:能验证机器人在未见过的环境、未听过的指令下的表现,助力研发 “举一反三” 的能力。
项目功能
- 多环境训练测试:提供 3 种难度模式(单一环境、多环境、零样本新环境),适配不同阶段的研发需求;
- 任务与指令支持:包含旋转积木、开关门窗、取放物体、叠放积木等 34 种具体任务,搭配多样化日常语言指令;
- 多传感器数据采集:可获取彩色图、深度图、触觉反馈、机器人姿态等多维度感知数据;
- 自动评估与验证:能自动检测任务完成情况,提供短任务(单一步骤)和长任务(多步骤连续)两种评估维度,量化机器人性能。
CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation
项目简介
CheckManual 是首个基于说明书的家电操控基准项目,专门解决机器人看不懂家电说明书、无法精准操控家电的问题。它通过大模型辅助人工修订的方式,结合家电 CAD 模型生成配套说明书,搭建了包含不同难度的操控挑战赛道、评估指标和仿真环境,还推出了 ManualPlan 基准模型,让机器人能依据说明书完成家电操控任务。
项目优势
- 填补空白:首次打造了说明书与 CAD 模型对齐的数据集,解决了以往相关研究缺乏实操评估基础的问题;
- 覆盖全面:涵盖 11 类常见家电,包含短 / 长流程操控任务,支持从规划到实操的全流程评估;
- 贴近实际:设计了有无 CAD 模型辅助的多种场景,契合真实环境中机器人操控家电的需求;
- 实用高效:生成的说明书格式规范、信息完整,基准模型能快速对接操控任务,降低开发门槛。
项目功能
- 填补空白:首次打造了说明书与 CAD 模型对齐的数据集,解决了以往相关研究缺乏实操评估基础的问题;
- 覆盖全面:涵盖 11 类常见家电,包含短 / 长流程操控任务,支持从规划到实操的全流程评估;
- 贴近实际:设计了有无 CAD 模型辅助的多种场景,契合真实环境中机器人操控家电的需求;
- 实用高效:生成的说明书格式规范、信息完整,基准模型能快速对接操控任务,降低开发门槛。
TEACH: Temporal Action Compositions for 3D Humans
项目简介
TEACH 是一款能根据连续自然语言描述,生成对应 3D 人体动作序列的模型。它解决了现有技术只能处理单个动作或单句描述的局限,实现了多动作的时序组合生成,让 3D 人体动作更贴合复杂的现实场景需求,可应用于虚拟现实、游戏等领域。
项目优势
- 数据更丰富:基于 BABEL 数据集,涵盖更多样的动作类型和文本描述,生成动作范围远超同类模型;
- 架构高效灵活:采用 “单动作内非自回归 + 动作序列自回归” 的混合架构,既保证单动作质量,又能灵活生成任意长度的动作序列,解决了长序列生成的计算复杂度问题;
- 过渡更流畅:通过编码前一动作的末尾帧来生成下一动作,并结合球面线性插值优化,大幅减少动作间的不连续性,生成效果更自然。
项目功能
- 文本驱动动作生成:输入连续的自然语言指令(如 “向前走、坐下、捡起东西”),自动输出对应的 3D 人体动作序列;
- 支持多动作组合:可生成成对、三联甚至更长的动作序列,不受动作数量限制;
- 保证动作连续性:自动处理动作间的过渡,避免独立生成动作导致的僵硬衔接,生成符合物理逻辑的流畅动作。
ALFRED:A Benchmark for Interpreting Grounded Instructions for Everyday Tasks
项目简介
ALFRED 是一个人工智能基准测试项目,核心是让模型学会把自然语言指令和第一视角视觉信息,转化为完成 household 任务的一系列动作。比如根据 “冲洗马克杯并放进咖啡机” 这样的指令,模型能在模拟环境中做出对应的导航、操作物体等行为。它包含 25000 多条语言指令、8000 多个专家演示案例,覆盖 120 个室内场景,任务涉及物体交互、状态追踪等多种复杂情况。
项目优势
- 贴近真实场景:任务包含不可逆状态变化、部分视野遮挡等现实中常见的复杂问题,填补了科研基准与实际应用的差距;
- 数据质量高:语言指令有高低层级,标注经过多轮验证,还包含像素级交互掩码等精细标注,比现有数据集更全面;
- 挑战性强:动作序列长、动作空间广,能有效检验模型的长程规划和视觉语言理解能力,为相关研究提供了更严苛的测试标准。
项目功能
- 数据支撑:提供海量带标注的专家演示数据,包括图像 - 动作对、语言指令等,供模型训练;
- 模拟测试:基于 AI2-THOR 模拟器,可让模型在虚拟室内环境中执行导航、拾取、开关电器等动作,模拟真实操作;
- 性能评估:提供明确的评估指标(任务成功率、目标条件成功率等),能全面衡量模型将语言转化为动作的能力。
HomeRobot: Open-Vocabulary Mobile Manipulation
项目简介
这是一个叫 HomeRobot 的项目,核心是打造能在家庭环境里干活的实用机器人,专门解决 “开放词汇移动操作” 问题 —— 让机器人在陌生家里,找到任意指定物品(不管见没见过)并放到目标位置。项目还提供了统一的基准测试和开源软件框架,方便研究者们一起测试、改进机器人。
项目优势
- 兼顾仿真和真实场景,仿真有 200 个多房间 3D 家庭场景,真实场景用低成本的 Hello Robot Stretch 机器人,易复制。
- 软件框架接口统一,研究者在仿真和真实机器人上能复用代码,不用重复开发。
- 支持 “开放词汇” 任务,能处理见过和没见过的物品,更贴近现实家庭需求。
项目功能
- 基准测试:提供仿真和真实世界两种测试环境,包含上千种常见家庭物品,可评估机器人找物、抓取、导航、放置全流程能力。
- 软件工具:开源 HomeRobot 库,自带启发式和强化学习两种基础解决方案,还支持导航、抓取、连续学习等多个子任务。
- 跨场景迁移:已验证导航和放置技能能从仿真迁移到真实环境,为后续研发提供基础。
BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments
项目简介
BEHAVIOR 是斯坦福大学推出的嵌入式人工智能基准测试项目,聚焦 100 种日常家庭活动,像清洁、食物准备、物品整理等,通过模拟真实家居环境,衡量 AI 智能体的感知、交互和任务执行能力。
项目优势
- 真实性强:活动源自真实时间使用调查,基于物理引擎还原家居场景和物体属性。
- 多样性高:支持无限生成不同场景、物体组合的任务实例,覆盖多种状态变化需求。
- 参考性足:包含 500 条人类 VR 演示数据,为 AI 性能提供直观对比基准。
项目功能
- 任务定义:用 BDDL 语言明确活动初始状态和目标条件,支持灵活扩展。
- 模拟运行:在 iGibson 2.0 模拟器中实现高保真物理交互和传感器数据生成。
- 综合评估:通过成功率、效率等指标,结合人类表现进行绝对和相对双重评价。
λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics
项目简介
LAMBDA 是一个针对室内移动操作机器人的基准测试项目,聚焦长时程任务的数据效率评估。它包含 571 个由人类收集的演示任务,涵盖模拟和真实环境,任务以自然语言指令驱动,涉及跨房间、跨楼层的取放操作,能为机器人模型提供贴近现实场景的测试标准。
项目优势
- 数据实用且高效:采用人类收集的演示数据,而非规划器生成,具备自然变异性和可复现性,且数据集规模适中,避免大规模数据收集的资源消耗;
- 场景贴近现实:同时涵盖模拟与真实环境,支持长时程、多空间任务,还纳入四足机器人数据,适配复杂地形操作需求;
- 交互灵活直观:任务基于自由格式的自然语言指令,而非固定模板,更符合人类实际下达指令的习惯。
项目功能
- 提供标准化测试基准:为移动操作机器人模型提供统一的评估平台,衡量模型在数据有限情况下的学习和泛化能力;
- 支持多维度评估:可测试模型在全新环境(场景泛化)和全新任务(任务泛化)下的表现;
- 助力技术优化方向:通过基准测试对比不同模型(如行为克隆模型、神经符号系统)的性能,为开发更高效的机器人系统提供参考。
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments
项目简介
这是一个为家用自主机器人打造的 “能力测评 + 实操系统” 方案,核心是通过统一基准测试(EMMOE)和配套机器人系统(HomieBot),让机器人能听懂自然语言指令,完成开冰箱、取物品等日常家务,解决现有机器人任务分散、测评不全面的问题。
项目优势
- 有统一的 “测评标准”,能同时考核机器人的高层规划(比如思考步骤)和底层操作(比如抓取动作),比之前零散的测试更全面。
- 配套数据集(EMMOE-100)包含 100 个真实家务场景,还标注了失败后重新规划的过程,能帮机器人更好学习。
- 机器人系统(HomieBot)自带错误检测和调整能力,比如手满了不会再尝试抓取,还能根据反馈修正动作,实用性更强。
项目功能
- 测评功能:用 3 个新指标全面评估机器人的任务完成进度、是否能及时终止任务、失败后重新规划的效果。
- 实操功能:机器人能接收语言指令,结合视觉观察规划步骤,完成导航、抓取、开关容器等动作,还能处理执行中的错误。
- 训练支持:提供适配大语言模型的训练数据,能帮机器人快速学会理解场景、合理规划家务步骤。
EMOS: EMBODIMENT-AWARE HETEROGENEOUS MULTI-ROBOT OPERATING SYSTEM WITH LLM AGENTS
项目简介
这是一个为家用自主机器人打造的 “能力测评 + 实操系统” 方案,核心是通过统一基准测试(EMMOE)和配套机器人系统(HomieBot),让机器人能听懂自然语言指令,完成开冰箱、取物品等日常家务,解决现有机器人任务分散、测评不全面的问题。
项目优势
- 有统一的 “测评标准”,能同时考核机器人的高层规划(比如思考步骤)和底层操作(比如抓取动作),比之前零散的测试更全面。
- 配套数据集(EMMOE-100)包含 100 个真实家务场景,还标注了失败后重新规划的过程,能帮机器人更好学习。
- 机器人系统(HomieBot)自带错误检测和调整能力,比如手满了不会再尝试抓取,还能根据反馈修正动作,实用性更强。
项目功能
- 测评功能:用 3 个新指标全面评估机器人的任务完成进度、是否能及时终止任务、失败后重新规划的效果。
- 实操功能:机器人能接收语言指令,结合视觉观察规划步骤,完成导航、抓取、开关容器等动作,还能处理执行中的错误。
- 训练支持:提供适配大语言模型的训练数据,能帮机器人快速学会理解场景、合理规划家务步骤。
EMBODIEDBENCH: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
项目简介
任务覆盖全,既有 household 场景的高级任务,也有导航、机械臂操作的低级任务,共 1128 个测试案例。 评估维度细,不只看任务成败,还能测试模型的常识推理、空间感知等 6 种核心能力。 贴合真实使用,强调视觉输入和环境反馈的作用,更符合模型实际应用场景。
项目优势
- 任务覆盖全,既有 household 场景的高级任务,也有导航、机械臂操作的低级任务,共 1128 个测试案例。
- 评估维度细,不只看任务成败,还能测试模型的常识推理、空间感知等 6 种核心能力。
- 贴合真实使用,强调视觉输入和环境反馈的作用,更符合模型实际应用场景。
项目功能
- 提供 4 类测试环境,分别对应高级任务规划、导航、机械臂操作等不同场景。
- 支持对 24 种主流模型(含开源和闭源)进行统一评估,输出明确的成功率数据。
- 能分析模型在视觉依赖、长步骤规划等方面的短板,为模型优化提供方向。
EMBODIEDEVAL: Evaluate Multimodal LLMs as Embodied Agents
项目简介
EMBODIEDEVAL 是一款专为评估多模态大型语言模型(MLLMs)具身交互能力打造的综合基准测试平台。它搭建了统一的 3D 模拟环境,让模型以 “具身智能体” 的身份,在贴近真实的场景中完成导航、物体操作、社交互动等任务,以此检验模型在视觉感知、空间推理等实际应用所需的核心能力,弥补了现有测试仅关注静态场景或单一任务的不足。
项目优势
- 场景任务双丰富:涵盖家庭、健身房、商店等 125 种多样场景,包含导航、问答、社交等 5 类共 328 个任务,避免测试局限性;
- 贴合真实应用场景:以第一视角视觉信息为输入,要求模型通过互动完成任务,更契合现实中智能体的工作模式;
- 评估全面且高效:采用统一输入输出格式,同时考察模型的接地、规划、探索等多种能力,还能对比模型与人类(非专家)的表现差距。
项目功能
- 多类任务测试:支持导航、物体交互、社交互动、属性问答、空间问答五类任务,全面覆盖具身场景需求;
- 3D 模拟交互:提供可操作的 3D 场景,模型能通过移动、操作物体、选择答案等方式与环境互动,环境会实时反馈结果;
- 量化评估表现:通过成功率、目标条件达成率、路径效率三个核心指标,客观衡量模型在具身任务中的表现,精准定位模型在长流程、交互类任务中的短板。