赋予虚拟机器人理解自然语言指令的能力

4 阅读4分钟

Teaching virtual robots to follow natural-language instructions 赋予虚拟机器人理解自然语言指令的能力

具身人工智能旨在训练具身智能体,使其能在交互式模拟环境中解决涉及导航和物体操作的复杂多模态任务。开发这样的具身智能体需要长程规划、视觉与语言的理解,以及开发高度样本高效的算法。

在去年的国际智能机器人与系统大会(IROS)上,发表了两项推进具身人工智能的研究。

DialFRED:支持对话的具身指令跟随智能体

第一项研究介绍了 DialFRED,一个包含 53,000 条人工标注对话的具身指令跟随基准。该基准使智能体能够:

  1. 与用户进行主动对话
  2. 利用对话中获得的信息更好地完成任务

DialFRED 的源代码和数据集已公开,以鼓励研究人员提出和评估支持对话的具身智能体。

数据收集 研究人员设计了一种新颖、低成本且可扩展的数据收集方法。该方法向标注者展示任务的视频演示。视频在每个子任务开始时暂停,标注者会收到与该子任务对应的指令,并被要求提出一个或多个有助于澄清或完成子任务的问题。随后,标注者观看下一段视频并提出问题的答案。这种方法产生了由语言指令和机器人视角下的环境图像组成的训练样本。

基于强化学习的对话生成 DialFRED 引入了一个新的“提问者-执行者”框架来构建具身对话智能体。提问者模型使用人工标注的对话会话进行预训练,学习预测何时需要提出澄清性问题,并生成与当前情境相关的问题。

通过强化学习,提问者模型被微调,使其能在正确的时间提出恰当类型的问题以最大化任务完成收益。DialFRED 框架还包含一个“预言机”,它利用模拟环境的真实元数据自动为生成的问题提供答案。DialFRED 因此为训练具身对话智能体提供了一个交互式问答框架。执行者随后利用问答环节获得的信息以及原始任务指令,生成完成任务所需的动作序列(即轨迹)。

这种“提问者-执行者”模型在未见过的验证集上实现了 33.6% 的成功率,而被动遵循指令的模型成功率仅为 18.3%。

DialFRED 排行榜 为了推动具身对话智能体的研究与发展,研究人员还在 EvalAI 上创建了 DialFRED 排行榜,参与研究者可以直接提交他们的动作轨迹,以在一个新的未见测试集上对具身智能体进行基准测试。

具备可供性感知的多模态神经即时定位与地图构建(SLAM)

第二项研究指出,具身任务的关键瓶颈在于智能体的规划和导航能力。为了解决这一挑战,研究人员采用了一种神经方法来进行 SLAM,该方法具有“可供性感知”,即它能够对环境中的物体如何使用进行建模。这是第一个使用视觉和语言进行探索的、具备可供性感知的神经 SLAM 模型。

该神经 SLAM 方法涉及构建一个可供性感知的语义地图,并同时在此地图上进行规划。这显著降低了样本复杂度,实现了高效的长程规划,并实现了视觉与语言的融合。该方法在 ALFRED 基准测试上实现了比之前工作绝对提高 20% 以上的性能,并以 19.95% 的准确率实现了新的最先进的泛化性能。

建模方法 对于一个由高层目标描述(例如“用锅烧点水”)和底层人工指令(例如“直走到房间的另一边。向左转,走到炉子边”)指定的任务 T,该方法分为两个阶段:

  1. 探索: 智能体根据逐步的语言指令、之前的探索动作以及已访问和观察过的区域,来探索环境。
  2. 执行: 根据语言指令和在探索阶段获取的可供性感知语义表示(即语义地图),智能体按顺序执行子目标。它使用一个规划模块(利用语义地图)来完成导航子目标,并使用一个物体交互转换器来完成其他子目标。

为了提高探索性能,研究者提出了一个多模态模块,该模块在每一步通过进行视觉观察,并结合过去的动作、逐步的语言指令以及先前探索区域的地图,来选择三个动作之一:向前移动、向左旋转或向右旋转。该模型是首个成功处理 ALFRED 长程规划和可供性感知导航挑战的多模态神经 SLAM 模块。FINISHED