虚拟机器人学习自然语言指令技术解析本文介绍了两项创新研究，通过视觉与语言理解技术提升虚拟机器人在模拟环境中的任务完成能力

虚拟机器人学习遵循自然语言指令

两篇论文提出了新颖方法，利用视觉和语言理解来提升模拟环境中具身智能体的任务完成能力。

具身人工智能

具身人工智能旨在训练具身智能体在交互式模拟环境中解决涉及导航和物体操作的复杂多模态任务。开发此类智能体需要长程规划、视觉与语言基础以及高度样本效率的算法。

在去年的国际智能机器人与系统会议上，我们展示了两项推进具身人工智能研究的成果。第一篇论文《DialFRED：支持对话的具身指令跟随智能体》提出了DialFRED基准，包含53,000个人工标注的对话，使智能体能够：(1)与用户进行主动对话；(2)利用对话信息更好地完成任务。DialFRED源代码和数据集已公开，鼓励研究人员提出和评估支持对话的具身智能体。

第二篇论文《学习通过感知可用性的多模态神经SLAM行动》首先指出具身任务的关键瓶颈在于智能体执行规划和导航的能力。为解决这一挑战，我们采用神经方法执行同时定位与建图，该方法具有可用性感知能力，即能够建模环境中物体的使用方式。这是首个使用视觉和语言进行探索的可用性感知神经SLAM模型。

DialFRED框架

在当前基准测试中，智能体接收语言指令后需要在模拟环境中执行完成任务所需的动作序列。智能体常因以下两个难点感到困难：(1)在复杂环境中解析自然语言歧义并将指令映射到动作；(2)长程轨迹规划及从可能的失败中恢复。与人类操作者的对话交互有助于解决这两个问题。

数据收集

我们设计了一种新颖、低成本、可扩展的数据收集方法。该方法向标注者展示任务演示视频，视频在每个子任务开始时暂停，标注者收到对应子任务的指令和生成澄清问题的请求，然后观看下一段视频并提出问题答案。这种方法产生了包含语言指令和机器人视角环境图像的训练样本。

强化学习对话生成

DialFRED引入了新的提问者-执行者框架来构建具身对话智能体。提问者模型使用人工标注的对话会话进行预训练，预测何时询问澄清问题，并生成与给定情境相关的问题。通过强化学习，提问者模型被微调以在适当时间提出正确类型的问题来促进任务完成。该框架还包含一个预言机，使用模拟环境中的真实元数据自动生成问题答案。

执行者则利用问答信息生成完成任务的动作序列。该模型在未见验证集上实现了33.6%的成功率，相比被动遵循指令的模型提高了18.3%。

DialFRED排行榜

为推进具身对话智能体的研究与发展，我们创建了DialFRED排行榜，参与研究人员可以直接提交其动作轨迹，在新的未见测试集上评估其具身智能体。

可用性感知SLAM

我们的神经SLAM方法涉及构建可用性感知语义地图并同时在该地图上进行规划。这显著降低了样本复杂度，实现了高效的长程规划，并支持视觉与语言基础。我们的方法在ALFRED基准测试上比先前工作提高了超过20%的绝对性能，达到了19.95%的最新泛化性能。

建模方法

对于给定任务，我们的方法分两个阶段进行：

探索阶段：智能体在给定低级语言指令、先前探索动作和已访问观察区域的情况下探索环境。

执行阶段：在给定语言指令和探索期间获取的可用性感知语义表示的情况下，智能体顺序执行子目标。它使用规划模块处理导航子目标，使用物体交互变换器处理其他子目标。

为提升探索性能，我们提出了多模态模块，该模块通过视觉观察并综合考虑过去动作、逐步语言指令和已探索区域地图，从三个动作中选择一个。我们的模型是首个成功处理ALFRED长程规划和可用性感知导航挑战的多模态神经SLAM模块。

研究领域

对话式AI
机器人技术

虚拟机器人学习自然语言指令技术解析