RxR:导航指令跟踪的多语言基准

764 阅读7分钟

视频介绍: RxR:导航指令跟踪的多语言基准

机器学习 (ML) 的核心挑战是构建能够响应口头或书面命令在复杂的人类环境中导航的代理。虽然今天的代理商,包括机器人,可以经常浏览的复杂环境中,他们还无法理解自然语言表达的导航目标,比如,“G Ø过去那种封闭到您的权利棕色双门和在头站在椅子后面桌子。”
这一挑战被称为视觉和语言导航(VLN),需要对空间语言的复杂理解。例如,为了识别位置“的能力的椅子后面在表头” 需要找到该表中,识别该表中的部分被认为是“头”,寻找到头部接近的椅子上,识别所述这把椅子后面的区域等等。虽然人们可以轻松地遵循这些说明,但使用当前基于 ML 的方法无法轻松解决这些挑战,需要系统能够更好地将语言与其描述的物理世界联系起来。
为了帮助推动这一领域的进展,我们很高兴推出用于 VLN 的新数据集Room-Across-Room (RxR)。在“房间跨房间:具有密集时空基础的多语言视觉和语言导航”中描述,RxR 是 VLN 的第一个多语言数据集,包含 126,069 条人工注释的导航指令,使用三种类型不同的语言——英语、印地语和泰卢固语。每条指令都描述了一条路径,通过真实感模拟器填充来自Matterport3D 数据集的室内环境,其中包括家庭、办公室和公共建筑的 3D 捕获。为了跟踪 VLN 的进展,我们还宣布了RxR 挑战赛,这是一项鼓励机器学习社区按照 RxR 指令训练和评估他们自己的指令的竞赛。
语 操作说明
en-美国 从长餐桌旁边开始,转动,使桌子在你的右边。走向玻璃双门。当您到达门前的垫子时,立即左转并走下楼梯。当您到达楼梯底部时,穿过您左侧敞开的门,然后继续穿过艺术展览,浴缸位于您的右侧。沿着桌子的长度向下直到到达房间尽头的小台阶,然后到达浴缸并停下来。
高输入 现在我们左边有一张大桌子,桌子上方放着一些椅子和一些灯。向相反的方向转,然后直走。现在我们右边有一个圆桌,从那里直走,前面有一扇紧闭的玻璃门,然后左边有一个梯子,从上面下来。下山后右转,从一扇棕色的门进入,然后直走。现在我们右边有一张大桌子,放了两把椅子,往前走。我们面前有一个水龙头,三把椅子靠近前面的墙,留在这里。
输入端 如果你从原来的地方直接回去,你面前会有一张桌子。如果您越过它并左转,您会找到前面的楼梯。把它们彻底放下。现在您的前面将有两扇敞开的门。从左边的门出去,直走。现在你的右边会有一张长桌。穿过它去前面的楼梯等待。
RxR 数据集中的英语、印地语和泰卢固语导航指令示例。每个导航指令描述相同的路径。
姿势追踪
除了导航指令和路径,RxR 还包括一个新的、更详细的多模式注释,称为姿势追踪。受Localized Narratives数据集中捕获的鼠标轨迹的启发,姿势轨迹在丰富的 3D 设置中提供了语言、视觉和运动之间的密集基础。为了生成导航指令,我们要求引导注释者沿着模拟器中的路径移动,同时根据周围环境叙述路径。姿势轨迹记录了向导沿路径看到的一切,与导航说明中的文字时间对齐。然后将这些轨迹与来自跟随者的姿势轨迹配对注释者,他们的任务是通过聆听指南的音频来遵循预期路径,从而验证导航指令的质量。姿态轨迹隐含地捕捉地标选择和视觉显着性的概念,并代表如何解决导航指令生成任务(对于指南)和导航指令跟随任务(对于追随者)的逐个游戏帐户。\

\


规模
总的来说,RxR 包含近 1000 万个单词,使其比现有数据集(例如R2R和Touchdown / Retouchdown)大 10 倍左右. 这很重要,因为与基于静态图像和文本数据的任务相比,需要通过运动或与环境交互来学习的语言任务通常缺乏大规模的训练数据。RxR 还解决了在其他数据集中出现的路径构建中的已知偏差,例如 R2R,其中所有路径都具有相似的长度并采用最短路径到达目标。相比之下,RxR 中的路径平均更长且更难预测,这使得遵循它们更具挑战性,并鼓励在数据集上训练的模型更加强调语言在任务中的作用。RxR 的规模、范围和细节将扩大扎根语言学习研究的前沿,同时降低英语等高资源语言的主导地位。\


基线
为了更好地表征和理解 RxR 数据集,我们使用我们的开源框架VALAN和来自多语言 BERT模型的语言表示在 RxR 上训练了各种代理。我们发现通过在训练期间包括跟随者注释和引导注释可以改善结果,并且独立训练的单语代理优于单个多语言代理。
从概念上讲,对这些代理的评估很简单——代理是否遵循了预期的路径?根据经验,我们使用NDTW测量 VLN 代理所采取的路径与参考路径之间的相似性,一种标准化的路径保真度度量,范围在 100(完全对应)和 0(完全错误)之间。由于相似路径之间的自然差异,所有三种语言的关注者注释者的平均得分为 79.5。相比之下,最佳模型(由三个独立训练的单语智能体组成,每种语言一个)在 RxR 测试集上的 NDTW 分数为 41.5。虽然这比随机 (15.4) 好得多,但它仍然远低于人类的表现。尽管语言建模的进步继续迅速侵蚀GLUE和SuperGLUE等纯文本语言理解基准的改进空间,但将语言与物理世界连接起来的RxR等基准提供了很大的改进空间。\


竞赛
为了鼓励在该领域的进一步研究,我们正在发起RxR 挑战赛,这是一项针对机器学习社区的持续竞赛,旨在开发可以遵循自然语言导航指令的计算代理。为了参与,参与者上传他们的代理根据提供的 RxR 测试说明采取的导航路径。在最困难的环境中(此处和论文中报告),所有测试环境都是以前未见过的。但是,我们也允许代理在其中预先训练或探索测试环境的设置。
PanGEA
我们还发布了我们为收集 RxR 数据集而开发的基于 Web 的自定义注释工具。全景图环境注释工具包 (PanGEA) 是一个轻量级且可自定义的代码库,用于在全景图环境(例如Matterport3D和StreetLearn )中收集语音和文本注释。它包括语音记录和虚拟姿势跟踪,以及将生成的姿势跟踪与手动抄本对齐的工具。

更新说明:优先更新微信公众号“雨夜的博客”,后更新博客,之后才会陆续分发到各个平台,如果先提前了解更多,请关注微信公众号“雨夜的博客”。

博客来源:雨夜的博客