基于大模型的家庭机器人远程目标定位技术

0 阅读6分钟

基于大模型的家庭机器人远程目标定位技术

Leveraging a large vision-language foundation model enables state-of-the-art performance in remote-object grounding.

利用大型视觉语言基础模型,在远程目标定位任务中实现了业界领先的性能。

By Gunnar Sigurdsson

October 6, 2023

概述

远程目标定位是指自动确定在本地环境中何处可以找到自然语言所指定的对象的任务。这对于家庭机器人来说是一项基本能力,因为机器人需要能够执行诸如“把我从儿童卫生间台面上的眼镜拿过来”这样的指令。在即将于国际智能机器人与系统大会(IROS)上展示的一篇论文中,作者及其同事描述了一种新的远程目标定位方法。该方法利用了一个基础模型——一个通过自监督学习,联合表示语言和图像的大型模型。通过将远程目标定位视为一个信息检索问题,并运用一系列“技巧”使该基础模型适配于这个新的应用场景,研究团队在一个基准数据集上的性能比现有最佳技术提升了10%,在另一个数据集上提升了5%。

A new approach treats remote-object grounding as an information retrieval problem, in which a model must match candidate objects against a natural-language request. 新方法将远程目标定位视为一个信息检索问题,模型必须将候选对象与自然语言请求进行匹配。

语言与视觉模型

近年来,基础模型(如大语言模型)已经彻底改变了人工智能的多个分支。基础模型通常通过掩码方式进行训练:输入数据(无论是文本还是图像)中的部分元素被掩盖,模型必须学会填补这些空白。由于掩码方式不需要人工标注,这使得模型能够在海量的公开数据语料库上进行训练。该远程目标定位方法基于一个视觉语言模型——该模型已经学会了联合表示同一对象的文本描述和视觉图像。

We consider the scenario in which a household robot has had adequate time to build up a 3-D map of its immediate environment, including visual representations of the objects in that environment. We treat remote-object grounding as an information retrieval problem, meaning that the model takes linguistic descriptions — e.g., “the glasses on the counter in the kids’ bathroom” — and retrieves the corresponding object in its representation of its visual environment.Adapting a VL model to this problem poses two major challenges. The first is the scale of the problem. A single household might contain 100,000 discrete objects; it would be prohibitively time consuming to use a large foundation model to query that many candidates at once. The other challenge is that VL models are typically trained on 2-D images, whereas a household robot builds up a 3-D map of its environment.

研究团队考虑了这样一个场景:家庭机器人有足够的时间建立其即时环境的3D地图,包括该环境中物体的视觉表示。将远程目标定位视为一个信息检索问题,这意味着模型接收语言描述(例如,“儿童卫生间台面上的眼镜”),并在其视觉环境表示中检索出对应的物体。将VL模型适配于此问题面临两大挑战。首先是问题的规模。一个家庭可能包含多达10万个离散物体;一次性使用大型基础模型查询如此多的候选对象将极其耗时。另一个挑战是VL模型通常在2D图像上进行训练,而家庭机器人构建的是其环境的3D地图。

技巧包

在论文中,作者介绍了一个“技巧包”,以帮助模型克服这些及其他挑战。

1. 负样本示例

处理检索问题规模的显而易见的方法是将其分解,例如,分别对每个房间的候选对象进行评分,然后从每个对象列表中选择最可能的候选对象。这种方法的问题在于,每个列表中对象的评分是相对而言的。高分对象意味着它比列表中其他对象更可能是指令所指的目标;然而,相对于另一个列表中的候选对象,其分数可能会降低。为了提高跨列表的一致性,研究团队在模型的训练数据中增加了负样本示例——即那些目标对象不可见的视角。这可以防止模型在对候选对象评分时变得过度自信。

2. 距离受限探索

解决规模问题的第二个技巧是限制搜索候选对象的半径。在训练过程中,模型不仅学习了哪些对象最符合哪些请求,还学习了通常需要走多远才能找到它们。限制搜索半径使问题变得易于处理,且几乎不损失准确性。

3. 3D 表征

为了解决用于训练VL模型的2D数据与机器人用于环境建图的3D数据之间的不匹配问题,研究团队将围绕对象的“边界框”的2D坐标——即图像中对象区域的矩形边界——转换为一组3D坐标:边界框中心的空间三维坐标和一个半径,半径定义为边界框对角线长度的一半。

4. 上下文向量

最后,作者使用了一个技巧来提高模型的整体性能。对于每个视点——即机器人从中捕获多张即时环境图像的每个位置——模型都会生成一个上下文向量,该向量是从该视点可见的所有对象对应向量的平均值。将上下文向量添加到特定候选对象的表征中,使机器人能够区分,例如,一个卫生间里洗手台上方的镜子和另一个卫生间里洗手台上方的镜子。

An overview of the "bag of tricks" deployed, both during training and at inference time, to adapt a vision-language model to the problem of remote-object grounding. 概述了在训练和推理阶段部署的“技巧包”,用于使视觉语言模型适配远程目标定位问题。

研究团队在两个基准数据集上测试了该方法,每个数据集都包含数万条指令及相应的传感器读数集合,发现其性能显著优于之前的业界最佳模型。为了测试算法的实用性,团队还将其部署在真实机器人上,发现机器人能够实时且高精度地执行指令。

At inference time, if the robot has no prior knowledge of its environment, it can use frontier-based exploration to map the locations of candidate objects for remote-object grounding. 在推理时,如果机器人对其环境没有先验知识,它可以使用基于前沿的探索方法来绘制用于远程目标定位的候选对象位置。FINISHED