元探索:基于场景对象谱的探索性分层视觉和语言导航

669 阅读11分钟

元探索:基于场景对象谱的探索性分层视觉和语言导航

Essay Address:[2303.04077] Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding (arxiv.org)

Project page: rllab-snu.github.io/projects/Me…

摘要:

背景挑战:视觉和语音导航(VLN)在一个看不见的环境下读懂自然语言指示

问题局限:传统的VLN算法,如果给了一个错误的action,则智能体无法探索不必要区域???

解决思路:

Meta-Explore

a hierarchical navigation method deploying an exploitation policy to correct misled recent actions.

实验:(如何证明?)

  1. 利用这一个exploitation policy 使得导航在未访问但可以观察到的状态中向精心选择的局部目标前进,这样做比将智能体移动到先前已经访问过了的状态方法要好(怎么比较的?)

  2. highlight 用语义上有意义的线索来imagining- regretful exploration

    方法是 理解物体在光谱域中围绕智能体的位置(?)

    ↑具体表达:提出一种新型视觉表示(scene object spectrum),也就是场景物体光谱,对于检测到的物体进行分类的二维傅里叶变换。

实现目标:结合1和2,智能体可以选择一个有希望的局部目标来纠正路径

性能比较:性能优越、泛化性强(???)

Meta-Explore的性能优于其他基线,并显示出明显的泛化性能。此外,使用所提出的谱域SOS特征*的局部目标搜索,与SOON基准的先进方法相比,成功率明显提高了17.1%,SPL提高了20.6%。

背景介绍:

  1. 室内的视觉导航得到广泛研究,通过识别环境构建地图,导航可以探索环境并解决任务,如向目标移动并遵循所需轨迹
  2. 人类语言的发展使得VLN的发展,能够遵循精确分步指令,到达语言指令描述的地点

challenge:当一个行动在给定的语言指令方面是错误的。

several studies——解决上述问题——hierachical exploration 分层探索

如果高层规划者选择探索,导航就会搜索未开发的区域,如果选择开发,导航就会根据先前的探索执行最佳行动。

prior work returns the agent to the last successful state and resumes exploration.

本文章是怎么思考的?

由于先前工作并没有利用到构建的地图,而是使用最近的轨迹进行回溯。

最近的一项工作建议基于图的使用,用拓扑图来拓展全局规划中的动作空间(意思是这个拓扑并非原始想法)

Hanqing Wang, Wenguan Wang, Wei Liang, Caiming Xiong, and Jianbing Shen. Structured scene memory for vision- language navigation. In Proceedings of the IEEE/CVF Con- ference on Computer Vision and Pattern Recognition, pages 8455–8464, June 2021. 1, 2, 7, 8, 14

但是上述方法依旧是在拓扑基础上访问以前的点

诱因: Since this method can perform a jump action at every timestep, there is no trigger that explicitly decides when to explore and when to exploit.

没有明确何时进行探索和何时利用触发器

得出自己的观点:时间安排的重要性—— 用于勘探开发和高效的全局规划 使用拓扑图避免重新探索访问过的区域。

做法:

  1. 提出元探索来扩展分层探索的概念,它不仅允许高级规划者选择何时纠正被误导的局部运动,而且还可以找到一个被推断为接近全球目标的未访问状态 图一

uTools_1680839845840.png

意思是第4-5步是走错了的,于是考虑在 4th node 进行局部搜索找到最有希望的local goal。至于此中的原理,尚且没看到。

  1. 相比于回溯,我们提出局部目标-【最有可能性的未访问的但可以访问的目标】-搜索的开发方法 图二

uTools_1680840558029.png

展示图很吸引人,现有方法的局限性确实很大

另一个亮点:the demand for imagining regretful explorations with semantically meaningful clues.

过去:大多数VLN任务都需要一定程度的理解代理附近的物体,但以前的研究只是对观察到的全景或物体图像进行编码

这篇paper:提出新的场景语义表示,称为场景对象谱SOS,是一个矩阵,包含来自每个位置的视觉观察对象的排列和频率(还是一种编码方式?)。能够充分估计环境的背景,所提出的谱域SOS特征比传统的时空视觉特征有更好的语言可解释性

结合上述局部搜索策略和SOS特征的新做法:结合利用政策和SOS的特点,我们设计了一个导航得分,衡量给定的语言指令和朝向本地目标的修正轨迹之间的一致性。代理人对本地目标候选人进行比较,并从纠正后的轨迹中选择一个具有最高导航分数的近乎最佳的候选人。

结论

相关工作

VLN

先前工作表明,导航通过神经网络将视觉特征与语言指令相一致,并使用多模态输出嵌入在每个时间点上产生一个合适的动作。要么是使用递归神经网络,要么是使用基于变换器的架构。

Exploration-Exploitation

在看不见的环境中想要最大化回报,很重要的措施是在勘探和开发之间来回切换。理清了探索和开发的区别:导航在探索过程中尽可能收集信息,选择最佳行动进行开发。

以前的研究没有考虑到在开发模式下需要做什么,为了解决这个问题,我们提出一种分层导航工具确定了探索和开发之间的调度。

Visual Representations

面临的囧境和弊端

  1. ResNet和ViT可以被训练学习旋转不变的视觉特征,但是特征的高复杂性导致场景的低可解释性,因此还需要复杂的神经网络处理。
  2. 传统的视觉表达方法如傅里叶变换生成旋转不变的视觉特征,不能最大化信息增益
  3. 没有研究将检测物体的光谱信息转化为来自视觉观察的高级语义。

在本文中,我们把 将物体掩码按物体类别分解为二进制掩码,并对每个二进制掩码进行二维傅里叶变换。

工具

问题提出

视觉特征包括搜集的全景RGB图像和当前节点

VLN的目标分类包括1、遵循指令2、在固定时间T内找到指令描述的对象

提出“通用分层探索”来解决上述俩目标。采用多通道快速傅里叶变换将检测到的对象的语义掩码编码为类别谱域的特征,从而平衡视觉特征的信息损失和可解释性(需要给出数据证实的)

元探索

Meta-Explore 就是通用的分层探索模型,决定了何时探索和开发,以及在开发过程中寻找一个新的局部目标,整体网络架构如图3

2023-04-07 19 34 51.png

主要由一个模式选择器和两个导航模块构成

主要工作流程:在探索模式,导航向相邻节点输出动作并移动,如果模式选择器识别到导航没有遵循指令则切换为开发模式,导航使用谱域视觉特征来寻找与来自先前未访问节点的指令具有最高对应性的新的局部目标。当导航到达局部目标时,模式切换回探索。

模式选择器

将目前时间步长可达到的节点称作候选节点。

跨膜态变换器从构建的拓扑图中获取节点的视觉特征并进行编码。

图四:模式识别器在被给定跨膜态隐藏状态Ht的情况下,估计探索的概率。如果探索概率是小于0.5的,则说明当前轨迹是令人遗憾的,所以导航应该找到一个本地目标,且是最有可能离全局目标最近的节点。

2023-04-07 19 49 49.png

探索模块
  1. 拓扑图建立

    访问的节点由自身和临近节点的视觉特征组成,这些视觉特征来自全景的RGB观测。通过拓扑图可以知道最短路径(本质上借助Dijkstra算法和Floyd算法)

  2. 自我监控——预测当前探测进展。加强策略本身

  3. 探索策略

    策略估计了在下一步移动到候选节点的概率,这同时也是导航采取下一步动作的基石。

    For training, we sample the next action from the probability distribution instead of choosing a node with the highest probability. We describe the training details in Section 3.3.:question:

开发模块

为了找到可识别环境线索,我们通过捕捉光谱域下的物体信息来进行视觉表达。比起RGB图像嵌入之类的,这种新颖的表示更容易预测。扩展了可搜索的范围,更利于寻找局部目标,即特征空间中离全局目标最近的节点。

光谱域视觉表达

即使有了良好的学习策略,在处理看不见的环境中依旧只能以新手行事,利用光谱域可以寻求环境中额外信息的帮助来完成高级推理。场景对象光谱(SOS)通过为每个对象类别生成语义掩码并对每个语义掩码应用傅里叶变换,将在单个全景图像中观察到的语义信息合并在一起。

2023-04-07 20 15 50.png

使用语义线索进行局部目标搜索

本文认为:返回到以前访问过的节点并不能保证代理从局部最优中逃脱。(这也说明为什么改变的原因!①为了避免在访问过了的区域进行不必要的操作②充分利用了拓扑图)

\bull为了进一步拓宽可搜索区域,需要让导航从以前未访问和未选择的候选节点中选择局部目标。

对校正后的轨迹进行评分(这部分是通过使用SOS特征作为语义环境线索来估计校正轨迹的导航得分,这是在构建的拓扑图中从初始节点到局部目标的最短路径轨迹),测量与语言指令的一致性

👆具体的计算可以了解一下

利用策略从先前未访问的候选节点中选择导航得分最高的节点作为本地目标。

图6展示一个简单的从候选节点中选取局部目标的例子:

2023-04-07 21 28 16.png

训练细节

导航实验

实验设置

对照组:3个VLN基准:R2R SOON REVERIE

评估指标

导航表现

使用三大指标评估算法

  1. 轨迹长度
  2. 反向路径长度加权的success rate | SR
  3. 预言成功率 | SPL

物体接地性能

基线和实施细节

The hyperparameters and detailed model architecture of Meta-Explore are described in the supplementary material.

与导航基线的比较

Rendered results and detailed analyses with other evaluation metrics are provided in the supplementary material.

2023-04-07 21 39 45.png

表一:R2R

  1. 在SR[16.4%]和SPL[8.9%]方面Meta-Explore胜过其他方法
  2. 主要原因在Meta-Explore用拓扑图进行局部搜索(为什么拓扑图就一定可以好?)
  3. SSM不切实际假设认为导航可以跳到以前访问过了的远方节点,不公平的节省了时间(我其实对于SSM和Meta-Explore究竟谁更好不大清楚???)

2023-04-07 22 37 51.png

表二:SOON, REVERIE

  1. 在Test Unseen House 上 SR和SPL比其他的基线高
  2. 结果表明,对于面向目标的VLN任务,高性能的训练或观测分割可能是过度拟合的结果。由于导航很容易被过度拟合到训练数据,因此建立一个可推广的模型或提供一个用于推理的确定性纠错模块是至关重要的。
  3. Meta-Explore选择在regretful的基础上通过exploitation来纠正轨迹

用SOS特征来进行本地目标搜索

结果显示,使用SOS特征最能将agent引向所需要的节点,有助于高级决策。(具体这部分有很多的场景应用详见这部分)

消融研究

结果显示:

在空间、光谱和语言三个表示域中,光谱域特征对导航性能的增强最大。

补充材料

A. Model Details

2023-04-07 23 19 13.png

上述算法总结了整个分层探索过程,模式选择器监督过程并决定agent在每个时间步骤应该是探索还是开发状态

B. Experiment Setup

提到了预处理的VQA模型

C. Navigation Experiments

2023-04-07 23 33 14.png

D. Ablation Study

2023-04-07 23 40 08.png

当控制模式改为开发时,agent返回最近的以前访问过的节点,然后在构建的拓扑图中节点找一个局部目标,并使用Dijkstra算法朝局部目标移动。

2023-04-07 23 44 19.png

如图12一样也差不多,使用Meta-Explore进行图像目标导航的简单场景。当agent反复探索局部区域但无法找到目标位置时,模式选择器检测到regretful的情况。通过局部目标搜索的分层探索有助于代理克服这种情况,并在固定时间内朝着全局目标前进。