ECCV 2024 | 视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号在本研究中，提出了一个名为 SegVG

前言在本研究中，提出了一个名为 SegVG 的新方法，旨在将边界框级的注释转化为分割信号，以提供更为丰富的监督信号。该方法倡导多层多任务编码器-解码器结构，学习回归查询和多个分割查询，以通过回归和每个解码层的分割来实现目标定位。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自PaperWeekly

仅用于学术分享，若侵权请联系删除

CV方向的准研究生们，未来三年如何度过？

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

**论文标题：**SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding

论文地址：

arxiv.org/abs/2407.03…

代码地址：

github.com/WeitaiKang/…

动机

视觉定位（Visual Grounding）旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系统的普及，如视觉问答和图像描述，视觉定位的重要性愈加凸显。

已有的研究大致可以分为三类：两阶段方法、单阶段方法和基于变换器（Transformer）的方法。尽管这些方法取得了良好的效果，但在注释的利用上仍显得不足，尤其是仅将框注释作为回归的真值样本，限制了模型的性能表现。

具体而言，视觉定位面临的挑战在于其稀疏的监督信号，每对文本和图像仅提供一个边界框标签。这与目标检测任务（Object Detection）存在显著不同，因此充分利用框注释至关重要，将其视为分割掩膜（即边界框内的像素赋值为 1，外部像素赋值为 0），可以为视觉定位提供更细粒度的像素级监督。

在本研究中，提出了一个名为 SegVG 的新方法，旨在将边界框级的注释转化为分割信号，以提供更为丰富的监督信号。该方法倡导多层多任务编码器-解码器结构，学习回归查询和多个分割查询，以通过回归和每个解码层的分割来实现目标定位。

此外，为了解决由于特征域不匹配而产生的差异，研究中引入了三重对⻬模块，通过三重注意机制更新查询、文本和视觉特征，以确保它们共享同一空间，从而提高后续的目标检测效果。

综上，SegVG 通过最大化边界框注释的利用，提供了额外的像素级监督，并通过三重对⻬消除特征之间的域差异，这在视觉定位任务中具有重要的创新意义。以下是来自论文中的相关图示，用以进一步说明视觉定位框架的不同。

方法

在本节中，介绍了 SegVG 方法的各个组件，按数据流的顺序进行说明，包括⻣干网络、Triple Alignment 模块以及 Multi-layer Multi-task Encoder-Decoder。

2.1 ⻣干网络

SegVG 方法的视觉⻣干网络和文本⻣干网络分别处理图像和文本数据。视觉⻣干网络使用的是经过 Object Detection 任务在 MSCOCO 数据集上预训练的 ResNet 和 DETR 的 Transformer 编码器。

文本⻣干网络使用 BERT 的嵌入层将输入文本转换为语言 Token。在 Token 前添加一个 [CLS] 标记，并在末尾添加一个 [SEP] 标记，随后通过 BERT 层迭代处理得到语言嵌入。

2.2 Triple Alignment

Triple Alignment 模块致⼒于解决视觉⻣⼲、⽂本⻣⼲和查询特征之间的域差异。该模块利⽤注意⼒机制执⾏三⻆形特征采样，确保查询、⽂本和视觉特征之间的⼀致性。输⼊的查询被初始化为可学习的嵌⼊，包含⼀个回归查询和多个分割查询。这⼀过程按以下⽅式进⾏：

通过这种⽅式，Triple Alignmen 模块能够在每⼀层迭代帮助三类特征实现有效地对⻬。

2.3 Multi-layer Multi-task Encoder-Decoder

Multi-layer Multi-task Encoder-Decoder 是目标对接阶段的核心部分，旨在通过跨模态融合和目标对接同时执行边框回归任务和边框分割任务。编码器部分融合了文本和视觉特征，每一层通过多头自注意力层（MHSA）和前馈网络（FFN）过程实现提升。

解码器部分则通过 bbox2seg 范式将边框注释转化为分割掩码，分割掩码将框内的像素标记为前景（值为 1），而框外像素则标记为背景（值为 0）。在每一解码层中，一个回归查询用于回归边框，多个分割查询则用于对目标进行分割。

上述公式中，各种损失函数（如 L1 损失、GIoU 损失、Focal 损失和 Dice 损失）被结合用于驱动模型的训练过程，使得模型在执行回归和分割任务时获得强化的反馈。

通过将分割输出的信心值转化为 Focal 损失因子，可以有效地强调那些难以训练的数据样本，以进一步提升模型的性能。整体而言，SegVG 方法实现了对边框注释的最大化利用，并有效解决了多模态特征间的域差异问题，为视觉目标定位任务带来了重要的改进和提升。

实验

在实验部分，研究者对所提出的 SegVG 模型进行了全面的评估，涉及多个标准数据集和不同的实验设置，以验证其有效性和优越性。

3.1 指标与数据集

研究者采用的主要评估指标是交并比（IoU）和前 1 准确率，以评估预测边界框与真实边界框的匹配程度。使用的标准基准数据集包括 RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd 以及 Refer It Game 等。

3.2 实施细节

研究中对数据输入进行了特别配置，使用 640x640 的图像大小，以及最大文本⻓度设定为 40。当图像大小调整时，会保持原始宽高比。模型的训练过程采用 AdamW 优化器，及其学习率和权重衰减参数。

3.3 定量结果

在定量实验中，SegVG 模型在所有基准数据集中表现出色。例如，在 RefCOCO+ 数据集上，其预先训练模型在各个子集上相较于之前的最先进模型取得了显著提升，分别达到了 2.99%、3.7% 和 2.42% 的准确率提升。

在 RefCOCOg 数据集上，SegVG 同样取得了 +3.03%、+2.31% 和 +3.24% 的准确率提升。这些结果证明了结合 Triple Alignment 和 Multi- layer Multi-task Encoder-Decoder 后，模型在目标定位和准确性上的提升。

3.4 消融研究

进一步分析通过控制变量法对各个模块的有效性进行消融研究。研究显示，加入 Triple Alignment 模块后，可以有效消除查询、文本及视觉特征之间的领域差异，进而促进后续的目标定位。此外，通过加入 Multi-layer Multi-task 监督，能够迭代充分利用注释信息，从而增强查询表示的学习能力。