它通过从输入特征图上的参考窗口预测它们的转换来处理一组盒子
最近的证据表明归纳偏差在自然语言处理和计算机视觉中都至关重要,图像识别和对象检测的主要工作都利用了“空间信息”。此外,强大而有效的归纳偏差使我们能够更快地收敛并更好地泛化。网络架构中的归纳偏差提供了强大的学习能力,这已被众所周知的架构(例如卷积神经网络和长短期记忆)证明。特别是,我们在 Transformer 的注意力模块中假设更好的空间归纳偏差可以更好地学习图像特征的表示。
在机器学习中,空间归纳偏差指的是模型对于空间数据的特征进行归纳时的偏差。这种偏差可能会导致模型对于空间数据的特征进行错误的推断或归纳。这种偏差可能源自于模型本身的结构、训练数据的不足或者特征选择的不当。
本文的第一个贡献是端到端视觉。它不是在感兴趣的区域中使用图像特征,而是将一组表示网格结构中相对位置的可学习嵌入视为注意力计算中的关键向量。在我们的第二个贡献中,在第 4 节中,这些计算被封装成一个复合网络,我们称之为 BoxeR-2D,简称 Box transformeR,它可以在端到端对象检测和实例分割任务中做出更好的预测。在第5节中,BoxeR-2D和box-attention然后扩展到BoxeR-3D,以解决端到端3D对象检测,而不需要3D-IoU计算、锚点和对象中心的热图。这种对 3D 对象检测的扩展是我们的第三个贡献,见图 1。实现了端到端对象检测的领先结果。所提出的方法为端到端实例分割引入了一个简单的解决方案,在具有挑战性的 COCO 实例分割数据集上,其性能优于许多成熟且高度优化的架构,参数数量更少。
左:Box-Attention 中的注意力计算,参考窗口(用黄色表示)没有任何转换。给定一个查询向量,Box-Attention 计算 3×3 网格特征上的注意力图,查询位置作为其中心。注意力权重是通过查询和相对位置编码之间的矩阵乘法作为键生成的。右图:没有转换的 Box-Attention。带变换的Box-Attention能够聚焦于图像中的动态区域。
BoxeR 提出了一种用于户外场景端到端 3D 对象检测的解决方案,该解决方案简单地使用鸟瞰图特征来预测对象,而无需非最大抑制、3D 旋转 IoU 或复杂的初始化方法。Box-attention 是一种多头注意力机制,旨在关注图像特征图中感兴趣的框。为此,它对每个框内的网格进行采样,并从网格结构计算采样特征的注意力权重,使该模块易于推广到 2D 或 3D 对象检测以及实例分割。在注意力计算的每个头部,通过从预定义的参考窗口中预测几何变换(即平移、缩放和旋转)来生成感兴趣的框。
l 个注意力头的多头自注意力通过计算对应于关键向量 (K) 的值特征 (V) 的加权平均值向量来生成查询 (Q) 的输出特征:
其中 hi= Attention(QW Q i , KW K i , VW V i )。selfattention 模块使用 Q 和 K 之间特征的点积计算每个头部的注意力图,其中计算随着矩阵大小的二次增长。
BoxeR-2D 将对应于对象建议的编码器特征作为其对象查询。然后使用实例注意将对象查询解码为边界框和像素掩码。
BoxeR-2D:Box Transformer
BoxeR由一个编码器组成,用于对从主干中提取的多尺度特征图进行编码,以及一个用于预测实例边界框和像素掩码的解码器。我们没有将对象提议阶段预测的边界框的正弦嵌入视为对象查询[48],而是简单地将分类分数最高的编码器特征(由线性投影转换)作为解码器的输入特征。这为BoxeR解码器提供了更丰富的信息,因为编码器特征同时包含空间和上下文信息。预测的边界框被视为解码器中相应建议的参考窗口。在每个 BoxeR 解码器层中,交叉注意力子层是我们的多头实例注意力,而自注意力和前馈子层保持不变。来自编码器的对象建议的特征是BoxeR解码器的输入。在这个阶段对对象建议的参考窗口进行细化,以便给出准确的预测。我们设计了检测头来预测边界框作为相对偏移量 w.r.t。其参考窗口大小和位置。参考窗口作为预测阶段其对象提议特征的初始猜测。
BoxeR-3D: End-to-end 3D Object Detection
表示q的参考窗口,其中x, y表示其中心位置,wx, wy为窗口的宽度和高度,θ为bq在归一化坐标中心周围的旋转角度。最终的旋转函数 Fr 预测窗口旋转角度的偏移量。然后,它在从bq采样的m×m网格坐标上应用旋转矩阵.这些方法对每个类使用不同的锚大小、热图或主干。我们的网络还消除了对手工制作的模块的需求,例如旋转非最大抑制或 3D IoU 计算。