Exploring Plain Vision Transformer Backbones for Object Detection

40 阅读2分钟

我们探索了普通的、非分层的视觉转换器(ViT)作为目标检测的骨干网络。使用预训练为 Masked Autoencoders (MAE) 的普通 ViT 主干,典型的分层主干检测器(左)与我们的普通主干检测器(右)。传统的分层主干可以自然地适应多尺度检测,例如使用 FPN。相反,我们探索仅从普通主干的最后一个大步幅 (16) 特征图构建一个简单的金字塔。
image.png
我们的检测器仅从普通 ViT 主干的最后一个特征图构建了一个简单的特征金字塔(图 1)。这放弃了FPN设计[37],放弃了分层主干的要求。为了有效地从高分辨率图像中提取特征,我们的检测器使用简单的非重叠窗口注意力(没有“移位”,与 [42] 不同)。少量跨窗口块(例如,4),可以是全局注意力 [54] 或卷积,用于传播信息。这些适应仅在微调期间进行,不会改变预训练。它们还可以从某种形式的监督或自我监督的预训练中学习尺度等变特征。
FPN 设计在普通 ViT 主干的情况下是不必要的,其好处可以通过从大步幅 (16)、单尺度图构建的简单金字塔有效地获得。我们还发现,只要信息在少量层中跨窗口很好地传播,窗口注意力就足够了。特定于检测的先验知识只在微调期间引入,而不需要在训练前先验地定制主干设计。

我们在每个子集的最后一个块中应用传播策略。我们研究了这两种策略:

(i) 全局传播。我们在每个子集的最后一个块中执行全局自注意力。由于全局块的数量很小,内存和计算成本是可行的。这类似于[34]中与FPN联合使用的混合窗口注意。(ii) 卷积传播。作为替代方案,我们在每个子集之后添加了一个额外的卷积块。卷积块是一个剩余块[27],它由一个或多个卷积和标识快捷方式组成。该块中的最后一层被初始化为零,使得块的初始状态是标识[22]。将块初始化为身份使我们能够将其插入到预先训练的主干中的任何位置,而不会破坏主干的初始状态。虽然追求归纳偏差较少的检测头是一项活跃的研究领域,但 DETR [5] 等领先方法难以训练,并且仍然受益于特定于检测的先验知识 [60]。