本文已参与「新人创作礼」活动,一起开启掘金创作之路。
参考:
Author
paper
code(None)
Abstract
One-shot对象检测旨在仅根据一个给定实例检测新对象。由于数据极度稀缺,目前的方法探索各种特征融合以获得可直接转移的元知识。然而,他们的表现往往不尽如人意。在本文中,我们将此归因于不适当的相关方法,这些方法通过忽略空间结构和尺度变化来错配查询支持语义。经过分析,我们利用注意力机制并提出了一种简单但有效的架构,称为语义对齐融合转换器(SaFT)来解决这些问题。具体来说,我们为 SaFT 配备了用于跨尺度语义增强的垂直融合模块(VFM)和用于跨样本特征融合的水平融合模块(HFM)。他们将每个特征点的视野从支持扩大到查询的整个增强特征金字塔,促进语义对齐的关联。
在多个基准上进行的大量实验证明了我们框架的优越性。如果不对新类进行微调,它会为单阶段基线带来显着的性能提升,将最先进的结果提升到更高的水平。
introduction
近年来,大规模感知系统如[3,23]蓬勃发展。然而,要实现真正的人类智能,还有很长的路要走。作为潜在的问题之一,few-shot learning 少样本学习在语言[1,17,47,59]到视觉[15,24,37,48,50,53,55]相关任务中获得了越来越多的关注。该场景旨在学习一个具有几乎没有标记数据的通用模型,这对传统的学习范式提出了挑战。
为了弥补上述few-shot object detection(FSD)的差距,现有文献建议从transfer-learning [7,16,49,55,56,66]或meta-learning[15,24,27,28,57,58,62]中寻找解决方法。虽然前者通过对大量基类进行预训练和对少量新基类进行微调来实现非常简单,但它受到两阶段冗余过程的影响。这个网络应该在能够很好地识别这些novel classes之前,始终利用新的few-shot data来优化参数,从而限制了它的应用。相比之下,后一种趋势考虑从抽样的元任务中提取元知识。这一系列框架有望直接适应类似组织的任务,甚至不需要在线微调,尽管它(在线微调)通常有助于提高性能。目前,这种离线元学习模式是one-shot object detection(OSD)特定管道的首选,具有开箱即用的可用性。
在这样的环境中,应该很好地构建模型,以了解给定场景(the query)和example patch(the support)之间的关系。为了促进这一点,一系列工作[15、21、24、28、38、40、58、62]研究了交叉样本特征融合,它通过样本或ROI级别的相关性,用支持表示来增强查询特征。
然而,忽略语义在空间和尺度上的不匹配限制了它们在一次性场景中的表现。
具体来说,传统范式建议从支持生成原型(generating a prototype)[15,24]或内核(kernel)[62],以便与查询功能关联。随着大多数空间信息被压缩,两者之间的长期结构依赖关系几乎没有被挖掘出来。
不同融合方法的可视化。我们在(b)、(c)、(d)中介绍了以前的融合方案,在(e)中,我们提出了一种语义一致的注意作为一种语义一致的融合。图像被分割成小块进行说明,每个小块代表一个特征点的感受野。唯一的绿色补丁表示预期响应的查询,蓝色补丁表示有助于融合结果的一个特征点的值,黄色补丁表示与这些值交互的键。(e)中的绿线表示两对理想匹配,其中使用了不同粒度的查询特征。支持样本在重新加权和相关方案中进行缩放,以可视化其在空间信息中的压缩。
- 尽管图2(b)中的池化原型(pooled prototypes)和图2(c)中的学习核(learned kernels)在区分一个类别和另一个类别方面是有效的,但它们包含的定位先验较少,因此阻碍了它们的定位能力。 此外,这些方案将全局支持表示与本地查询上下文相匹配,而不考虑语义不一致。
- 一种新的趋势[6,22]寻求注意力机制的帮助,以实现适应性特征融合。虽然在一定程度上缓解了讨论的问题,但它们通常集中在单一尺度上的特征对上,如图2(d)所示,将多尺度检测任务留给后来基于锚的检测器头。因此,当目标分散在不同的尺度上时,这是没有意义的。例如,在图2(e)中,巴士车轮和后轮的理想匹配在于两个不同级别的查询功能,使得任何单一规模的尝试都次优。简单的多尺度实现也无法解决这个问题,因为它将查询和支持一次融合一个尺度。如果没有跨尺度的远程交互,这种僵化的方式可能会在语义缺失的情况下失败,例如在形状和大小上的遮挡或查询支持不一致。
为了鼓励OSD中更合适、更充分的特征交互,我们建议将Support中的每个特征点与Query特征金字塔中的每个特征点进行自适应融合。因此,原始的注意机制扩展到语义一致的注意,如图2(e)所示。首先将每一侧的特征分解为语义单元,即特征点。然后,这些单元以全局方式相互作用,不仅在查询支持样本对之间(水平)而且在不同的尺度之间(垂直)。由于对象和对象的部分可能在不同的尺度和位置上展开,关联过程加权将多个语义单元并置以进行适当匹配。通过这种方式,语义一致的注意力丰富了每个特征点可以利用的语义空间,从而促进查询和支持之间更好的一致性。
我们的语Semantic-aligned Fusion Transformer(SaFT)实现了这种融合方案,图3展示了其整体结构。它遵循一个无需提案的单阶段设计,并且可以通过基于提案的级联头轻松扩展到两阶段管道。与采用重新加权或相关的联合框架相比,SaFT还包含一个垂直融合模块(VFM)和一个水平融合模块(HFM)。前者放在特征抽取器之后,共同形成一个暹罗主干,然后是后者。VFM通过图5中的垂直注意(VA)来准备规模、关注的特征,HFM通过图4中的水平注意(HA)查询和支持来利用这些特征。请注意,单个级别的支持功能与另一侧的多个功能交互,以获得全面的视图。由于注意力机制所模拟的交叉尺度和交叉样本相关性,SaFT在PASCAL-VOC和MS-COCO数据集中都取得了显著的性能提升。
图3
用于一次性目标检测的语义对齐融合转换器的体系结构。深色表示主干中较深层的特征,如图5所示。VFM和HFM分别是垂直融合模块和水平融合模块。
Related Work
General Object Detection
- 给定一张普通的图像,一般的目标检测旨在对相关对象进行定位和分类。现代检测器大致可分为两类,即基于两阶段提议的方法和无一阶段提议的方法。两个阶段的管道[4,8,18,19,31,44]在第一阶段生成一组类不可知区域建议,并在第二阶段重新细化并将其分类为最终结果。相比之下,单阶段方法使用类感知定位器来省略第二阶段,主要基于密集放置的anchor boxes[32,36,43]或anchor points[12,26,51,63]。与这些不同的是,另一项工作最近引领了一种新趋势,即启发式自由设计。通过引入注意机制,DETR系列[5,9,67]在完全端到端的情况下取得了更好的性能。我们的模型建立在一级探测器FCOS[51]的基础上,用于模拟易用性,而作为融合颈,它相当于即插即用。
One/Few-shot Object Detection
- 由于有足够的基类数据,而新类的样本有限,很少有镜头场景会给目标检测带来更多挑战。在解决这个问题方面,最近的工作主要有两条:transfer-learning or meta-learning techniques。基于transfer-learning的方法[7,16,42,49,55,56,61,64,66]遵循两阶段训练模式,即预训练和微调,将知识从基类转换到新类。通过比较,后一种趋势[15,22,24,27–29,57,58,62]以元学习的形式重新审视问题,通过元任务抽样和基于区域的度量学习鼓励有效的知识适应。OSD是FSD的一个极端情况,每个类别只能检测一个标签。更少的数据需要更多的泛化,产生了一系列离线模型[6,21],进一步探索相似性度量,放弃了微调阶段。在不同的任务设置下,这些方法与大多数采用度量学习的FSD网络共享一个共同的区域相似性比较策略[25,27,49,57,58]。换句话说,他们高度依赖region proposals,而在低成本情况下,这些proposals可能无法预测。与上述不同,我们的方法以无proposals的方式学习度量,从而提高效率和灵活性。
Multi-scale Feature Fusion
- 与生而具有连续变焦视野的人类不同,现代卷积特征提取程序通常以离散的方式提取样本图像。为了减弱这种方式带来的负面影响,多尺度特征融合技术在检测网络中得到了发展,带来了显著的性能提升。特征金字塔中的三条路径是独立的,即top-down [31], bottom-up [35] and within-scale。最近的研究通过密集和各种融合[30]以及注意机制[60,65]进一步丰富了多层次的信息交互。虽然交叉样本特征融合在单次/少次问题[6,10,21,34,38,41,50,53,57]中得到了广泛研究,但其交叉尺度对应物相对较少。因此,我们考虑了这两个维度的聚合,并提出了一种统一的注意机制,用于样本之间和尺度之间的特征融合。与同类产品相比,这种设计在实验上有助于语义对齐。
Method
Problem Definition
Framework
用于一次性目标检测的语义对齐融合转换器的体系结构。深色表示主干中较深层的特征,如图5所示。VFM和HFM分别是共享的垂直融合模块和后续的水平融合模块。VFM用于在层次上丰富每个样本的语义,HFM用于聚合两个样本的信息,以便以后进行分类和回归。
Feature Fusion via Dense Attention
-
注意力机制最初是在自然语言处理[52]中引入的,后来又被借用到视觉任务[5,11,54]中,它闻名于inductive bias in modeling long-range information.。更具体地说,在位置感知任务(如检测)中,多头注意(MHA)会采用位置编码[2,5,39],以促进一种具有:
PMA(Q,K,V) = MHA(Q+P(Q), K+P(K),V) (1)
-
其中,PMA表示带有位置编码的多头注意力机制,P表示位置编码。
-
提出的dense attention (DA)
这个公式没懂, 论文里也没说清,中的F是个啥?文章中说到DA求解的是点到点的相关性, F是feature中的一个points? Q, K应该就是注意力机制中的Q, K, V , 原文如下图
- LN : layer normalization.
- DA : F^Q和F^K之间的点对点关联
- We further extends DA in form of self-attention (SA)
- and cross-attention (CA)
-
CAF indicates CA with a consecutive feed-forward network (FFN) and an add-and-norm.
-
在此基础上,我们提出了两种注意块:水平注意和垂直注意。两者的基本过程是一致的,先SA后CA。这种设计有助于提高适应性,因为SA选择地表达来自查询端的信息,CA加权平衡了双方。
看完了公式没有太懂, DA是在多头注意力机制的基础上再融合?
原文图
Cross-sample Horizontal Attention
-
DA-based cross-sample horizontal attention (HA)用于Q和S(sample样本)之间的特征融合。为了进行比较,我们首先简要回顾了FSD/OSD任务中基于常规卷积的方法,然后介绍了我们的方法。
-
从query和support中提取的一对特征F^Q和F^S开始,传统的成对操作要么提取原型,要么学习S的内核,然后通过图2(b)所示的通道乘法或图2(c)所示的卷积获得特定于类的增强特征。
-
enhanced query feature.
-
该模式突出显示了来自支持样本的类相关信息,同时丢弃了大多数空间语义。此外,由于与类相关的代表整个support patch,而其目标是a local area from the query,因此这种全局到局部的关联过程可能会导致空间和规模上的偏差。
-
相比之下,与和的每个位置对进行交互,如图2(d)所示。图4所示的单个HA块由一对SA和CAF构成。
- 其中,上划线和波浪线分别代表自关注功能self-attended features 和交叉关注cross-attended features功能。
- 我们将这些HA链块称为水平融合模块(HFM)。
- 直观地说,HFM进行全局到全局的相似性匹配和表达。它一个接一个地将查询和支持中的每个特征点关联起来,而不考虑它们的位置。该模式以可变形和可重组的方式从两侧对齐特征,从而使它们更具可比性。
Feature 4
水平注意力(HA)障碍。HA包括两个连续过程。(a) SA和CAF成对的迭代双向融合过程。(b) 使用SAs和CAF完成单向聚合过程。
Cross-scale Vertical Attention
- 除了Q和S在单尺度上的相互作用外,我们还通过跨尺度垂直注意(VA)增强了每个样本的多尺度语义。整个过程如图3所示,特写图如图5所示。为了展示其语义对齐能力,我们首先回顾了特征金字塔网络(FPN)。
FPN广泛应用于目标检测,是一种处理尺度变化的有效插件。它的构造块可以写成:
-----------------(13)
其中,和分别是由backbone提取的第j层特征,第j层特征和相邻尺度层融合后的相应结果。我们注意到,FPN从较higher levels收集语义特征,以补充lower levels的局部信息。尽管其丰富的上下文,但这种就地方案在捕获跨尺度远程信息方面存在不足,这些信息在OSD中可以是语义互补的,例如,排在长队中的人属于同一类别,但具有不同的外观特征。
- introduce VA Given a feature pyramid having strides extracted by backbone, VA starts from the self-enhancement of top level M, 比如
在自上而下的层次结构中, VA从高层自适应地在全局范围内查询相关信息。
- 其中,是来自j层的增强特征,在与下一级融合之前进行上采样,以便对齐。这个金字塔形的过程被称为垂直融合模块(VFM),旨在聚合多尺度全局语义。
- 与式(13)中的FPN相比,VFM在横向卷积和输出卷积之间插入了注意层。VFM不是在同一位置线性组合特征,而是促进更灵活的跨尺度特征交互和查询支持表示之间更好的匹配。该查询收集并丰富了分布在不同位置和范围内的潜在目标信息,而支持突出显示了跨范围一致的主要目标,并模糊了不相关的背景。此外,VFM与HFM合作,将支撑特征点的关注范围从单层扩展到多个尺度,如图2(e)所示。通过这一点到金字塔的连接,更丰富的语义和跨尺度长程相关性可以用于匹配,从而有助于查询支持对齐。