1 Introduction
近年来,目标检测取得了重大突破。然而,虽然现有的两阶段目标检测算法具有较高的精度,但检测速度很慢,无法满足实时性要求。单阶段目标检测算法可以满足实时性的要求,但检测能力较差,特别是对于小目标的检测。
在本文中,我们提出了一种端到端特征融合和特征增强SSD (FESSD)目标检测算法来提高单阶段目标检测的能力。首先,使用更深的 ResNet-50 将 VGG16 替换为骨干网络以获得更丰富的语义信息。添加了五个额外的层来生成不同大小的特征图,用于多尺度目标检测。然后,通过最大池化特征融合模块(MPFFM)和上采样特征融合模块(UPFFM)融合特征图,生成新的特征金字塔,将语义信息引入浅层特征映射中。最后,利用特征增强模块(FEM)扩展输出特征图的感受野,引入更多的上下文信息,进一步增强模型的特征表达能力。\
然而,检测到的对象的尺度变化仍然是所有检测算法的关键挑战。为了在能够检查具有显着大小差异的目标的同时对抗检测精度和速度,许多研究 [13, 15, 30, 34] 致力于开发特征金字塔,以使用特征金字塔生成的多尺度特征图生成多尺度特征表示。SSD[18]这样的网络提出了一种典型的金字塔结构,如图1a所示。单尺度的压力通过构建多尺度特征金字塔来检测多尺度特征来减少特征。目的是使用较早的层和使用更深的特征更大的对象来检测更小的对象。然而,小目标的检测是有限的,因为较早层的特征与较深的特征不够融合。
为了追求更好的目标检测效果,我们参考SSD[18]模型,提出了一种特征融合和特征增强SSD (FESSD)目标检测算法。首先,使用更深的 ResNet-50 [8] 将 VGG16 [29] 替换为模型的骨干网络以获得更丰富的语义信息,并添加了五个额外的层生成不同大小的特征图进行多尺度目标检测。接下来,设计的最大池化特征融合模块在最大输出特征图和 1×1 特征图之间执行特征融合。然后,通过上采样特征融合模块将生成的1×1融合特征图与金字塔结构生成的特征图进行融合,生成新的特征金字塔,将语义信息引入浅层特征映射中。最后,设计了一个特征增强模块,利用扩张卷积扩展输出特征图的感受野,从不同尺度的感受野中提取特征,引入更多的上下文信息,进一步增强模型特征的表达能力。
我们使用 ResNet-50 作为主干网络来获得比原始 SSD 目标检测算法更丰富的语义信息。
我们添加了五个额外的层来生成不同大小的特征图,用于多尺度目标检测。
•我们设计了最大池化特征融合模块和上采样特征融合模块来融合不同层的特征信息,生成新的特征金字塔,将语义信息引入浅层特征映射中。
• 我们设计了一个特征增强模块,从不同尺度的感受野中提取特征,并引入更多的上下文信息来增强模型的特征表达能力。
• 我们在 PASCAL VOC 和 MS COCO 数据集上进行了实验,我们提出的 FESSD 对象检测
2 Related work
2.1 Single shot multibox detector (SSD)
与 YOLO [23] 一样,SSD [18] 是一种单级检测器,它通过处理不同级别的特征图来提高不同尺度的检测精度,同时提高检测速度。如图 2 所示,该模型使用 VGG16 网络作为主干,将网络末端的全连接层转换为卷积层,并添加四个额外的层以获得更多的特征图。该方法利用早期特征图的高分辨率来检测较小的目标和深度特征图的低分辨率来检测较大的目标。他们为不同大小的特征图设置了不同的纵横比和先验框的数量,通过两个 3 × 3 卷积层预测默认边界框的类别分数和位置偏移,并通过非最大抑制 (NMS) 的后处理策略生成最终的定位边界框。
2.2 Feature fusion
不同层的特征图包含不同的特征信息。前一层的特征具有较高的分辨率和丰富的几何细节。相比之下,来自较深层的特征具有丰富的语义抽象信息,对目标姿态和位置的变化具有鲁棒性。早期的层特征和更深的层特征对于检测图像中的目标都很重要。因此,通过上采样操作提高深度特征图的分辨率,并将它们与浅层特征融合,生成高分辨率和更丰富的语义信息的特征图已成为提高目标检测性能的重要方法,受到了研究人员的广泛关注。Ye等人[36]提出了一种并行结构,由积极学习代表性特征层结构的低、中、高深度CNN子模型组成。Cao等人[2]设计了两种不同类型的特征融合框架,以更好地利用更深层次的特征来丰富早期特征的语义信息。FCN [19] 和 U-Net [27] 使用跳转连接将较早的层特征与更深的层特征相关联,以充分利用合成信息来提高性能。为了有效补偿特征提取过程中卷积层深化时特征频率信息的丢失,Mao等人[21]利用自适应高频和低频域信道信息的两个分支来融合目标。
2.3 Attentional mechanisms
2.4 Feature enhancement
特征增强能够在目标遮挡、杂乱的背景信息或图像质量差的情况下,基于图像的上下文信息对目标进行更有效、更准确的检测。现有的目标检测模型主要考虑将上下文信息划分为全局和局部上下文信息。Shi等人[28]提出了FFESSD,它使用SFE模块来增强浅语义信息,DFE模块支持深度特征映射,具有更多的输入图像信息。Lu等人[20]提出了MRF(多尺度接受域),通过多个并行分支引入更多的上下文信息,丰富了浅层特征信息。受人类视觉的启发,Liu 等人。 [17] 提出了 RFB(感受野块)模块,该模块使用扩张卷积来扩展感受野并增强特征的表现力
3 Methods\
FESSD 在本节中,我们将描述FESSD的细节。如图3所示,我们使用ResNet-50作为骨干网络,同时添加5个额外的层来生成不同特征图大小。我们设计了一个最大池化特征融合模块和上采样特征融合模块来生成一个新的特征金字塔,将语义信息引入浅层特征映射中。此外,我们在新的金字塔后面添加了一个 FEM 模块,以提高模型特征的表达能力。
3.1改进的骨干网和额外的特征层
SSD[18]算法在检测精度和速度方面具有优势。然而,由于深度特征提取不足,小目标检测效果较差。为了获得小目标的丰富语义信息,我们使用具有残差学习单元的 ResNet-50 而不是 VGG-16 作为骨干网络。ResNet-50 可以解决网络中深度网络引起的梯度消失问题,它具有比 VGG-16 更深的网络,可以提取语义信息更丰富的特征图。如图 4 所示,我们删除了 Conv5-3 和全连接层,并使用 Conv4-6 的输出作为我们 FESSD 的第一个特征图 F1。然后,卷积神经网络添加五个额外的层,分别输出五个特征图 F2、F3、F4、F5 和 F6。具体参数如表1所示。突出目标的显着特征。然后,使用1×1卷积得到与输出特征图F6相同的通道。最后,池化特征图和F6按元素求和。经过上述处理后,融合后的特征图F 6包含丰富的语义信息
3.2.2上采样特征融合模块(UPFFM)
说明了我们的上采样特征融合模块。首先,我们采用融合后的特征图F 6进行双线性插值上采样操作。SE-Net[10]注意力模块专注于重要的权重分布不同的特征通道。然后,利用concat将上采样特征图与输出特征图F1、F2、F3、F4和F5融合,生成新的特征金字塔。最后,在 concat 之后使用 a3 × 3 卷积来降低通道维度,同时消除混合效果。经过上述处理后,融合特征的通道数保持不变。然而,融合后的特征图不仅包含当前层的详细信息,还包含深层语义和浅层的详细信息。数学描述如式(2)所示。其中 Fi 和 F 6 表示输入特征图,cat 表示 concat 操作。UP 表示双线性上采样。S表示SE-Net通道注意机制。C 表示卷积操作,下标表示卷积核大小。F i 表示融合输出特征图
3.3特征增强模块
一般来说,背景信息有利于提高目标检测能力。为了获得更多的背景信息,需要扩大网络的感受野。在卷积神经网络中,下采样操作和池化操作都可以扩展感受野
我们使用膨胀卷积作为基本元素来构造特征增强模块(FEM)。如图 7 所示,
3.4损失函数
我们的FESSD目标检测算法采用与原始SSD[18]算法相同的损失函数,即置信度误差和位置误差的加权和。