Improved YOLOv5 network for real-time multi-scale traffic sign detection(2021))

765 阅读9分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

参考

author

image.png

paper

[2112.08782] Improved YOLOv5 network for real-time multi-scale traffic sign detection (arxiv.org)

code

data

Abstract

  • 交通标志检测对于无人驾驶系统来说是一项具有挑战性的任务,尤其是对于多尺度目标的检测和检测的实时性问题。在交通标志检测过程中,目标的规模变化很大,这会对检测精度产生一定的影响。特征金字塔被广泛用于解决这一问题,但它可能会破坏不同尺度交通标志的特征一致性。此外,在实际应用中,常规方法难以在保证实时检测的同时提高多尺度交通标志的检测精度。本文提出了一种改进的特征金字塔模型AF-FPN,该模型利用自适应注意模块(AAM)和特征增强模块(FEM)来减少特征地图生成过程中的信息损失,增强特征金字塔的表示能力。我们用AF-FPN代替了YOLOv5中原有的特征金字塔网络,在保证实时检测的前提下,提高了YOLOv5网络对多尺度目标的检测性能。此外,还提出了一种新的自动学习数据扩充方法,以丰富数据集,提高模型的鲁棒性,使其更适合实际场景。在清华腾讯100K(TT100K)数据集上的大量实验结果表明,与几种最先进的方法相比,我们的方法更具通用性和优越性。

1 Introduction

  • 本文提出了一种改进的YOLOv5网络,它不仅保证了模型尺寸能够满足车辆侧部署的要求,而且提高了多尺度目标的能力,满足了实时性的要求。主要贡献如下:
  • 提出了一种新的特征金字塔网络。通过自适应特征融合和感受野增强,在很大程度上保留了特征传递过程中的通道信息,并在每个特征映射中自适应学习不同的感受野,增强了特征金字塔的表示,有效地提高了多尺度目标识别的准确性。
  • 提出了一种新的自动学习数据扩充策略。受AutoAugment[10]的启发,添加了最新的数据增强操作。改进后的数据扩充方法有效地提高了模型的训练效果和训练模型的鲁棒性,具有更大的现实意义。
  • 与现有的YOLOv5网络不同,当前版本经过了改进,以减少尺度不变性的影响。同时,它可以部署在车辆的移动终端上,实时检测和识别交通标志。

2 Related Works

  • 邵等人[15,16]提出了一种改进的快速R-CNN交通标志检测方法。他们通过区域建议算法简化了Gabor小波,以提高网络的识别速度。Zhang等人[17]基于YOLOv2修改了网络中的卷积层数,提出了一种改进的单级交通标志检测器,并使用中国交通标志数据集进行训练,使其更好地适应中国交通道路场景。为了识别小型交通标志[18],开发了一种新的感知生成对抗网络,该网络通过生成小型交通标志的超分辨率表示来提高检测性能。针对交通标志检测中的尺度变化问题,SADANet[19]将域自适应网络与多尺度预测网络相结合,以提高网络提取多尺度特征的能力。
  • 上述网络大多采用单级检测,且仅使用单尺度深度特征,因此在复杂的交通场景中很难获得优异的检测和识别性能。不同尺度的交通标志实例在视觉特征上存在较大差异,交通标志在整个交通场景图像中所占比例很小。因此,尺度变化问题已成为交通标志检测与识别的一大挑战。学习尺度不变表示对于目标识别和定位至关重要[20]。目前,这一挑战主要从两个方面解决:网络架构修改和数据扩充[21]。
  • 目前,多尺度特征被广泛应用于高层目标识别中,以提高多尺度目标的识别性能[22]。特征金字塔网络(FPN)[23]作为一种常用的多层特征融合方法,利用其多尺度表达能力衍生出许多具有高检测精度的网络,如Mask R-CNN[24]和RetinaNet[25]。值得注意的是,由于特征通道的减少,特征地图将遭受信息损失,并且在其他级别的特征地图中只包含一些不太相关的上下文信息。此外,FPN过于注重底层特征的提取和优化。随着通道数量的减少,高级特征将丢失大量信息,从而降低大规模目标的检测精度[22]。针对这个问题,提出了一种简单而有效的方法,称为感受野金字塔(RFP)[26],以增强特征金字塔的表示能力,并驱动网络学习最佳特征融合模式[14]。

3 Proposed Method

3.1 The improved YOLOv5s network framework

  • YOLOv5的基本框架可分为四个部分:Input, Backbone, Neck, and Prediction[37]。输入部分通过mosaic数据扩充来丰富数据集,对硬件设备要求低,计算成本低。然而,这会导致数据集中的原始小目标变小,导致模型的泛化性能恶化。主干部分主要由CSP模块组成,这些模块通过CSPDarknet53执行特征提取[13]。FPN和路径聚合网络(PANet)[38]用于聚合颈部现阶段的图像特征。最后,网络进行目标预测并通过预测输出。
  • 本文引入AF-FPN和自动学习数据扩充技术,解决了模型大小与识别精度不兼容的问题,进一步提高了模型的识别性能。将原来的FPN结构替换为AF-FPN,以提高识别多尺度目标的能力,并在识别速度和准确度之间进行有效权衡[26]。此外,我们去除了原始网络中的马赛克增强,并根据自动学习数据增强策略使用最佳的数据增强方法来丰富数据集并提高性能.

3.2 AF-FPN structure

  • 在传统特征金字塔网络的基础上,AF-FPN增加了自适应注意模块(AAM)和特征增强模块(FEM)。前一部分减少了由于特征通道减少而导致的高层特征图中上下文信息的丢失。后一部分增强了特征金字塔的表示,加快了推理速度,同时实现了最先进的性能。AF-FPN的结构如图2所示。

image.png

  • 输入图像通过多次卷积生成特征映射{C1、C2、C3、C4、C5}。C5通过AAM生成特征图M6。M6和M5通过求和进行组合,并通过自上而下的路径传播到较低级别的其他特征融合,每次融合后通过FEM扩展感受野。PANet缩短了较低层和最顶层特征之间的信息路径.
  • 自适应注意力模块的操作可分为两个步骤。首先,通过自适应平均池层获得不同尺度的多个上下文特征。池系数β为[0.1,0.5],它根据数据集中的目标大小自适应地变化。其次,通过空间注意机制为每个特征图生成空间权重图。通过权重图,融合上下文特征,生成包含多尺度上下文信息的新特征图。新的特征图与原始高级特征图相结合,并传播以与较低级别的其他特征融合。
  • AAM的具体结构如图3所示。作为自适应注意模块的输入,C5的大小为S=h×w。它首先通过自适应池层获得不同尺度(β1×S、β2×S、β3×S)的上下文特征。然后,对每个上下文特征进行1×1卷积,以获得相同的通道维度256。双线性插值用于将它们向上采样到S的尺度,以便后续融合。空间注意机制通过Concat层将三个上下文特征的通道合并,然后特征映射依次经过1×1卷积层、ReLU激活层、3×3卷积层和sigmoid激活层,为每个特征映射生成相应的空间权重。生成的权重图和合并通道后的特征图进行Hadamard乘积运算,将其分离并添加到输入特征图M5中,以将上下文特征聚合到M6中。最终的特征图具有丰富的多尺度上下文信息,在一定程度上缓解了由于通道数量减少而造成的信息损失。

image.png

  • FEM主要是利用扩张卷积,根据检测到的交通标志的不同尺度,自适应地学习每个特征地图中的不同感受野,从而提高多尺度目标检测和识别的精度。如图4所示,它可以分为两个组件:多分支卷积层和分支池层。多分支卷积层用于通过扩展卷积为输入特征图提供不同大小的感受野。采用平均池层融合三个分支接收野的交通信息,提高多尺度预测的准确性。

image.png

  • 多分支卷积层由扩张卷积层、BN层和ReLU激活层组成。三个并行分支中的扩张卷积具有相同的核大小,但扩张率不同。具体来说,每个扩张卷积的核是3×3,不同分支的扩张率d是1、3和5。

  • Dilated convolutions 支持以指数方式扩展感受野,而不会失去分辨率或覆盖范围[42]。然而,在扩张卷积的卷积运算中,卷积核的元素是间隔的,空间的大小取决于扩张率,这与标准卷积运算中所有相邻的卷积核元素不同。