EMface Detecting Hard Faces by Exploring Receptive Field Pyraminds(2021)

217 阅读6分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

参考

author

image.png

paper

(PDF) EMface: Detecting Hard Faces by Exploring Receptive Field Pyraminds (researchgate.net)

code

emdata-ailab/EMface (github.com)

data

Abstract

  • 尺度变化是人脸检测中最具挑战性的问题之一。现代人脸检测器使用特征金字塔来处理尺度变化。然而,它可能会破坏不同尺度人脸的特征一致性。在本文中我们提出了一种简单而有效的方法,称为感受野金字塔(RFP)方法,以增强特征金字塔的表达能力。它可以根据检测到的人脸的不同尺度,自适应地学习每个特征图中的不同感受野。在两个人脸检测基准数据集(即宽脸和UFDD)上的实验结果表明,我们提出的方法可以显著加快推理速度,同时实现最先进的性能。

1. INTRODUCTION

  • 人脸检测中最具挑战性的问题之一是尺度变化的影响[20]。早期作品采用图像金字塔的方法来缓解尺度变化[15,21]。图像金字塔中的多尺度输入图像导致推理时间大幅增加[15],这使得其不适用于实际应用。现代人脸检测器采用特征金字塔来处理尺度变化[16–19]。他们使用来自不同CNN层的多尺度特征图来检测不同尺度的人脸。特征金字塔的表示能力不如图像金字塔强大。其中一个关键原因是,特征金字塔可能会打破不同尺度的一致性。具有不同比例的面将基于与定位框重叠的联合交集(IoU)指定给特征图。它可以将可能的面边界框的连续空间离散为具有预定义位置和形状的有限个框[14]。如图1所示,较大的面通常在高级特征映射中被检测到,而较小的面则在低级特征映射中被检测到。具有特定比例范围的人脸(例如,50×50、75×75和100×100像素的人脸)通常可以归入同一级别的特征地图。这将极大地影响特征金字塔对尺度变化的鲁棒性。
  • 为了提高特征金字塔的表示能力,我们提出了一种简单而有效的方法,称为感受野金字塔(RFP)。我们的主要目的是根据检测到的人脸的不同比例,让网络在每个特征图中自适应地具有不同的感受野。为此,我们设计了一个由多个具有不同感受野的平行分支组成的模块。我们让这个模块中的每个分支共享相同的结构和权重,但使用扩大的卷积具有不同的感受野[22]。然后,我们使用分支池来融合来自不同并行分支的信息。分支池平衡了训练期间并行分支的表示,并使单个分支能够在测试期间执行推理,这进一步显著降低了推理成本。从经验上看,所提出的方法可以显著加快推理速度,同时实现最先进的性能。主要工作如下:

(1) 我们提出了一种感受野金字塔方法来增强特征金字塔的表示,其中多个平行分支的设计具有相同的卷积权重,但不同的扩张率。

(2) 我们设计了一个分支池算子来平衡训练期间并行分支的表示,并在测试期间使单个分支能够实现推理,从而进一步加快了推理速度。

(3) 我们在两个人脸检测数据集宽脸和UFDD上验证了我们提出的方法的优越性。用最先进的方法,我们的推理速度可以达到最快的水平。

2. RELATED WORK

  • 在人脸检测中,基于CNN的特征逐渐取代了传统的手工特征提取。Li等人[21]提出了一种基于CNN的级联结构,用于人脸检测。检测器在早期阶段拒绝错误检测,并在后期阶段验证检测。MTCNN[15]提出了一种级联结构,通过多任务学习将CNN分为三个阶段,用于联合人脸检测和对齐。S3FD[16]是最早继承SSD[10]人脸检测框架的公司之一。与特征金字塔网络(FPN)[11]相关联的金字塔盒[18]和DSFD[19]采用了S3FD的基本结构,以改进低层特征映射中的语义。SRN[23]将两步分类和回归操作选择性地引入基于锚的人脸检测器,以减少误报,同时提高定位精度。
  • 许多研究讨论了计算机视觉中识别任务的感受野。在提出用于语义分割的ASPP[24]中,通过将萎缩的卷积特征与不同的扩张率连接起来,生成特征表示。RFB Net[13]提出了一种通过组合具有不同核的多个分支和扩展的convolution layer来增强特征鉴别能力的块。可变形卷积[12]试图根据物体的大小和形状自适应地调整感受野的空间分布,这在标准卷积中向常规网格采样位置添加了2D偏移。

3. OUR METHOD

image.png

  • 如图4所示,感受野金字塔(RFP)可分为两个主要部分:the multi-branch convolution layer and the branch pooling layer。前一部分是提供不同感受野的输入特征映射,后一部分是融合目标人脸的感受野金字塔。输出仍然与输入特征图大小相同,包括分辨率和通道数。

3.2.1. Multiple Branches.

image.png

  • 该模块由三个平行的扩张卷积分支组成,它们具有相同的核大小,但扩张率不同。具体来说,我们对不同的分支使用扩张率为1、3和5的扩张3×3卷积,如图4所示。我们还为每个分支应用ResNet[5]中的快捷方式设计。在本文中,我们正式考虑RFP模块,其定义如下:

image.png

  • 这里x和yi(i=1,2,3)是所考虑的分支的输入和输出向量。Wd=11,Wd=32,Wd=53表示三个分支中的卷积权重,其中d表示扩张率。为了进一步减少参数的数量,我们让不同的分支共享相同的权重,并且只改变每个分支的膨胀率:W1=W2=W3。

3.2.2. Branch Pooling.

  • 不同并行分支的输出通常按照1×1卷积层连接在一起,以减少通道数量,如ASPP[24]、RFB[13]等所示。为了避免在我们的模块中引入额外参数,我们建议分支池来融合来自不同并行分支的信息。假设多个分支的输出为:y1∈ RH×W×C,y2∈ RH×W×C,·yB∈ RH×W×C,其中H和W是空间高度和宽度轴,C是通道轴,B是分支数。我们计算沿B轴的平均合并特征。在本文中,我们假设B=3:

image.png 平均运算可以在训练期间平衡不同并行分支的表示,从而使单个分支在测试期间实现推理。