[PaperRead]DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation

「这是我参与2022首次更文挑战的第9天，活动详情查看：2022首次更文挑战」。

论文名称：DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation

作者： Hanchao Li, Pengfei Xiong∗ Haoqiang Fan, Jian Sun

Code：

摘要和介绍

提出DFANet，从单个轻量级主干网络开始，分别通过子网（sub-network）和子级（sub-stage）的级联来聚合显著（discriminative）特征，基于多尺度特征传播，大大降低了参数量，但仍然获得了足够的感受野，增强了模型的学习能力。相较于sota减小了8倍的FLOPs，速度增快2倍；
在DFANet中，提出两种策略来实现模型中的跨级别特征聚合。第一，重用主干提取的高级特征，以弥合语义信息和结构细节之间的鸿沟。第二，结合网络体系结构处理路径中不同阶段的特征，增强特征表示能力。这些想法如下图所示：上图分别表示多分支、特征金字塔、网络级的特征重用、阶段级的特征重用。

BiSeNet就是多分支的经典网络，但是多分支模型其缺点十分明显，它们缺乏处理并行分支的能力，并且并行分支之间缺乏通信。

语义分割中，空间金字塔池化经常被使用，但是其非常耗时。

作者从实时语义分割方法的计算量开始观察和分析，这促使作者在特征提取网络的不同深度设置将细节和空间信息结合的聚合策略。

网络整体结构如图所示：

其中c表示concat，xN表示上采样操作。

网络结构图看起来很复杂，其实就是网络级的特征重用和阶段级的特征重用结合。

DFANet可以视为一个编码器-解码器结构，编码器由三个Xception主干组成，通过子网络聚合和子阶段聚合方法组成，对于实时推理，我们通常不太关注解码器，因此解码器被设计为一个简单高效的上采样模块，用于融合高低级特征。

Backbone：

基础的backbone是一个轻量级的Xception网络，几乎没有对其修改；

对于语义分割任务，不仅需要获取密集的特征表示，还要获取语义上下文的表达，因此，保留了backbone在ImageNet上预训练时的全连接层来增强语义信息的提取，这也是文中fc attention的由来。

Encoder：

编码器由三个backbone组成，分别使用两种聚合策略——子网络聚合和子阶段聚合，具体流程如下：

第一个主干网络会下采样8倍，其输出会上采样4倍，与enc2输出的特征图concat输入第二个主干网络；
第二个主干网络会下采样4倍，其输出会上采样4倍，与enc2输出的特征图concat输入第三个主干网络，其中每个encn之间都会接受来自第一个主干网络对应大小的输出作为额外输入与前一个encn进行concat；
第三个主干网络同理。

Decoder：

解码器没有使用太多卷积，结构如下：