[PaperRead]Deep-Dual-resolution-Networks-for-Real-time-and-Accurate-Semantic-Seg

417 阅读4分钟

「这是我参与2022首次更文挑战的第15天,活动详情查看:2022首次更文挑战」。

论文名称:Deep-Dual-resolution-Networks-for-Real-time-and-Accurate-Semantic-Segmentation-of-Road-Scenes

作者:Y uanduo Hong, Huihui Pan, Weichao Sun

Code:github.com/ydhongHIT/D…

摘要和介绍

  1. 语义分割是车辆理解周围场景的关键技术,但是其繁重的计算和漫长的推理的时间是自动驾驶所不能接受的;
  2. 实时语义分割的相关工作大多使用encoder-decoder或two-pathway的轻量级架构,或是对低分辨率的图像进行预测,虽然能够实现较快的场景解析,但是这些方法与基于dilation的主干的模型在精度表现上仍有很大差距
  3. 为了解决上述问题,提出了一系列(a family)专门为实时语义分割设计的高效主干网络,称为Deep Dual-resolution Network,DDRNets由两个分支组成,在这个两个分支会进行多次的双边融合(bilateral fusions);
  4. 设计了一个上下文语义抽取器,被称为(Deep Aggregation pyramid pooling Module),用于扩大感受野,同时基于低分辨率特征图融合多尺度的上下文信息,而推理时间几乎没有增加; 0. SOTA!
image-20220118170841596

相关工作

High-performance Semantic Segmentation

目前,大多数最先进的(卷积)语义分割模型都是基于dilation的主干网络,同时需要网络保持高分辨率以获得良好的性能,然而高分辨率的计算量需求和dilation convolution的不充分优化注定了实时语义分割实现高性能的困难性。

image-20220118172904733

Real-time Semantic Segmentation

几乎所有的实时语义分割模型都采用了两种基本方法:encoder-decoder和two-pathway,同时轻量级的编码器在这两种方法中扮演着重要作用。

  1. 编码器-解码器结构

    这种结构很直观的减少了计算量和推理时间,并且其编码器是可以在ImageNet上预先训练的轻量级主干网络,也可以是从头训练的高效变体,相关工作有SwiftNet、FANet、SFNet等。

    image-20220118172921225

  2. 双路结构

    编码器-解码器结构虽然降低了计算量,但是在重复下采样中丢失了一些信息,为了缓解这个问题,提出了双路结构,除了一个提取语义信息的路径之外,另一条高分辨率的路径作为补充提供丰富的空间细节,相关工作有BiSeNetv1 v2、Fast SCNN、CABiNet等。

    image-20220118173534151

  3. 轻量级编码器

    许多轻量的主干都可以用作编码器——MobileNet、ShuffleNet、Xception等,然而这些网络包含许多如可分离卷积等不能高效实现的组件,这就导致了其理论计算量(FLOPs)可能很低,但是速度并不是很快,另外现有的轻量级骨干网络可能不适合语义分割,因为他们通常对图像分类进行了过度调整

Context Extraction Modules

语义分割的一个关键是如何捕捉丰富的上下文信息,目前已有的上下文提取模块如ASPP、PPM等都是为高分辨率而设计,过于耗时。

Method

接下来介绍两个主要组件——Deep Dual-resolution Network和the Deep Aggregation Pyramid Pooling Module

Deep Dual-resolution Network

image-20220118175649123

对一些通用的分类主干网络(如ResNet)添加额外的高分辨率分支,为了实现分辨率和推理速度之间的均衡,在特征图大小为\frac18时添加高分辨率分支,高分辨率分支不包含任何下采样操作,并且与低分辨率分支具有一一对应的关系,然后会在不同的阶段进行多次双边融合,如上图所示。

具体看论文。

Deep Aggregation Pyramid Pooling Module

image-20220118190540337

DAPPM的结构如图所示,其会进行不同尺度12,14,18,GAP(\frac12,\frac14,\frac18,GAP)的下采样,虽然看起来计算量比较大,但是该模块应用在低分辨率分支,对于1024×1024的输入图像,改模块的输入仅为16×16。

overall archtecture

image-20220118191013459

网络的整体结构大致如图所示,其实和HRNet比较像,区别就是分支数量不同,并且额外添加了多尺度的特征提取模块,与HRNet的对比如下所示:

image-20220118212416473