语义分割指的是将图像中的每一个像素关联到一个类别标签上的过程,这些标签可能包括一个人、一辆车、一朵花、一件家具等等。在这篇文章中,作者介绍了近来优秀的语义分割思想与解决方案,它可以称得上是 2019 语义分割指南了。
选自Medium,作者:Derrick Mwiti,机器之心编译,参与:Nurhachu Null,Geek AI。
我们可以认为语义分割是像素级别的图像分类。例如,在一幅有很多辆车的图像中,分割模型将会把所有的物体(车)标记为车辆。但是,另一种被称为实例分割的模型能够将出现在图像中的独立物体标记为独立的实例。这种分割在被用在统计物体数量的应用中是很有用的(例如,统计商城中的客流量)。
Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
Fully Convolutional Networks for Semantic Segmentation
U-Net: Convolutional Networks for Biomedical Image Segmentation
The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
Multi-Scale Context Aggregation by Dilated Convolutions
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
Rethinking Atrous Convolution for Semantic Image Segmentation
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation
Improving Semantic Segmentation via Video Propagation and Label Relaxation
Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
这篇论文的主要贡献如下:
为边界框或图像级别的训练引入 EM 算法,这可以用在弱监督和半监督环境中。
证明了弱标注和强标注的结合能够提升性能。在合并了 MS-COCO 数据集和 PASCAL 数据集的标注之后,论文的作者在 PASCAL VOC 2012 上达到了 73.9% 的交并比性能。
证明了他们的方法通过合并了少量的像素级别标注和大量的边界框标注(或者图像级别的标注)实现了更好的性能。
在生物医学图像处理中,得到图像中的每一个细胞的类别标签是非常关键的。生物医学中最大的挑战就是用于训练的图像是不容易获取的,数据量也不会很大。U-Net 是非常著名的解决方案,它在全连接卷积层上构建模型,对其做了修改使得它能够在少量的训练图像数据上运行,得到了更加精确的分割。
论文地址:https://arxiv.org/pdf/1505.04597.pdf
在这个模型中,训练是通过输入的图像、它们的分割图以及随机梯度下降来完成的。数据增强被用来教网络学会在使用很少的训练数据时所必需的鲁棒性和不变性。这个模型在其中的一个实验中实现了 92% 的 mIoU。
论文地址:https://arxiv.org/pdf/1611.09326.pdf
针对语义分割用途,将 DenseNet 的结构扩展到了全卷积网络。
提出在密集网络中进行上采样路径,这要比其他的上采样路径性能更好。
证明网络能够在标准的基准测试中产生最好的结果。
这篇论文提出了一个卷积网络模块,能够在不损失分辨率的情况下混合多尺度的上下文信息。然后这个模块能够以任意的分辨率被嵌入到现有的结构中,它主要基于空洞卷积。
论文地址:https://arxiv.org/abs/1511.07122
在这篇论文中,作者对语义分割任务中做出了下面的贡献:
为密集预测任务使用具有上采样的卷积
在多尺度上为分割对象进行带洞空间金字塔池化(ASPP)
通过使用 DCNNs 提升了目标边界的定位
论文地址:https://arxiv.org/abs/1606.00915
这篇论文解决了语义分割的主要挑战,包括:
由重复的最大池化和下采样导致的特征分辨率降低
检测多尺度目标
因为以目标为中心的分类器需要对空间变换具有不变性,因而降低了由 DCNN 的不变性导致的定位准确率。
论文地址:https://arxiv.org/pdf/1706.05587.pdf
在没有密集条件随机场(DenseCRF)的情况下,论文的 DeepLabv3 版本在 PASCAL VOC 2012 测试集上实现了 85.7% 的性能。
这篇论文的方法「DeepLabv3+」在 PASCAL VOC 2012 数据集和 Cityscapes 数据集上分别实现了 89.0% 和 82.1% 的性能,而且没有做任何后处理。这个模型在 DeepLabv3 的基础上增加一个简单的解码模块,从而改善了分割结果。
论文地址:https://arxiv.org/pdf/1802.02611v3.pdf
这篇论文提出了一种被称作联合金字塔上采样(Joint Pyramid Upsampling/JPU)的联合上采样模块来代替消耗大量时间和内存的带洞卷积。它通过把抽取高分辨率图的方法形式化,并构建成一个上采样问题来取得很好的效果。
论文地址:https://arxiv.org/pdf/1903.11816v1.pdf
该方法以全卷积网络(FCN)作为主体架构,同时应用 JPU 对低分辨率的最终特征图进行上采样,得到了高分辨率的特征图。使用 JPU 代替带洞卷积并不会造成任何性能损失。
联合采样使用低分辨率的目标图像和高分辨率的指导图像。然后通过迁移指导图像的结构和细节生成高分辨率的目标图像。
这篇论文提出了基于视频的方法来增强数据集,它通过合成新的训练样本来达到这一效果,并且该方法还能提升语义分割网络的准确率。本文探讨了视频预测模型预测未来帧的能力,进而继续预测未来的标签。
论文地址:https://arxiv.org/pdf/1812.01593v3.pdf
Label Propagation (标签传播,LP):通过将原始的未来帧与传播来的标签配对来创建新的训练样本。
Joint image-label Propagation (联合图像标签传播,JP):通过配对对应的传播图像与传播标签来创建新的训练样本。
这篇论文是语义分割领域最新的成果(2019.07),作者提出了一个双流 CNN 结构。在这个结构中,目标的形状信息通过一个独立的分支来处理,该形状流仅仅处理边界相关的信息。这是由模型的门卷控积层(GCL)和局部监督来强制实现的。
论文地址:https://arxiv.org/pdf/1907.05740.pdf