利用弱监督学习实现高效图像分割本文介绍了一种名为Box2Seg的弱监督学习系统，该系统仅使用边界框标注作为训练数据，就能

计算机视觉

学习在无需手动分割训练数据的情况下分割图像

机器学习方法依赖粗略的“边界框”图像标签，但仍能提供最先进的分割结果。

作者：Siddhartha Chandra 2020年9月1日 3分钟阅读

语义分割是一项自动将数字图像中的每个像素标记为属于多个类别（人、猫、飞机、桌子等）之一的任务，其应用包括基于内容的图像检索、医学成像和物体识别等。

基于机器学习的语义分割系统通常使用人工精心描摹物体边界的图像进行训练，这是一个耗时的操作。相比之下，目标检测系统可以使用以矩形（称为边界框）框定物体的图像进行训练。对于人工标注员来说，手动分割一幅图像平均需要的时间是标注边界框的35倍。

在上周欧洲计算机视觉会议（ECCV）上发表的一篇论文中，我们描述了一个名为Box2Seg的新系统，它仅使用边界框训练数据就能学习分割图像，这是一种弱监督学习的示例。在实验中，我们的系统在平均交并比（mIoU）这一指标上比之前的弱监督系统提高了2%，该指标衡量系统对图像的分割与手动分割之间的一致性。我们的系统性能也与在通用图像数据上预训练然后在完全分割数据上训练的系统相当。

此外，当我们使用弱监督方法训练一个系统，然后在完全分割数据上对其进行微调时，其性能比在通用图像数据上预训练的系统提高了16%。这表明，即使存在分割训练数据，使用我们的弱监督方法进行预训练仍然具有优势。

噪声标签

我们的方法是将边界框视为噪声标签。我们将框内的每个像素视为被标记为我们试图找到边界的物体的一部分；然而，其中一些像素被错误地标记了。我们将框外的所有像素视为正确标记的背景像素。

在训练过程中，我们系统的输入会经过三个卷积神经网络：一个物体分割网络和两个辅助网络。在实际操作中，我们会丢弃辅助网络，因此它们不会增加部署系统的复杂性。

训练模型架构转存失败，建议直接上传图片文件

研究人员训练模型的架构。边界框本身的位置（B）和GrabCut分割算法提供的粗略分割（M）有助于监督物体分割网络（θy）和两个辅助网络（θa和θb）的训练。

其中一个辅助网络对图像中的像素进行成对比较，试图学习区分背景和前景的通用方法。直观地说，它是在寻找边界框内与框外正确标记的背景像素相似的像素，以及框内彼此不相似的像素簇。我们将这个网络称为嵌入网络，因为它学习了一种像素的向量表示——即嵌入——它捕捉了那些对区分背景和前景有用的属性。

我们使用一个名为GrabCut的标准分割算法提供的相对粗略的分割来预训练嵌入网络。在训练期间，嵌入网络的输出为物体分割网络提供了一个监督信号；也就是说，我们用于评估嵌入网络性能的标准之一是它的输出与物体分割网络输出的一致性。

嵌入网络识别的亲和性示例转存失败，建议直接上传图片文件

研究人员嵌入网络识别的亲和性示例。较亮的区域表示网络认为有共同点的像素。

另一个辅助网络是特定标签的注意力网络。它学习识别在具有相同标签的边界框内的像素中频繁出现的视觉属性。它可以被看作一个目标检测器，其输出不是物体标签，而是一个突出显示特定物体类别特征像素簇的图像地图。

注意力网络输出示例转存失败，建议直接上传图片文件

从左到右：图像的手动分割；边界框结合GrabCut算法提供的粗略分割；以及边界框结合研究人员特定标签注意力网络的输出。在第三组图像中，靠近光谱红色端的颜色表示在具有特定标签的边界框内频繁出现的图像特征。在训练期间，物体分割网络应特别关注这些特征。

特定标签的注意力网络仅对其训练期间见过的物体类别有用；其输出对于未训练过的物体类别可能是适得其反的。但在训练期间，它与嵌入网络一样，提供了一个有用的监督信号，这有助于物体分割网络学习执行更通用的分割。

在使用标准基准数据集进行的实验中，我们发现，仅使用边界框训练数据，Box2Seg就优于其他12个在全分割训练数据上训练的系统。当使用Box2Seg训练的网络在全分割数据上进行微调时，性能提升更为显著。这表明，当没有全分割训练数据可用时，甚至当有数据时，物体分割的弱监督训练也可能是有用的。

研究领域
计算机视觉

标签
图像分割
弱监督学习
欧洲计算机视觉会议 (ECCV)

会议 ECCV 2020

相关出版物 Box2Seg: 用于弱监督分割的注意力加权损失和判别性特征学习

关于作者

Siddhartha Chandra 是某机构计算机视觉-机器学习部门的应用科学家。FINISHED