Box2Seg:仅用边界框标注实现弱监督图像分割

4 阅读5分钟

无需手动分割训练数据,学习图像分割

一种机器学习方法依赖于粗略的“边界框”图像标签,但仍能提供最先进的图像分割结果。

语义分割是一项自动将数字图像中的每个像素标记为属于多个类别(人、猫、飞机、桌子等)之一的任务,其应用包括基于内容的图像检索、医学成像和物体识别等。

基于机器学习的语义分割系统通常在那些物体边界被精心手工描绘的图像上进行训练,这是一项耗时的操作。另一方面,物体检测系统可以在那些物体被矩形(即边界框)框出的图像上进行训练。对于人工标注者来说,手工分割一张图像平均所需的时间是标记边界框的 35 倍。

在上一周于欧洲计算机视觉会议 (ECCV) 上发表的一篇论文中,描述了一个名为 Box2Seg 的新系统,它仅使用边界框训练数据来学习分割图像,这是弱监督学习的一个实例。在实验中,该系统在一个称为平均交并比 (mIoU) 的指标上,比之前的弱监督系统提供了 2% 的改进,该指标衡量系统对图像的分割与手动分割之间的一致性。该系统的性能也与那些先在通用图像数据上预训练,然后在完全分割数据上训练的系统相当。

此外,当使用弱监督方法训练一个系统,然后在完全分割的数据上对其进行微调时,它在通用图像数据上预训练的系统的性能基础上又提高了 16%。这表明,即使有分割好的训练数据可用,使用弱监督方法进行预训练仍然具有优势。

噪声标签

该方法是将边界框视为噪声标签。将框内的每个像素视为已被标记为我们试图寻找边界的物体的一部分;然而,其中一些像素是被错误标记的。框外的所有像素则被视为正确标记的背景像素。

在训练期间,输入到系统的数据会经过三个卷积神经网络:一个物体分割网络和两个辅助网络。在实际操作中,会丢弃辅助网络,因此它们不会增加部署系统的复杂性。

研究人员训练模型的架构。边界框本身的位置 (B) 以及由 GrabCut 分割算法提供的粗略分割图 (M) 有助于监督物体分割网络 (θy) 和两个辅助网络 (θa 和 θb) 的训练。

其中一个辅助网络对图像中的像素进行成对比较,试图学习区分背景和前景的通用方法。直观地说,它是在寻找边界框内与框外正确标记的背景像素相似的像素,以及框内彼此不相似的像素簇。这个网络被称为嵌入网络,因为它学习像素的向量表示(即嵌入),该表示仅捕获那些对区分背景和前景有用的属性。

使用一个名为 GrabCut 的标准分割算法提供的相对粗略的分割图来预训练嵌入网络。在训练期间,嵌入网络的输出为物体分割网络提供监督信号;也就是说,用于评估分割网络性能的标准之一是其输出与嵌入网络输出的一致性。

研究人员嵌入网络识别出的亲和力示例。较亮的区域表示网络判定具有共同特征的像素。

另一个辅助网络是标签特定的注意力网络。它学习识别在具有相同标签的边界框内频繁出现的视觉属性。可以将其视为一个物体检测器,其输出不是物体标签,而是一个突出显示特定物体类别特征像素簇的图像热力图。

从左到右:图像的手动分割图;边界框与 GrabCut 算法提供的粗略分割图相结合;边界框与研究人员的标签特定注意力网络输出相结合。在第三对图像中,偏向红色端的颜色表示在带有特定标签的边界框内频繁出现的图像特征。在训练期间,物体分割网络应特别关注这些特征。

标签特定的注意力网络仅对训练期间见过的物体类别有用;对于未经训练的物体类别,其输出可能会适得其反。但在训练期间,它与嵌入网络一样,提供了有用的监督信号,这可以帮助物体分割网络学习执行更通用的分割。

在使用标准基准数据集进行的实验中,发现仅使用边界框训练数据,Box2Seg 就优于其他 12 个在全分割训练数据上训练的系统。当使用 Box2Seg 训练的网络在全分割数据上进行微调时,性能提升更为显著。这表明,当没有全分割的训练数据可用时,甚至当有这类数据时,物体分割的弱监督训练都可能是有用的。FINISHED