视频语义分割的高效自动标注技术

0 阅读5分钟

视频语义分割的高效自动标注技术

大多数最先进的计算机视觉模型依赖于监督学习,即使用标注数据进行训练。但标注成本高昂,在语义分割任务中尤其如此,因为需要为图像中的每个像素分配标签。视频中的语义分割标注成本则更高。事实上,由于成本过高,目前尚无包含逐帧标签的公共视频数据集;只有稀疏采样的帧被标注。然而,逐帧标注将能实现更鲁棒的模型训练和评估。

在今年的冬季计算机视觉应用会议(WACV)上,介绍了一种新颖的人机协作框架,用于生成完整视频的语义分割标注,该方法能更高效地利用标注者的时间。

方法概述

该方法在主动样本选择测试时微调之间交替进行。主动样本选择挑选出最需要手动标注的样本,而测试时微调则将手动标注传播到视频的相邻帧。这两个步骤会重复多次以确保标注质量。

实验表明,该方法在保持标签准确性(平均交并比大于真实标注的95%)的同时,将标注整个视频所需的点击次数减少了高达73%。

测试时微调

从一个已经过预训练、能够对视频进行语义分割的网络开始,目标是使其适应特定的输入视频,从而以极高的准确性帮助标注该视频。

该方法的灵感来源于人类标注者处理视频标注任务的方式。给定一个目标帧,标注者自然会分析相邻帧以确定物体的正确类别,同时也会参考同一视频中已有的标注。

为此,提出了一种新的损失函数,该函数综合考虑了这两个信息来源,以使预训练模型适应输入视频。损失函数的一部分惩罚连续帧之间不一致的语义预测(帧之间的对应关系由光流建立,光流表示物体跨帧的相对运动)。第二部分惩罚与已有的人工标注不一致的预测。

主动样本选择

在该过程的每次迭代中,模型会根据算法主动选择并由标注者标注的样本进行微调。这是一种主动学习,旨在自动识别信息丰富的训练样本,从而减少需要标注的样本数量。

主动学习的一个基本思想是不确定性采样。其核心是,如果网络以较低的置信度预测样本的标签,则该样本应被选为手动标注对象。

然而,单独使用不确定性采样存在缺陷。例如,许多样本可能因为具有相同的视觉特征而产生低置信度预测,而不确定性采样会将它们全部加入数据集,其实只需选择其中有代表性的样本就已足够。

为了使选择策略更全面,进一步要求所选样本彼此不同,这种方法被称为多样性采样。采用了一种称为基于聚类的采样的技术,该技术能自然地产生多样化的样本选择。

首先,利用分割网络迄今为止学到的特征集,在嵌入空间中对未标记样本进行聚类。然后,选择质心样本(即最接近聚类中心的样本)进行标注。

为了结合不确定性采样和多样性采样,首先选择最不确定的一半样本,并将它们聚类为b个簇,其中b是一次迭代的标注预算(允许的最大标注数量)。然后,选择b个簇的质心并发送给人类标注者。这样,就选择了既具有高不确定性又彼此不同的样本。

标注粒度:帧、矩形块还是超像素?

在主动样本选择过程中,尝试了多种样本粒度。用户可以选择是标注整帧(逐像素)、矩形块还是超像素(根据视觉相似性分组的不规则像素簇)。

研究发现,最佳粒度并非固定不变,而是取决于期望的标注质量水平。例如,要达到80%的平均交并比(mIoU)的标签准确度,标注16x16像素的矩形块样本所需的点击次数最少。而另一方面,要达到95% mIoU的标签准确度,标注整帧样本所需的点击次数最少。

另一个有趣的发现涉及网络预测中物体边界的质量。在整帧样本上训练的模型,其性能优于使用不同粒度样本训练的模型。这可能是因为帧级标注提供了最丰富的语义/边界信息。而超像素通常由来自同一物体的像素组成,因此它们提供的关于物体边界的信息较少。这也是在决定为任务使用哪种标注粒度时需要考虑的另一个因素。

总结

提出的这种结合主动样本选择和测试时微调的人机协作框架,为视频语义分割提供了一种高效的自动标注解决方案。通过精心设计的损失函数和样本选择策略,能够在保证高质量标注的同时,显著减少人工标注的工作量,为构建大规模的逐帧标注视频数据集提供了新的可能性。