视频语义分割的高效自动标注技术本文介绍了一种新颖的人机协作框架，用于生成视频的全帧语义分割标注。该方法结合主动样本选择和

视频语义分割的高效自动标注技术

大多数最先进的计算机视觉模型依赖于监督学习，即使用标注数据进行训练。但标注成本高昂，在语义分割任务中尤其如此，因为需要为图像中的每个像素分配标签。视频中的语义分割标注成本则更高。事实上，由于成本过高，目前尚无包含逐帧标签的公共视频数据集；只有稀疏采样的帧被标注。然而，逐帧标注将能实现更鲁棒的模型训练和评估。

在今年的冬季计算机视觉应用会议（WACV）上，介绍了一种新颖的人机协作框架，用于生成完整视频的语义分割标注，该方法能更高效地利用标注者的时间。

方法概述

该方法在主动样本选择和测试时微调之间交替进行。主动样本选择挑选出最需要手动标注的样本，而测试时微调则将手动标注传播到视频的相邻帧。这两个步骤会重复多次以确保标注质量。

实验表明，该方法在保持标签准确性（平均交并比大于真实标注的95%）的同时，将标注整个视频所需的点击次数减少了高达73%。

测试时微调

从一个已经过预训练、能够对视频进行语义分割的网络开始，目标是使其适应特定的输入视频，从而以极高的准确性帮助标注该视频。

该方法的灵感来源于人类标注者处理视频标注任务的方式。给定一个目标帧，标注者自然会分析相邻帧以确定物体的正确类别，同时也会参考同一视频中已有的标注。

为此，提出了一种新的损失函数，该函数综合考虑了这两个信息来源，以使预训练模型适应输入视频。损失函数的一部分惩罚连续帧之间不一致的语义预测（帧之间的对应关系由光流建立，光流表示物体跨帧的相对运动）。第二部分惩罚与已有的人工标注不一致的预测。

主动样本选择

在该过程的每次迭代中，模型会根据算法主动选择并由标注者标注的样本进行微调。这是一种主动学习，旨在自动识别信息丰富的训练样本，从而减少需要标注的样本数量。

主动学习的一个基本思想是不确定性采样。其核心是，如果网络以较低的置信度预测样本的标签，则该样本应被选为手动标注对象。

然而，单独使用不确定性采样存在缺陷。例如，许多样本可能因为具有相同的视觉特征而产生低置信度预测，而不确定性采样会将它们全部加入数据集，其实只需选择其中有代表性的样本就已足够。

为了使选择策略更全面，进一步要求所选样本彼此不同，这种方法被称为多样性采样。采用了一种称为基于聚类的采样的技术，该技术能自然地产生多样化的样本选择。

首先，利用分割网络迄今为止学到的特征集，在嵌入空间中对未标记样本进行聚类。然后，选择质心样本（即最接近聚类中心的样本）进行标注。

为了结合不确定性采样和多样性采样，首先选择最不确定的一半样本，并将它们聚类为b个簇，其中b是一次迭代的标注预算（允许的最大标注数量）。然后，选择b个簇的质心并发送给人类标注者。这样，就选择了既具有高不确定性又彼此不同的样本。

标注粒度：帧、矩形块还是超像素？

在主动样本选择过程中，尝试了多种样本粒度。用户可以选择是标注整帧（逐像素）、矩形块还是超像素（根据视觉相似性分组的不规则像素簇）。

研究发现，最佳粒度并非固定不变，而是取决于期望的标注质量水平。例如，要达到80%的平均交并比（mIoU）的标签准确度，标注16x16像素的矩形块样本所需的点击次数最少。而另一方面，要达到95% mIoU的标签准确度，标注整帧样本所需的点击次数最少。

另一个有趣的发现涉及网络预测中物体边界的质量。在整帧样本上训练的模型，其性能优于使用不同粒度样本训练的模型。这可能是因为帧级标注提供了最丰富的语义/边界信息。而超像素通常由来自同一物体的像素组成，因此它们提供的关于物体边界的信息较少。这也是在决定为任务使用哪种标注粒度时需要考虑的另一个因素。

总结

提出的这种结合主动样本选择和测试时微调的人机协作框架，为视频语义分割提供了一种高效的自动标注解决方案。通过精心设计的损失函数和样本选择策略，能够在保证高质量标注的同时，显著减少人工标注的工作量，为构建大规模的逐帧标注视频数据集提供了新的可能性。