视频语义分割的高效标注新方法针对视频语义分割标注成本高昂的问题，研究人员提出了一种结合主动样本选择与测试时微调的人机协同

计算机视觉领域最先进的模型大多依赖于监督学习，即使用带标签的数据进行训练。但标注成本高昂，而对于语义分割任务（需要为图像中的每个像素关联一个标签）而言，成本则更高。视频的语义分割标注成本甚至更高。事实上，由于成本过高，目前还没有公开的、带有逐帧标签的视频数据集；通常只对稀疏采样的帧进行标注。然而，逐帧标注将有助于实现更强大的模型训练和评估。

在今年的冬季计算机视觉应用会议（WACV）上，研究人员将提出一种新颖的人机协同框架，用于为完整视频生成语义分割标注，该框架能更高效地利用标注人员的时间。

该方法在主动样本选择（挑选最重要的样本进行人工标注）和测试时微调（将人工标注传播到视频的相邻帧）之间交替进行。这两个步骤会重复多次，以确保标注质量。实验中，该方法在保持标签准确性的同时，将标注整个视频所需的点击次数减少了高达73%。

测试时微调

研究从一个预训练的视频语义分割网络开始，目标是使其适应特定的输入视频，从而以非常高的精度辅助标注该视频。该方法的灵感来源于人类标注者处理视频标注任务的方式。给定一个目标帧，标注者会自然地分析相邻帧以确定物体的正确类别，并参考同一视频中已有的标注。

为此，研究提出一个新的损失函数，将这两个信息源结合起来，使预训练模型适应输入视频。损失函数的一部分用于惩罚连续帧之间不一致的语义预测（帧间对应关系基于光流构建，光流代表了物体在帧间的相对运动）。另一部分则用于惩罚与现有手工标注不一致的预测。

主动样本选择

在该方法的每次迭代中，模型都会在由算法主动选择并由标注者标注的样本上进行微调。这是一种主动学习，旨在自动识别信息丰富的训练示例，从而减少需要标注的示例数量。

主动学习的一个基本思想是不确定性采样，即如果网络对某个样本的标签预测置信度很低，则应选择该样本进行人工标注。然而，不确定性采样本身存在缺点。例如，多个样本可能因为具有相同的视觉特征而产生低置信度预测，不确定性采样会将它们全部添加到数据集中，而其实只需一个有代表性的样本即可。

为了使选择策略更全面，研究人员进一步要求所选样本彼此不同，即多样性采样。研究采用了基于聚类的采样技术，该技术能自然地产生多样化的样本选择。首先，使用分割网络当前学到的特征集，在嵌入空间中对未标记的样本进行聚类。然后，选择聚类中心样本（即最接近聚类中心的样本）进行标注。

为了结合不确定性采样和多样性采样，研究首先选择最不确定的一半样本，然后将它们聚成 b 个簇（b 是一次迭代的标注预算，即最大允许标注数量）。然后，选择这 b 个聚类中心，并将其发送给人工标注员。通过这种方式，选择出彼此不同且具有高度不确定性的样本。

标注帧、矩形块还是超像素？

在主动样本选择过程中，研究人员尝试了多种样本粒度。用户可以决定是标注整个帧（逐像素）、矩形块还是超像素（根据视觉相似性分组的不规则像素簇）。

实验观察到，最佳粒度不是固定的，而是取决于期望的标注质量水平。例如，要达到80%的平均交并比（mIoU）的标签准确率，标注16x16像素的矩形样本所需的点击次数最少。而要实现95% mIoU的标签准确率，则标注整个帧样本所需的点击次数最少。

实验中的另一个有趣发现涉及网络预测中物体边界的质量。基于整个帧样本训练的模型优于基于其他粒度样本训练的模型。这可能是因为帧级标注提供了最丰富的语义/边界信息。相比之下，超像素通常由来自同一物体的像素组成，因此它们传递的物体边界信息较少。在为特定任务选择标注粒度时，这也是需要考虑的另一个因素。FINISHED