计算机视觉领域最先进的模型大多依赖于监督学习,即使用带标签的数据进行训练。但标注成本高昂,而对于语义分割任务(需要为图像中的每个像素关联一个标签)而言,成本则更高。视频的语义分割标注成本甚至更高。事实上,由于成本过高,目前还没有公开的、带有逐帧标签的视频数据集;通常只对稀疏采样的帧进行标注。然而,逐帧标注将有助于实现更强大的模型训练和评估。
在今年的冬季计算机视觉应用会议(WACV)上,研究人员将提出一种新颖的人机协同框架,用于为完整视频生成语义分割标注,该框架能更高效地利用标注人员的时间。
该方法在主动样本选择(挑选最重要的样本进行人工标注)和测试时微调(将人工标注传播到视频的相邻帧)之间交替进行。这两个步骤会重复多次,以确保标注质量。实验中,该方法在保持标签准确性的同时,将标注整个视频所需的点击次数减少了高达73%。
测试时微调
研究从一个预训练的视频语义分割网络开始,目标是使其适应特定的输入视频,从而以非常高的精度辅助标注该视频。该方法的灵感来源于人类标注者处理视频标注任务的方式。给定一个目标帧,标注者会自然地分析相邻帧以确定物体的正确类别,并参考同一视频中已有的标注。
为此,研究提出一个新的损失函数,将这两个信息源结合起来,使预训练模型适应输入视频。损失函数的一部分用于惩罚连续帧之间不一致的语义预测(帧间对应关系基于光流构建,光流代表了物体在帧间的相对运动)。另一部分则用于惩罚与现有手工标注不一致的预测。
主动样本选择
在该方法的每次迭代中,模型都会在由算法主动选择并由标注者标注的样本上进行微调。这是一种主动学习,旨在自动识别信息丰富的训练示例,从而减少需要标注的示例数量。
主动学习的一个基本思想是不确定性采样,即如果网络对某个样本的标签预测置信度很低,则应选择该样本进行人工标注。然而,不确定性采样本身存在缺点。例如,多个样本可能因为具有相同的视觉特征而产生低置信度预测,不确定性采样会将它们全部添加到数据集中,而其实只需一个有代表性的样本即可。
为了使选择策略更全面,研究人员进一步要求所选样本彼此不同,即多样性采样。研究采用了基于聚类的采样技术,该技术能自然地产生多样化的样本选择。首先,使用分割网络当前学到的特征集,在嵌入空间中对未标记的样本进行聚类。然后,选择聚类中心样本(即最接近聚类中心的样本)进行标注。
为了结合不确定性采样和多样性采样,研究首先选择最不确定的一半样本,然后将它们聚成 b 个簇(b 是一次迭代的标注预算,即最大允许标注数量)。然后,选择这 b 个聚类中心,并将其发送给人工标注员。通过这种方式,选择出彼此不同且具有高度不确定性的样本。
标注帧、矩形块还是超像素?
在主动样本选择过程中,研究人员尝试了多种样本粒度。用户可以决定是标注整个帧(逐像素)、矩形块还是超像素(根据视觉相似性分组的不规则像素簇)。
实验观察到,最佳粒度不是固定的,而是取决于期望的标注质量水平。例如,要达到80%的平均交并比(mIoU)的标签准确率,标注16x16像素的矩形样本所需的点击次数最少。而要实现95% mIoU的标签准确率,则标注整个帧样本所需的点击次数最少。
实验中的另一个有趣发现涉及网络预测中物体边界的质量。基于整个帧样本训练的模型优于基于其他粒度样本训练的模型。这可能是因为帧级标注提供了最丰富的语义/边界信息。相比之下,超像素通常由来自同一物体的像素组成,因此它们传递的物体边界信息较少。在为特定任务选择标注粒度时,这也是需要考虑的另一个因素。FINISHED