A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation（上）

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

论文原文：A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation

看论文前的叨叨

从今天开始要读paper了，第一篇是A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation，方向属于VOS dataset and evaluation。那么首先，先来了解一下什么是VOS。（参考文章）

VOS全称Video Object Segmentation，其任务是分割视频中的前景和背景，前景即我们关注的目标。VOS的数据集有DAVIS（和本次阅读的论文共同发布）DAVIS2016数据集为单对象分割数据集，包含30个训练集，20个验证集。2017年，DAVIS在单对象分割数据集的基础上发布了多对象分割数据集DAVIS2017，一共有150个视频序列。如下图，单对象与多对象对比。在这里插入图片描述除此之外还有数据集：SegTrack-v2，YouTuBe，Moseg，VSB100，GYGO 评价指标主要包括：区域相似度（分割结果的IOU），轮廓准确性以及时域稳定性。这个根据也来源于DAVIS 在这一领域中，由于视频和静态图片相比具有丰富的运动信息和表观信息，所以目前如何将表观信息和运动信息结合是视频分割的主流研究方向。

这部分参考了这篇文章

0.摘要
数据集和基准对于我们的工作很重要。DAVIS由50个高质量，全高清的视频序列组，包含有多个视频目标分割挑战，如遮挡，运动模糊和外观变化。每一个视频都是稠密标注，像素级别的精度和逐帧的真值分割。

1.介绍
视频对象分割是一个二值标记问题，旨在从视频的背景区域分离前景对象。对视频进行像素精确的时空划分有助于多种应用，包括动作识别、对象跟踪、视频摘要和视频编辑的转描操作（rotoscope，没找到合适的翻译）。尽管近年来取得了显著的进展，但视频对象分割仍然是一个具有挑战性的问题，现有的大多数方法在质量和效率方面仍然存在严重的局限性，难以应用于实际应用中，例如处理大型数据集，或者是视觉特效行业的视频后期制作和编辑。
最引人关注的是目前最先进的视频目标分割算法与与之密切相关的图像分割和目标识别方法之间的性能差距，这些方法近年来取得了显著的进展。推动这一进展的一个关键因素是大规模数据集和基准测试的可用性。这与视频对象分割形成了鲜明的对比。不同的视频分割任务有不同的数据集，但没有一个是针对特定的视频对象分割任务。
迄今为止，采用最广泛的数据集是[D. Tsai, M. Flagg, and J. M. Rehg. Motion coherent tracking with multi-label MRF optimization. In BMVC, 2010. 1, 2]，但该数据集最初是为了联合分割和跟踪而提出的，仅包含6个低分辨率视频序列，对于当今视频处理应用中所遇到的图像质量和分辨率而言，已不再具有代表性。因此，对这些数据集进行的评估很可能会过度拟合，没有关于单个视频分割方法之间差异的可靠指标，而且对看不见的、更现代的数据的真实性能变得难以确定。尽管一些作者努力用额外的数据集来增加他们的评价，但还没有一个标准化和广泛采用的评价方法用于视频对象分割。
为此，我们引入了一种专门用于视频对象分割的新数据集。该数据集将向公众公开，包含50个密集和专业注释的高分辨率全高清视频序列，每个视频帧都提供像素级精确的gt数据。这些序列已经被仔细捕获，以涵盖视频对象分割中通常面临的主要挑战的多个实例。该数据集还对几种最先进的方法进行了综合评估。为了评估性能，我们采用三个互补的度量度量分割的空间精度，轮廓的质量和它的时间相干性。此外，我们为每个视频标注了特定的属性，如遮挡、快速运动、非线性变形和运动模糊。与测试方法的性能相关，这些属性使我们能够更深入地理解结果，并为未来的研究指明了有前途的道路。上述组件代表了一个完整的基准套件，为研究人员提供了必要的工具，以促进他们的方法评估和推进视频对象分割领域。

2.相关工作
在本节中，我们将概述为不同的视频分割任务设计的数据集，然后是针对视频对象分割技术的调查。

2.1. Datasets
视频分割有很多数据集，但没有一个是专门为视频目标分割而设计的，即前景目标从背景区域中精确分离的任务。
弗莱堡-伯克利运动分割（Freiburg-Berkeley Motion Segmentation）数据集MoSeg是一个流行的运动分割数据集，这个数据集包含聚类区域与相似的运动。尽管该数据集最近被专注于视频对象分割的工作所采用，但它并不能满足几个重要的要求。如大多数视频具有较低的空间分辨率，分割仅在帧的稀疏子集上提供，并且内容不够多样化，无法提供快速运动和遮挡等挑战性情况的平衡分布。
伯克利视频分割数据集(BVSD)由总共100个高分辨率序列组成。它最初的目的是评估遮挡边界检测，后来扩展到过度和运动分割任务(VSB100)。但是，有些序列不包含明确的对象。此外，ground-truth(仅用于帧的子集)被分割，大部分对象被多个手动标注的、不相交的分段覆盖，因此该数据集不适合评估视频对象分割。
SegTrack是一个小数据集，由6个密集注释的人类和动物视频组成。它在背景-前景颜色相似性、快速运动和复杂的形状变形方面具有挑战性。虽然它已经被几种方法广泛使用，但其内容并不能充分跨越现实视频对象分割应用中遇到的各种挑战。此外，图像质量不再是现代消费设备的代表，而且由于可用视频序列的数量有限，该数据集的进展趋于平稳。在[F. Li, T. Kim, A. Humayun, D. Tsai, and J. M. Rehg. Video segmentation by tracking many figure-ground segments. In ICCV, 2013. 1, 2]中，这个数据集被扩展为8个额外的序列。虽然这肯定是对前一代的改进，但它仍然受到相同的限制。我们为读者提供了对上述数据集(包括我们的数据集)属性的全面总结的补充材料。
还存在其他数据集，但它们大多用于支持特定的结果，因此要么在帧总数方面受到限制，要么在内容方面缺乏足够的多样性。其他的涵盖了更广泛的内容，但不能提供足够的真实数据来准确评估分割。为基准跟踪算法而设计的视频数据集通常聚焦于带有静态摄像机的监控场景，通常包含多个类似对象的实例(例如人群)，注释通常仅以轴对齐的边框形式提供，而不是像素精确分割掩模，以准确评估视频对象分割。重要的是，上述方法没有一个包括当代的高分辨率视频，这是绝对必要的，以现实地评估这些算法的实际实用价值。

2.2. Algorithms
我们根据需要的监督程度对视频对象分割的文献进行了分类。
无监督的方法历来针对过分割或运动分割，直到最近才提出自动的前景-背景分离方法。这些方法将显著目标检测的概念扩展到视频中。它们不需要任何手动注释，也不假定要分割的对象有任何先前的信息。典型地，它们是基于物体运动与周围环境不同的假设。其中一些方法生成了几个排序的细分假设。虽然它们非常适合于解析大规模数据库，但它们被绑定到其基础假设上，在不成立的情况下会失败。
半监督视频对象分割方法将稀疏的人工标记传播到整个视频序列，通常以一个或多个注释帧的形式给出。虽然它们各不相同，但它们通常解决一个在图结构上定义能量(energy)的优化问题。一些方法使用完全连通图、高阶势来建模长期时空连接。Märki等人最近的研究有效地逼近了双边空间中最小化图能量的非局部连接。这个能量（energy）什么意思，没太懂。。。
全监督方法假设在分割过程中重复添加手动标注，并以迭代方式对算法结果进行人工校正。这些方法通常在线操作，向前处理帧，以避免覆盖以前的手动纠正。它们以耗时的人力监督为代价保证了高分割质量，因此它们只适用于特定的场景，如视频后期制作。
我们在我们提出的数据集上评估了一大批最先进的方法，为未来的研究领域提供了新的见解和指导。

3.数据集描述
根据对现有数据集的经验，我们首先确定我们应该关注的四个关键方面，以创建一个平衡和全面的数据集。
Data Amount and Quality（数据数量和质量）. 足够大数量的数据是必要的，这可以保证内容的多样性，并且提供一组均匀分布的挑战。并且，有足够的数据对于以下方面至关重要：避免算法过拟合，延迟性能饱使数据集保持一个较长的使用寿命。质量也是很重要的，因为数据集的质量需能反映现有技术的水平。综上原因，DAVIS构成包括50个序列总共3455标注帧，视频帧率为24fps，1080p分辨率。由于计算复杂度是视频处理的一个重要瓶颈，DAVIS中的视频序列采用较短的时间长度（2-4秒），但是却涵盖了大部分在长视频序列中找到的挑战，详看Table 1。

ID	描述	中文解释
BC	Background Clutter. The back- and foreground regions around the object boundaries have similar colors ( $χ^2$ over histograms).	背景杂波。物体边界周围的背面和前景区域有相似的颜色( $χ^2$ 在直方图上)
DEF	Deformation. Object undergoes complex, non-rigid deformations.	形变。物体经过复杂的非刚性形变。
MB	Motion Blur. Object has fuzzy boundaries due to fast motion.	动态模糊。由于快速运动，物体边界模糊。
FM	Fast-Motion. The average, per-frame object motion, computed as centroids Euclidean distance, is larger than $τ_{fm}$ = 20 pixels.	高速移动。以质心欧几里德距离计算的每帧目标运动的平均值，大于 $τ_{fm}$ = 20像素。
LR	Low Resolution. The ratio between the average object bounding-box area and the image area is smaller than $t_{lr}$ = 0.1.	低分辨率。平均对象边界框面积与图像面积之比小于 $t_{lr}$ = 0.1。
OCC	Occlusion. Object becomes partially or fully occluded.	遮挡。对象部分或完全被遮挡。
OV	Out-of-view. Object is partially clipped by the image boundaries.	视线范围之外。对象被图像边界部分裁剪。
SV	Scale-Variation. The area ratio among any pair of bounding-boxes enclosing the target object is smaller than $τ_{sv}$ = 0.5.	比例变化。包围目标对象的任何一对框之间的面积比小于 $τ_{sv}$ = 0.5。
--	---------------------------------------------------------------------------	---------------------------------------------------
AC	Appearance Change. Noticeable appearance variation, due to illumination changes and relative camera-object rotation.	外观变化。由于光照变化和相机对象相对旋转，外观出现明显变化。
EA	Edge Ambiguity. Unreliable edge detection. The average groundtruth edge probability is smaller than $τ_e$ = 0.5.	边缘歧义。不可靠的边缘检测。 gt平均边缘概率小于 $τ_e$ = 0.5。
CS	Camera-Shake. Footage displays non-negligible vibrations.	相机震动。显示画面不可忽略的振动。
HO	Heterogeneus Object. Object regions have distinct colors.	异构目标。目标区域具有不同的颜色。
IO	Interacting Objects. The target object is an ensemble of multiple, spatially-connected objects (e.g. mother with stroller).	交互对象。目标对象是多个在空间上相关联的对象（例如，带婴儿车的母亲）。
DB	Dynamic Background. Background regions move or deform.	动态背景。背景区域移动或变形。
SC	Shape Complexity. The object has complex boundaries such as thin parts and holes.	形状复杂度。该对象具有复杂的边界，例如薄的零件和孔。

Table 1. 视频属性列表和相应的描述。我们使用与视频对象细分（底部）相关的一组补充属性来扩展（顶部）的注释。我们请读者参考补充材料，以获取数据集中视频中每个属性的列表以及相应的视觉示例。

Experimental Validation（实验验证）. 对于视频中的每一帧，我们提供像素级别的精度，以二进制掩码的方式手工创建分割。虽然我们细分DAVIS为训练和测试集,为未来的工作提供指导，但是在我们的评估时，不使用分区，而是考虑整个数据集，因为大多数的评估方法不需要训练，并且由于计算复杂度，网格搜索最优参数的估计是不可行的。
Object Presence（对象存在）. 直观地说，每个序列应该至少包含一个目标前景对象，以用于与背景区域进行分离。DAVIS的剪辑中包含一个对象或两个空间连接的对象。我们选择不使用具有显著运动的不同对象，以便能够公平地比较在单个对象上操作的分割方法与联合分割多个对象的分割方法。此外，每个序列只有一个对象，可以消除由全自动方法执行的检测的歧义。在[27. T. Liu, Z. Yuan, J. Sun, J. Wang, N. Zheng, X. Tang, and H. Shum. Learning to detect a salient object. TPAMI, 33(2), 2011. 3]中做出的一个类似的设计选择已经成功地指导了显着目标检测的研究，从它的开始到目前的最先进的。为了确保足够的内容多样性(这是全面评估不同算法性能所必需的)，数据集跨越四个均匀分布的类(人类、动物、车辆、物体)和多个动作。
Unconstrained Video Challenges（无约束视频的挑战）. 为了能够对算法的性能进行更深入的分析和理解，识别可能影响算法性能的关键因素和环境是至关重要的。因此，受文献[50. Y. Wu, J. Lim, and M. Yang. Online object tracking: A benchmark. In CVPR, 2013. 2, 3]的启发，我们定义一个扩展的视频属性集合，用于代表特殊情况，如快速运动，遮挡和杂乱背景这些典型的视频分割挑战。具体属性看Table 1。
这些属性并不具备排他性，因此一个视频序列可以被标注多个属性。他们在数据集中的分布展示在下图左中，图右显示他们两两之间的依赖关系。注释使我们能够将性能分析解耦到具有主要特征的不同组中(例如遮挡)，从而更好地理解每种方法的优缺点。在这里插入图片描述 Figure 2. 左：在数据集中的属性分布。每个bin表示发生的次数。右：属性之间的相互依赖性。链接的存在表示属性的高概率出现在序列中（如果另一端也存在）。