A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation(下)

92 阅读18分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。 4.实验验证
为了判断分割的质量,如何选择合适的度量标准在很大程度上取决于最终应用程序的最终目标。直观上讲,当视频分割主要用于更大处理管道中的分类器时,例如解析大型数据集时,强调错误标记的像素的最少数量是非常有意义的。另一方面,在视频编辑应用中,轮廓的准确性和结果在时间域上的稳定性是最重要的,因为这些属性通常需要最艰苦和耗时的手工输入。为了全面地涵盖上述方面,我们使用三个互补的误差指标来评估视频分割结果。我们在4.1节中描述了度量标准,并在4.2节中对它们的互补属性进行了实证验证。

4.1度量标准选择
在有监督的评估框架中,给定一个特定帧上的groundtruth-mask G和一个输出的分割结果M,任何评估措施最终都必须回答一个问题,即M如何适合G。在[37 J. Pont-Tuset and F. Marques. Supervised evaluation of image segmentation and object proposal techniques. TPAMI, 2015. 4]中,对于图像,可以使用两个互补的观点,基于区域和基于轮廓的度量。由于视频将静态图像的维数扩展到时间,因此还必须考虑结果的时间稳定性。我们的评估基于以下测量。
Region Similarity J\mathcal{J} (区域相似度). 为了测量基于区域的分割相似度,即错别字像素的数量,我们使用Jaccard索引J\mathcal{J}J\mathcal{J}定义为估计分割和真值掩膜之间的IoU(Intersection over Union)。自从在PASCAL VOC2008目标跟踪挑战中首次出现以后,Jaccard索引已经被广泛应用。Jaccard索引提供了关于错误分类像素的、直观的和尺度不变的信息。给定输出分割M和真值掩膜G,Jaccard索引定义为:J=MGMG\mathcal{J} = \frac{|M\cap G|}{|M\cup G|}
Contour Accuracy F\mathcal{F}(边沿精度). 从基于轮廓的角度来看,可以将M解释为一组限定掩模空间范围的闭合轮廓c(M)。因此,通过一个二分图匹配以提高对小误差的鲁棒性,我们可以比较c(M)和c(G)的边缘点计算基于轮廓的精度PcP_c和召回RcR_c。我们认为F-score F\mathcal{F}可以取得精度和召回之间较好的权衡,定义为:F=2PcRcPc+Rc\mathcal{F} = \frac{2P_{c}R_{c}}{P_{c}+R_c}。为了提高效率,在我们的实验中,我们使用形态学算子近似替代了二分匹配。
Temporal stability T\mathcal{T}(时间稳定性). 直观地, J\mathcal{J}测度了两个掩膜间像素的匹配度,F\mathcal{F}测量了边缘的精度。但是,结果的时域稳定性是视频对象分割中的一个相关重要的方面,由于对象形状的演化是识别和抖动的一个重要线索,不稳定的边界在视频编辑应用中是不可接受的。因此,我们还引入了一种时间稳定性测量方法来惩罚这种不期望的效果。
关键的挑战是区分物体的可接受的运动和不需要的不稳定性和抖动。为此,我们估计了在一帧掩码转换到下一帧所需的变形。直观地说,如果转换是平滑和精确的,结果可以认为是稳定的。
在形式上,我们将帧tt的掩膜MtM_t转换为代表其轮廓的多边形P(Mt)P(M_t)。然后,我们使用形状上下文描述符(SCD)[3]描述每个点ptiP(Mt)p^i_t\in{P(M_t)}。接下来,我们将匹配设置为动态时间扭曲(DTW)[39]问题,我们寻找ptip_t^ipt+1jp_{t+1}^j之间的匹配,它最小化了匹配点之间的SCD距离,同时保持了点在形状中出现的顺序。
每匹配点的平均成本作为时间稳定性T\mathcal{T}的度量。直观上,匹配将补偿运动和小的变形,但它不会补偿曲线的振荡和误差,这是我们想要测量的。遮挡和非常强的变形会被误解为轮廓不稳定,因此我们在没有这种影响的情况下计算序列子集的测量值。

4.2指标验证
为了验证这些度量在我们的数据集上产生有意义的结果,我们计算了区域相似度J\mathcal{J}和轮廓精度F\mathcal{F}之间以及F\mathcal{F}和时间稳定性度量T\mathcal{T}之间的成对相关性。相关程度在图3中可视化。可以预见,J\mathcal{J}F\mathcal{F}之间有线性相关的趋势(图3,左),这可以通过观察到质量越高的分割通常也会导致更准确的轮廓来解释。但是,我们注意到,独立的程度足以证明使用这两种措施是合理的。为了定性地了解两种测度之间的差异,图4显示了J\mathcal{J}F\mathcal{F}之间的两种判断差异的结果,而时间稳定性测度T\mathcal{T}和轮廓精度F\mathcal{F}几乎不相关(图3,右),这也是预期的,因为时间不稳定不一定会影响逐帧性能。 在这里插入图片描述 从结果统计图3中可以看出J\mathcal{J}F\mathcal{F}之间有明显的线性相关。J\mathcal{J}T\mathcal{T}之间则没有。 图4中左图结果J\mathcal{J}低但F\mathcal{F}高,右图J\mathcal{J}高但F\mathcal{F}低。

5.算法评估
我们评估了总共12种视频分割算法,我们根据它们展示的最先进的性能和源代码可用性以及两种常用的预处理技术选择了它们。源代码要么是公开的,要么是根据要求由作者共享的。
在无监督类别中,我们评估了NLC[13]、FST[33]、SAL[43]、TRC[18]、MSG[5]和CVOS[45]的性能。后三种方法每帧产生多个分段,因此,正如[5]中建议的,我们解决了以J\mathcal{J}为区域相似度最大化的二部图匹配,以选择与目标对象最相似的。在半监督方法中,SEA[40]、JMP[14]、TSP[7]和HVS[21]使用第一帧进行初始化。HVS的意思是分层过分割,因此我们搜索层次和对应的片段,使第一帧的J\mathcal{J}最大化,保持注释固定整个视频。FCP[35]使用一对注释对象提议来初始化分类器。在我们的评估中,KEY[24]被认为是半监督的,因为我们覆盖了他们的低分,而是使用ground-truth来选择最优假设,然后细化解决一系列时空图切。
所选择的算法根据监管水平跨越了第2节中设计的类别。然而,具有手动反馈的交互式方法理论上可以产生最优结果,并且不能直接与非和半监督的方法相比较,因为用户编辑的数量,例如笔画,也应该被考虑在内。因此,我们将JMP[14]转换为半监督方法,该方法将掩码传播到类似SEA[40]的连续帧。我们相应地减少了表2和表3中类别的数量。
此外,我们还评估了显著目标检测器和目标建议生成器的性能,因为它们的输出对于建立在它们之上的各种视频分割算法来说是一个有用的指标。我们从CIE-Lab图像(SF-LAB,[34])和帧间运动(SF-MOT,[34])中提取每帧显著性,同时我们使用ground-truth选择目标建议生成器(MCG,[36])的假设,最大化每帧Jaccard区域相似度J\mathcal{J}在这里插入图片描述 在这里插入图片描述

6.定量评估
在本节中,我们将给出15种评估方法的结果。我们首先提供对三种误差度量(区域、轮廓、时间)中的每一种进行评估的不同统计数据,然后在属性级别讨论评估结果(例如,关于外观变化的性能)。
对于每个方法,我们在整个数据集中都保持固定的默认参数。尽管在加速计算(并行化预处理步骤,如运动估计或提取边界保持区域)和减少内存占用(缓存中间步骤)方面做了相当大的努力,但一些基于全局优化例程的方法无法轻松加速。因此,为了能够相互评估所有方法,我们被迫将视频降采样到480p分辨率。由于需要巨大的处理能力,我们在不同的机器上进行实验,部分是在具有数千个节点和异构CPU核的集群上进行实验。指示性运行时间在补充材料中报告。
评估脚本、输入数据和输出结果是公开的。
我们从评估中排除了第一个框架,它被半监督方法用作ground-truth,最后一个框架没有被一些方法处理。总体结果和注意事项在6.1节中报告,并在表2中总结,而基于属性的评价在6.2节中讨论,并在表3中总结。

6.1. 误差统计
对于给定的误差度量C\mathcal{C},我们考虑三种不同的统计数据。R={Si}R=\{S_i\}为视频序列SiS_i的数据集合,Cˉ(Si)\bar{\mathcal{C}}(S_i)SiS_i的平均测量误差。平均值(mean)是平均数据集误差,其计算公式为MC(R)=1RSRCˉ(Si)\mathcal{M}_C(R)=\frac{1}{\left\vert R \right\vert}\sum_{S\in R}\bar{\mathcal{C}}(S_i)。衰减量化了随着时间的推移性能的损失(或增益)。设Qi={Qi1,...,Qi4}Q_i=\{Q_i^1,...,Q_i^4\}SiS_i的四分位数,我们将衰减(decay)定义为DC(R)=1RQiRCˉ(Qi1)Cˉ(Qi4)\mathcal{D}_{\mathcal{C}}(R)=\frac{1}{|R|}\sum_{Q_i\in R}\bar{\mathcal{C}}(Q_i^1)-\bar{\mathcal{C}}(Q_i^4)。目标召回率(object recall)是得分高于阈值的序列与总序列的比值,公式为OC(R)=1RSR1Cˉ(Si)>τ\mathcal{O}_\mathcal{C}(R)=\frac{1}{|R|}\sum_{S\in R}1_{\bar{\mathcal{C}}(S_i)>τ},在我们的实验中,τ取0.5。(四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。)
各方法的区域评价见表2。在均值交联方面表现最好的方法是NLC(MJ=0.641\mathcal{M}_{\mathcal{J}}=0.641),紧随其后的是FCP(MJ=0.631\mathcal{M}_{\mathcal{J}}=0.631)。然而后者具有更好的召回率OJ\mathcal{O}_{\mathcal{J}}和更少的衰减DC\mathcal{D}_{\mathcal{C}}。在提交时,我们的并发工作BVS[31]得分为MJ=0.665\mathcal{M}_{\mathcal{J}}= 0.665,因此在区域相似性方面表现最好,并且在此特定数据集上调整了参数。
FCP解决了完全连通图的全局优化问题,半监督方法如TSP,SEA,HVS和JMP,将初始的手动分割迭代地传播到连续的帧中,从而表现出时间性能的衰减,这反映在结果中。为了缓解这个问题,使用更大的步长进行传播并在中间插入结果可以减少漂移并改善整体结果。TRC和MSG属于一类优先使用运动分割的方法,但由此产生的对对象的过分割对平均性能有负面影响。CVOS使用遮挡边界,但仍然遇到类似的问题。与TRC和MSG不同,CVOS进行在线细分。就效率而言,它可以更好地扩展到更长的序列,但会经历更高的衰减。
KEY[24]、SAL[43]和FST[33]针对潜在前景目标位置的逐帧检测指标,试图确定稀疏分布在视频序列中的先验信息。通过最小化局部连通图上的能量函数,增强了先验信息的时空一致性和稳定性。虽然局部连接使分割的传播类似于上面列出的半监督方法,但这些方法的衰减较少,因为注释可以在多个不同的时间框架中使用。
在预处理类别问题(preprocessing category)中,oracle MCG[36]是寻找每帧最佳建议的方法的信息性上限。该算法具有最高的基于区域的性能J\mathcal{J}和较好的目标召回率MJ\mathcal{M_{\mathcal{J}}}。MCG的性能也得到了使用并发对象提议生成器的FCP和KEY的良好性能的支持,这表明这可能是未来更多研究的一个有前途的方向。正如预期的那样,在视频序列中,运动是比颜色更强的低水平物体存在提示。因此显著性运动检测SF-MOT[34]的性能明显优于SF-LAB。
评价清楚地表明,方法的总体和个人表现都为未来的研究留下了充足的空间。例如,在[23]中,我们观察到J0.7\mathcal{J}≥0.7的Jaccard指数似乎足够准确,而J0.6\mathcal{J}≤0.6已经代表了与原始物体形状的显著偏离。在DAVIS上评估的顶级技术仍然更接近后者。
在轮廓精度方面表现最好的方法是NLC和JMP。前者使用每帧大量的超像素(约2000像素)和一个有区别的特征集合来表示它们。相比之下,JMP利用测地线活动轮廓来细化对象边界。TRC和MSG的运动聚类以及CVOS的遮挡边界沿边界产生次优结果。在时间稳定性方面排名靠前的方法是那些在连续帧上传播分割的方法(JMP, SEA)。正如我们所期望的那样,那些在每帧基础上使用的并且不能在一段时间内增强连续性的方法,如MCG和SF-(*)会产生相当高的时间不稳定性。作为完整性检查,我们评估了ground truth的时间稳定性,我们得到T=0.093\mathcal{T} = 0.093,它比任何序列都低。

6.2. 基于属性的评估
如第3节和表1所述,我们用每个代表不同挑战性因素的属性对视频序列进行了注释。这些属性允许我们识别具有主要特征(如遮挡的存在)的视频组,这是解释算法性能的关键。然而,由于为每个序列分配了多个属性,它们之间可能存在隐藏的依赖关系,这可能会潜在地影响对结果的客观分析。因此,我们首先进行统计分析,建立这些关系,然后细化相应的评价结果。
Attributes Dependencies(属性依赖). 我们将视频序列中每个属性的存在或不存在表示为一个二值随机变量,它们之间的相关性可以用定义在顶点集V{1,...,16}V\in\{1,...,16\}和(未知)边集EE的图GG上的两两马尔可夫随动场(MRF)来建模。两个属性之间没有边表示它们独立于其余属性。给定n=50n = 50个二进制向量表示每个视频序列中属性的存在,我们通过l1l_1惩罚逻辑回归估计EE。为了保证估计图的鲁棒性,我们采用了稳定性选择(stability selection)[30]。简而言之,这相当于对数据的n/2大小的子样本多次执行上述程序,并计算每条边被选择的时间比例。在这个选择概率上设置一个适当的阈值可以让我们根据[30]中的定理1控制错误估计的边数。例如,对于一个阈值为0.6,选择一个λλ值,平均选择大小为4的邻域,错误选择的边的数量最多为4(超出162=25616^2 = 256可能的边)。图2(右)显示了估计的依赖关系。正如预期的那样,属性之间存在相互依赖关系,比如快速运动(FM)和运动模糊(MB),或者交互对象(IO)和形状复杂性(SC)。我们请读者查阅补充材料以了解更多细节。
Results(结果). 在表3中,我们报告了具有特定属性的数据集子集的性能。由于空间限制,我们将本文中的分析减少到信息最丰富和最循环的属性。进一步的细节可以在补充材料中找到。
Appearance changes(AC).外观变化(AC)对几种方法提出了挑战,特别是那些强烈依赖于颜色外观相似性的方法,如HVS和TCP。例如,TSP性能下降了近50%,这是它用来更新外观模型的高斯过程的结果,因此对于强大的外观变化不够健壮。尽管FCP的条件随机场具有密集的连通性,但它的性能也有相当大的损失。原因在于注释建议的次优自动选择。很可能这些建议有足够的多样性来跨越整个对象的外观,导致分类器过拟合。
Dynamic background(DB).动态背景(DB)场景,例如流动的水,是一类非监督方法的主要难点,如NLC和SAL,它们采用独特的运动显著性作为基础假设来预测目标位置。有趣的是,假设一个完全封闭的运动边界曲线与目标轮廓一致,可以稳健地适应背景变形(FST)。最后,MSG和TRC经历了相当大的性能退化,因为它们依赖于[5]的运动聚类是基于点轨迹的不同,假设平移模型是对附近点的很好的近似,这在变形图像区域不是真的。
Fast motion(FM).对于任何一种利用运动信息的算法来说,快速运动(FM)都是一个问题,因为这是对可靠光流计算的一个主要挑战。请注意,在快速运动和运动模糊(MB)之间有很强的依赖性(图2,右),产生模糊的物体边界几乎不可能从背景区域分离出来。诸如TRC和MSG等方法使用点迹来增强对快速运动的鲁棒性,但由于用于结果致密化的基础变分方法的敏感性,仍然容易受到运动模糊的影响。NLC是唯一在这两种情况下都没有性能损失的方法,这可能是因为显著性计算仍然依赖于帧的子集,并且它们的随机游走矩阵非局部连接对快速运动具有鲁棒性。
Occlusions(OCC).遮挡(OCC)是视频分割中一个众所周知的难题,只有SEA和JMP等算法能够解决这一问题。正如预期的那样,利用大范围连通性(如NLC、FCP和KEY)的方法对于这些挑战是相当暴力的。

7. 结论
据我们所知,这项工作代表了目前规模最大的视频对象分割算法的性能评估。当然,必须考虑到评估的方法是使用不同数量和类型的输入数据和ground-truth开发的,或者部分地甚至是为不同的问题设计的,只是后来适应了视频对象分割的任务。然而,我们评估的主要目的并不是确定优胜者,而是为研究人员提供高质量的、当代的数据、可靠的标准化评估程序,以及与当前最先进的技术进行有价值的比较。我们希望该数据集的公开可用性和确定的潜在未来工作领域将激发更多的兴趣,这是一个活跃的和根本重要的视频处理领域。
和任何数据集一样,DAVIS的寿命也是有限的。因此,我们欢迎外部贡献来扩展它,将其推广到其他分割任务,如过分割,或其他应用,如视频alpha消光,语义视频分割,视频检索和动作识别。
目前,运行时间效率和内存需求是几个视频分割算法可用性的主要瓶颈。在我们的实验中,我们观察到大量的时间花在预处理图像提取边界保持区域,目标建议和运动估计。我们鼓励未来的研究仔细选择这些组件,记住它们可能会损害其工作的实际效用。高效的算法将能够利用全高清视频和准确的分割面具提供的数据集。利用高分辨率可能不会在区域相似性方面产生更好的结果,但它对提高复杂物体轮廓和微小物体区域的分割是至关重要的。

致谢
我们感谢人类和动物“演员”,他们为DAVIS的创作做出了贡献。我们特别感谢Lucia Colombo在整个项目期间提供的后勤支持。该研究获得了国家自然科学基金(SNF)(200021 143598)的部分资助。

参考文献 (略)

收获与感悟

这篇论文首先介绍了数据集和基准的重要性,主要的贡献是提出了VOS的评价指标,即区域相似度,边沿精度和时间稳定性。本文还探寻了视频序列评价指标和各种属性之间的关系,并用15个算法(包括监督,半监督和无监督)进行了实验。