Weakly Supervised Video Salient Object Detection(上)

374 阅读7分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

摘要

本文首次提出了基于重标注的“眼动点模糊标注”的弱监督视频显著性目标检测模型。本文提出了“Appearance-motion fusion module”和双向的LSTM;另外还设计了前背景similarity loss;另外还提出了一个weak annotation boosting strategy。

1. Introduction

视频显著性检测(VSOD)是在空间域和时间域分割显著性目标的任务。现有的VSOD方法有两个不同的解决思路:1.用循环网络encoding时间信息;2.用光流约束encoding几何信息。VSOD的困难在于pixel-wise标注工作量很大。

训练深度视频显著性检测模型的标准pipeline包括两个主要步骤。首先,网络在现有的静止RGBimage-based显著性检测训练集,如DUTS或MSRA 10K上面做预训练。然后,在视频显著性检测数据集,如DAVSOD和DAVIS上微调。这样做的主要原因是视频显著性检测数据集通常场景密度有限。即使最大的DAVSOD数据集有超过10K帧的训练数据,其中还是有很多冗余帧,使得其无法有效,充分地训练深度视频显著性模型。DAVSOD有107个用于训练和验证的片段,即只有107个不同的场景。因此,直接用VSOD数据集训练可能还不够,且含有大量冗余的数据可能会导致模型过拟合。

为了得到一个高效的视频显著性检测模型,现有的全监督VSOD方法依赖于RGB图像显著性数据集和VSOD训练数据集。以上pipeline背后的问题是pixel-wise标注的巨大限制,其时间和成本代价昂贵。例如,RGB图像显著性检测训练数据集有超过10K的标注样本。此外广泛应用的VSOD训练数据集(DAVSOD和DAVIS)包含了超过14K的pixel-wise标注帧。两者的标注都意味着巨大的标注负担。

为了缓解这种pixel-wise标注负担,一个可以采取的方式就是用弱监督学习技术从图像的scribble或image-level标注中学习显著性。在本文中,考虑到scribble标注的高效性,我们旨在通过scribble学习一个弱监督视频显著性检测网络。然而,最主要的问题是每张scribble标注没有时间信息。为了把时间信息包含入我们的弱监督标注,本文在现有的VSOD训练集中采用了眼动点标注作为监督。另外,文本首先将眼动点的峰值反应区域定义为前景,那些没有眼动点的区域作为背景。然后本文用《Weakly-supervised salient object detection via scribble annotations》同时标注了前景scribble和背景scribble。

问题:《Weakly-supervised salient object detection via scribble annotations》是如何进行标注的?
回答:眼动点涂鸦标注,涂鸦两笔,一笔是眼动点关注到的显著区域,一笔是随机在背景上画一笔,这样的标注最后有三个标签,1代表前景,2代表背景,0表示未知。

基于眼动点的scribble标注,本文设计了一个appearance-motion融合模型去融合RGB图像的外观信息和光流中的运动信息。另外展示了一个基于时间信息加强模型的双向LSTM去加强提取长期时间信息。需要注意的是,本文使用来自S-DUTS的scribble标注通过传统方式去对我们的视频显著性检测网络做预训练。通过建立RGB图像显著性检测数据集和视频显著性检测数据集的scribble标注,和现有的深度视频显著性检测模型相比,我们的弱监督视频显著性检测网络只要求非常低廉的配置。考虑到数据集中cross-frame的冗余,本文介绍了foreground-background similarity loss去完全开发我们的弱监督标注。本文另外还介绍了一种弱监督加强策略,这种策略利用了我们的scribble标注和产生于现有的全监督SOD模型生成的saliency map。得益于此,我们的模型表现很好(见图1的f, e)。 在这里插入图片描述 本文主要的contribution是:1.介绍了首个基于眼动点scribble标注的弱监督视频显著性检测网络;2.提出了一种appearance-motion融合模型和一个时间信息加强模型去有效地融合外观和动作特征;3.提出foreground-background similarity loss在邻近帧中去探索我们的弱监督标注;4.结合现有saliency模型生成的saliency maps和我们的scribble标注去加强模型效果。

2. Related Work

Fully supervised video salient object detection: 作为VSOD任务的主流,全监督模型关注探索训练集的空间和时间信息。

然而这中算法要求的标注很麻烦。

Weakly/semi/un-supervised video salient object detection: 弱监督/半监督/无监督任务

Video object segmentation: VOS任务

3. Our Method

3.1. Overview

重新标注了DAVSOD和DAVIS数据集,做了scribble标注。scribble标注缺少时间信息,因此本文做了眼动点scribble标注。这样数据集分成三部分,RGB图像X,光流图F和眼动点模糊标注Y。本文设计了一个显著特征提取器fαf_{\alpha}来提取X和F的显著性特征。然后用Appearance-Motion Fusion Module (AMFM)把这两个特征融合到一起,这样就同时学习到了外观和运动信息。用LSTM对融合的结果使用Temporal Information Enhanced Module (TIEM)得到了长期的时间信息。Foreground-background similarity loss利用到了眼动点模糊标注信息,这提升了对时间信息的提取。最后Saliency boosting strategy改善了方法的效果。

3.2. Fixation guided scribble annotation

最大的视频显著性检测数据集DAVSOD的标注分为两步:1.使用视觉追踪器记录眼动点,输出经过高斯模糊处理,得到稠密fixation map;2.标注者分割基于峰值关注区域(peak response region,即眼动点最密集的部分)的全范围作为显著性前景。根据《Shifting more attention to video salient object detection》,额外的眼动点标注提供了视频显著性数据集有用的时间信息。按照惯例,DAVSOD和DAVIS结合到一起去训练全监督VSOD模型。起初,DAVIS没有眼动点标注,然而Wang et al.为其添加了标注。作为一个弱监督显著性检测网络,本文趋于使用眼动点数据作为监督信息去火的时间信息,然后用scribble标注训练学习代替pixel-wise clean annotation。给定数据集中的每一帧(图a)和相关的fixation map(图b),我们通过peak response regions标注目标前景scribble和其他区域的背景scribble(图d)。这样,产生的scribble标注encode了时间信息(相比之下《Weakly-supervised salient object detection via scribble annotations》中的scribble没有包含时间信息)。 在这里插入图片描述

问题:《Weakly-supervised salient object detection via scribble annotations》中的scribble和本文的scribble有什么区别?
回答:根据本文的描述推测是这样的区别。直接做scribble标注是单张图片随便标注,但是本文添加了fixation的跟踪后就相当于显著性区域是根据视频的内容不断变化的,这样就包含了时间信息。

3.3. Saliency feature extraction

根据图2结构所示,使用显著性特征提取模块在RGB图像XX中提取外观显著性特征fα(X)f_{\alpha}(X),在光流图FF中提取运动显著性特征fα(F)f_{\alpha}(F)。本文结构基于ResNet-50并移除了第四阶段(output的size相同的为一个阶段)下采样来保留空间信息,用空洞卷积代替了最后一层卷积层,第四阶段添加了ASPP模块,这个模块用多尺度的空洞卷积获得多尺度空间信息。基于这个显著特征提取模块,我们得到了外观特征fα(X)={fr1,fr2,fr3,fr4}f_{\alpha}(X)=\{f_r^1, f_r^2, f_r^3, f_r^4\}和运动特征fα(F)={fm1,fm2,fm3,fm4}f_{\alpha}(F)=\{f_m^1, f_m^2, f_m^3, f_m^4\}。我们还添加了额外的edge detection branch去恢复最终输出的结构信息,这个细节可以阅读《Weakly-supervised salient object detection via scribble annotations》。

问题:什么是edge detection branch?
回答:就是一个边缘检测分支,更好地定位目标轮廓。