论文标题:MGFN : Magnitude-Contrastive Glance-and-Focus Network for Weakly-Supervised Video Anomaly Detection
论文链接:arxiv.org/abs/2211.15…
代码链接:github.com/carolchenyx…
作者单位:香港大学、香港中文大学
会议介绍:AAAI(Association for the Advance of Artificial Intelligence)是由人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。
弱监督条件下的监控视频中异常行为检测是一项具有挑战性的任务。由于异常事件本身具有罕见性,未知性和无边界性,因此对于异常事件数据的收集难度非常大。现有的视频数据集中对于异常事件帧的标注不够精细,在训练时,往往只能确定当前整个视频中含有异常事件帧,而异常帧的具体位置并不清楚,因此称为弱监督视频异常检测。现有的方法对于长时段视频序列时,异常定位能力较差。来自香港大学和香港中文大学的研究团队针对该问题提出了一种扫视-聚焦网络(glance and focus network),以有效地整合视频中的时空信息来完成精确的异常检测,该文目前已被人工智能顶级国际会议AAAI2023接收为Oral论文。此外,作者对目前社区中对异常时间异常程度计算的方式进行了调查和研究,发现大家经常使用的特征幅度(feature magnitudes)很容易受具体环境的影响,因而导致由于场景变化导致观察到的异常程度不一致。为了解决这个问题,作者提出了特征放大机制(Feature Amplification Mechanism)和幅度对比损失(Magnitude Contrastive Loss)来增强检测异常的特征幅度的辨别力。作者在两个大型基准 UCF-Crime 和 XD-Violence 的实验结果证明了本文方法的有效性。
1.引言
目前社区对于监控视频中异常事件的定义仍然很模糊,因为“异常”是相对于“正常”定义的相对术语,如下图所示,在没有决定性的“正常性”知识的情况下,仅根据单个或几个附近的帧来预测异常是不合理的。
为了应对上述挑战,现有方法可以大致分为两个分支,一种方法通过构建时空表征架构来学习检测异常。但这类方法由于缺乏全局上下文感知和对异常帧的特定关注,它们通常难以处理异常帧仅占一小部分的长视频样本。另外一类方法通过设计特定的损失函数来学习区分异常和正常。例如,发表在ICCV2021上的论文[1]提出了一种鲁棒的时间特征量级 (Robust Temporal Feature Magnitude,RTFM) 损失,以将异常特征量级推向更大和正常的相反方向。 在相同的视频序列或相似的场景中,异常特征可能比正常特征获得更大的幅度。然而,作者通过实验发现,除了异常之外,特征量级还取决于视频的其他属性,如物体运动、场景中物体和画面中出现人的数量等。如下图(a)所示,当视频画面中有大量物体运动的正常视频(下图)的特征幅度比上图中的异常视频还要大。
因此作者断定,仅使用RTFM损失来简单的将异常特征增强和正常特征幅度缩小是不合理的,会受到场景和目标运动的影响,而影响网络训练,作者进一步发现,即使在相同的视频序列中,如上图(b)所示,通过RTFM学习的一些正常特征(红色边界框外的绿色点)会达到与异常点(红色边界框中的绿点)相似甚至更大的特征幅度。图(c)中的t-sne可视化表达的特征分离性也表明RTFM损失无法有效分离正常和异常特征。
2.本文方法
为了解决上述问题,本文提出了一种用于视频异常检测的幅度对比扫视-聚焦网络 (Magnitude-Contrastive Glance-and-Focus Network,MGFN)。Glance-and-Focus是受人类视觉系统中的全局到局部信息集成机制的启发,MGFN首先会浏览整个视频序列以捕获长期上下文信息,然后进一步处理每个特定部分以进行异常检测。下图展示了MGFN的整体框架,首先将带有视频级标注的视频样本 作为输入,其中 ,随后将每个视频序列均匀地分割成𝑇个片段,并将来自特征提取器的特征图表示为。随后特征放大机制(Feature Amplification Mechanism,FAM)以特征图为输入,显式计算特征范数来增强。然后通过 Glance Block (GB) 和 Focus Block (FB) 分别提取全局和局部特征。
2.1 特征放大机制(FAM)
FAM模块的构成细节如上图(b)所示,首先显式计算出 的特征范数 如下所示:
之后,FAM 通过添加一维卷积调制特征范数 到 作为残差来导出增强特征如等式(2)所示:
在不影响特征图维度的情况下,FAM 通过将作为统一异常表示的特征范数显式合并到网络中来放大特征图。
2.2 Glance Block(GB)
Glance Block 的架构如下图(a)所示。为了减少计算负担,作者首先使用卷积将特征图维度降低。并通过short-cut卷积将输出特征图转换为 ,随后构建了一个视频级Transformer来学习视频片段之间的全局相关性。具体来说,作者计算了一个注意力图 来明确关联不同的时间片段。
Glance Block 包含一个额外的前馈网络 (FFN),两个全连接层和一个 GeLU 非线性函数以进一步提高模型的表示能力,输出特征图j接着被送到Focus Block中提取局部特征。
2.3 Focus Block(FB)
如上图 (b) 所示,Focus Block 由一个short-cut卷积、一个自注意卷积 (self-attentional convolution,SAC) 和一个前馈网络 (FFN) 组成。受自注意机制的启发,作者提出了自注意卷积(SAC)来增强每个视频片段中的特征学习。具体来说,利用 作为特征图和卷积核,并将此步骤制定为核大小为5的卷积,具体操作过程如下:
其中,
2.4 Magnitude Contrastive Loss
由于异常检测本质上是一个二元分类问题,损失函数形式如下:,其中是视频级别的ground truth(表示异常),是预测的当前片段的异常概率。为了更好地鼓励特征可分离性,作者提出了一个幅度对比(MC)损失。
3.实验效果
本文的实验在两个标准数据集上进行,分别为UCF-Crime 和 XD-Violence。异常视频包含正常帧和异常帧,正常视频仅包含正常帧。作者采用(AUC)曲线和平均精度(AP)分别作为UCF-Crime和XD-Violence 的的评估指标。 AUC 和 AP 越大表明模型的性能越好。
下表显示了本文方法在 UCF-Crime 数据集的结果。如下表所示,本文的结果优于所有现有的一类基线、无监督工作和弱监督工作。凭借 VideoSwin backbone的强大特征提取能力,本文的方法甚至超过 SOTA 方法 MSL 1.05% AUC,这已经是弱监督视频异常检测领域的重大改进。
下表显示了本文方法在 XD-Violence 数据集的结果。 同样,本文的性能优于所有现有作品的性能,证明了该文提出的弱监督视频异常检测模型的有效性。
4.总结
本文介绍了一种带有 Glance-and-Focus 模块和用于异常检测的幅度对比损失的新型框架 MGFN。 提出的 MGFN 可以模仿人类的全局到局部视觉系统,包含一个 Glance 和 Focus 机制,可以有效地整合全局上下文和局部特征。此外,还提出了一种特征放大机制(FAM)来增强模型对特征量级的感知能力。此外为了学习场景自适应跨视频特征幅度分布,引入了幅度对比损失以鼓励正常和异常特征幅度的可分离性。在两个大型数据集 UCF-Crime 和 XD-Voilence 上的实验结果表明了本文方法的有效性。
参考
[1] Tian, Y.; Pang, G.; Chen, Y.; Singh, R.; Verjans, J. W.; and Carneiro, G. 2021. Weakly-Supervised Video Anomaly Detection With Robust Temporal Feature Magnitude Learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 4975–4986.