《Video anomaly detection with spatio-temporal dissociation》
原文链接: tuzhigang.cn/thesis/26_P…
作者: Yunpeng Chang, Zhigang Tu, Wei Xie, Bin Luo, Shifu Zhang, Haigang Sui, Junsong Yuan
作者单位: The State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan, Hubei 430079, China;
The School of Computer, Central China Normal University, LuoyuRoad 152, Wuhan, Hubei, China;
Shenzhen Infinova Company Ltd., Shenzhen, Guangdong 518100, China;
The Computer Science and Engineering department, State University of New York at Buffalo, NY 14260-2500, USA
期刊: Pattern Recognition(SCI一区)
引用格式 : Chang Y, Tu Z, Xie W, et al. Video anomaly detection with spatio-temporal dissociation[J]. Pattern Recognition, 2022, 122: 108213.
在线链接: www.sciencedirect.com/science/art…
本文探索了一种新的卷积自动编码器架构,该架构可以分离时空表示以分别捕获空间和时间信息。作者开发了一个基于方差的关注模块,还提出了一种深度K-means聚类策略。实验证明了作者的方法达到了最先进的性能。
摘要: 与之前利用重建或预测作为辅助任务来学习时间规律性的工作不同,在这项工作中,作者探索了一种新的卷积自动编码器架构,该架构可以分离时空表示以分别捕获空间和时间信息,因为异常事件通常在外观和运动行为上不同于正常。具体而言,空间自动编码器通过学习重构第一个单独帧(FIF)的输入来对外观特征空间上的常态性进行建模,而时间部分将前四个连续帧作为输入,将RGB差作为输出,以有效的方式模拟光流的运动。在外观或运动行为上不规则的异常事件会导致较大的重建误差。为了提高对快速移动异常值的检测性能,作者开发了一个基于方差的注意力模块,并将其插入到运动自动编码器中,以突出显示大的运动区域。此外,提出了一种深度K-means聚类策略,以强制空间和运动编码器提取聚类表示。在一些公开可用数据集上的大量实验证明了作者的方法的有效性,该方法达到了最先进的性能。
1 背景
(1) 视频异常检测是一项极具挑战性的任务:首先,真实的视频数据很复杂,一些异常数据点可能靠近正常区域的边界;其次,用于异常检测的标签训练数据是有限的,尽管正常模式通常比较容易采集,而异常样本很少且采集成本高。
(2) 最近,许多基于深度学习的方法被提出来通过建模正常模式来处理有限标记数据的问题。这些方法大多学习自动编码器或U-Net来重建正常事件或预测未来帧,以捕获视频序列背后的正常性。
(3) 基于重构的异常检测方法采用手工制作的特征(例如低水平轨迹特征)或直接使用视频帧作为输入,并提取高水平特征表示来建模正常性,其中可以通过最小化重构误差来学习正常事件的时间规律性。
(4) 然而,这些方法主要集中于学习运动信息和时间规律,而忽略了一个关键因素,即外观异常提示。这使得它们对一些异常对象不敏感,这些异常对象在外观上与正常对象明显不同,但不涉及运动异常值。由于异常事件在外观或运动上都可能是不规则的,因此需要将空间和时间特征结合起来进行异常检测。
2 主要贡献
(1) 本文提出了一种新的自动编码器架构,以分离时空表示,并学习空间特征空间和运动特征空间中的规律性,以检测视频中的异常事件。
(2) 设计了一种高效的运动自动编码器,它以连续视频帧作为输入,以RGB差作为输出以模拟光流的运动。所提出的方法比基于光流的运动表示学习方法快得多,在一个GPU下,其平均运行时间为32FPS。
(3) 利用方差注意力模块自动为视频片段的运动部分分配重要权重,这有助于提高运动自动编码器的性能。
(4) 探索了一种深度K-means聚类策略,以强制自动编码器网络生成紧凑的运动和外观描述符。由于聚类仅在正常事件上训练,因此聚类与异常表示之间的距离远高于正常模式之间的距离。重建误差和聚类距离一起用于评估异常。
(5) 将原始运动自动编码器的多个RGB差分输出替换为第一个和最后一个单独帧之间的残差,以使运动自动编码器学习输入视频帧内的最长范围时间信息。实验结果表明,通过学习预测这种运动线索能够提高异常检测的性能。
(6) 为了学习空间和运动特征空间中的常态性,将从同一空间位置的两个流中提取的这些表示连接起来,并使用早期融合策略联合优化两个流和深度K-means聚类。此外,进行了更多的实验来证明所提出的深度K-means聚类方法的有效性。
(7) 修改了异常分数计算方案,以将时空信息与它们在像素级与深度K-means聚类的距离融合。与先前的帧级融合方案相比,实验结果表明,新架构的性能得到了改进。
3 主要内容
A. 总结相关工作
(1) 使用自动编码器进行异常检测。异常事件检测任务通常在无监督的环境中制定,其中训练集仅包含正常事件;重构方法:使用自动编码器来提取特征表示,并采用基于重构或基于预测的方法来学习视频序列背后的常态性;未来帧预测:一种替代的基于深度学习的方法,它将异常视为不符合预期的事件。
(2) 使用双流网络的视频任务。为了充分利用视频任务的空间和时间信息;对于这些方法,获取光流或轨迹需要花费时间。相比之下,本文利用RGB差分策略来代替光流来模拟运动信息,这更有效。
(3) 数据表示和数据聚类。基于编码器的方法将特征学习和聚类结合在一起。
B. 方法概述
对于异常事件检测任务,训练集仅包含正常事件,因此一个有效的解决方案是使用无监督集学习正常训练视频中的规律性。在作者提出的方法中,使用双流架构分离空间信息和运动信息,并分别将重建和预测用作空间流和运动流的辅助任务。
如图1所示,框架中有三个主要组件来处理给定的视频片段。将时空信息分解为两个子模块。空间自动编码器Ea和Da用于重建LIF,而时间自动编码器Em和Dm用于预测输入连续视频帧的FIF和LIF之间的RGB差。编码器和解码器都由三个ResNet块构成。
图1 视频异常检测架构概述
C. 网络结构
(1) 空间自动编码器。为了检测具有场景和外观等空间特征的异常对象,将输入视频片段的第一帧馈入空间自动编码器网络。在模型中,空间编码器用于将输入帧编码为中等级别的外观表示,并且通过最小化输入帧和输出帧之间的重构误差来训练空间自动编码器。图2描述了空间自动编码器的主要结构。
图2 空间自动编码器的结构以及空间分辨率和特征图的通道数
(2) 运动自动编码器。尽管运动特征非常有用,但光学流估计的昂贵计算成本阻碍了依赖于光流的方法用于许多实时实现。利用一种新的运动表示来模拟光流的运动,该运动直接通过视频帧之间的RGB值的差异获得。如图3所示,可以合理地假设从光流捕获的运动表示可以从RGB差分的简单线索中学习。因此,构建了一个运动自动编码器,用连续视频帧的输入生成RGB差。通过利用产生的RGB差模拟光流的运动,运动自动编码器可以学习时间规律,其捕获的特征表示包含基本的运动信息。图4描述了运动自动编码器的主要结构。
图3 RGB视频帧、RGB差异和光流的一些示例
图4运动自动编码器的结构以及空间分辨率和特征图的通道数
(3) 方差注意模块。异常行为更容易发生较大的运动变化,基于这一特性,设计了一种基于方差的时间自动编码器,以自动将重要性权重分配给视频片段的运动部分。由于运动编码器由三个2D ResNet块组成,因此特征图的每个位置都包含通道上的局部运动信息。它类似于包含沿时间轴的运动信息的3D卷积,而2D卷积包含特征通道内的这些信息。因此,对于移动较大的区域,这些嵌入的变化也会更大。因此,可以直接计算通道上表示的平均值,然后计算每个位置的方差。
图5 方差关注模块的结构
(4) 聚类。由于仅在正常数据上训练运动自动编码器和空间自动编码器进行异常检测,因此自动编码器也可以在异常事件上推广。因此,必须推动空间编码器和运动编码器以获得压缩数据表示。本文引入了深度K-means聚类,该聚类将数据表示和聚类中心之间的距离最小化,以迫使空间编码器和运动编码器网络提取训练集内的公共因子。
(5) 训练目标功能。为了学习模型参数,将所有损失函数组合到目标函数中:空间损失La约束模型产生正常的单个帧,运动损失Lm约束模型计算输入视频帧和LIF之间的RGB差,并且簇损失L簇迫使运动和空间自动编码器两者最小化数据表示和簇中心之间的距离。
(6) 异常评分。计算所有像素位置上和
之间的欧几里德距离,以测量预测质量。还测量了相应的串联表示r和簇中心C之间的距离,因为它们中的每一个都可以被视为正常。
高分表示输入视频剪辑更可能是正常的。在计算每个视频序列在所有空间位置上的得分后,将损失归一化,以获得每个视频帧在[0,1]范围内的得分S(t):
使用该标准化分数S(t)来评估视频剪辑中包含的异常事件的概率。
4 实验验证
A. 数据集
在三个公开可用的数据集上评估了模型:UCSD行人数据集、Avenue数据集和ShanghaiTech数据集。
B. 实验细节
(1) 将所有输入视频帧调整为256×256,并使用Adam优化器在单个NVIDIA GeForce TitanXp GPU上训练网络。
(2) 为了初始化运动和空间聚类中心,首先通过在没有聚类约束的正常数据集中联合训练空间和运动自动编码器。在这一阶段,将学习速率设置为1e-4,并训练UCSD Ped2数据集的空间和运动自编码器为50个周期,Avenue数据集和ShanghaiTech数据集为10个周期。然后,冻结空间和运动自编码器,并通过K-means计算聚类中心,以对级联运动表示和空间表示进行聚类。
(3) 初始化后,模型的训练过程执行交替优化。首先通过冻结簇中心并训练自动编码器参数θ。然后,冻结空间和运动自动编码器并优化簇中心。对于自动编码器部分,将学习速率初始化为1e-4,并在遍历100时将其降至1e-5,并将学习速率设置为1e-5以更新簇中心。此阶段,交替训练网络的不同部分,UCSD Ped2数据集为100个时期,Avenue数据集和ShanghaiTech数据集为200个时期。最终的异常检测结果根据重建损失直接计算。
C. 评估指标
根据先前的工作,通过ROC曲线下面积(AUC)的测量来评估方法。ROC曲线是通过改变异常分数的阈值而获得的。较高的AUC值意味着更准确的异常检测结果。为了确保不同方法之间的可比性,计算了帧级检测的AUC。
D. 实验结果
(1) 表1显示了作者提出的方法、人工构建的基于特征的方法和基于深度特征的方法在所有三个基准数据集上的AUC结果。可以看到,本文的方法优于所有方法。在上半部分,与人工制作的基于特征的方法相比,本文的方法在UCSD Ped2数据集上的准确率至少高4.4%。在下面的部分中,与基于深度特征的方法相比,本文方法在所有三个数据集上表现最好。另一方面,本文的方法只使用RGB差作为运动线索,这大大降低了光流估计的计算成本。因此,本文的方法可以更容易地实现实时异常检测。图7显示了本文方法的一些定性示例。可以发现,对于正常帧,重建的未来帧倾向于接近实际的未来预测。
图6 第一行显示了一些正常样本,第二行显示了分别来自UCSD行人数据集、Avenue数据集和ShanghaiTech数据集的一些异常样本,红色框表示异常帧中的异常
图7 本文方法在UCSD行人数据集、Avenue数据集和ShanghaiTech数据集上的时间规律性得分的一部分
表1 Ped2、Avenue和ShanghaiTech数据集上不同方法的AUC
(2) 消融研究。表2验证每个组件的有效性。可以看到,与出现信息相比,时间规律性对于UCSD Ped2数据集上的视频异常检测更为重要。当将RGB差异(即运动)与空间重构相结合时,性能提高了0.5%。当引入深度K-means聚类约束时,时空重构的性能可以进一步提高0.7%。为了进一步说明外观和运动信息的有效性,计算了正常和异常事件在Avenue测试集上的平均得分(图8)。
表2 在UCSD Ped2数据集上评估本文模型的不同模块
图8 Avenue数据集上的外观和运动线索的性能
(3) 注意力可视化。为了更深入地理解方差衰减模块的效果,将衰减图的运动编码器层可视化。为了进行比较,还显示了输入帧。图9显示了Avenue数据集的两个示例。
图9 第一行显示了输入视频帧,第二行显示了重建的帧,第三行显示了射流颜色图中注意力图的可视化
(4) 簇数的探索。为了评估深度K-means聚类策略在检测视频中异常事件方面的性能,进行了去除深度的K-means聚类并改变其聚类中心的数量。使用UCSD-Ped2数据集进行测试,并在表3中显示AUC结果。不同大小的聚类中心的AUC结果证明了本文方法的鲁棒性。图10展示了将t-SNE可视化用于级联数据表示,以证明深度K-means聚类策略的有效性。
表3 UCSD Ped2数据集上具有不同聚类数的建议方法的AUC
图10 将t-SNE可视化用于级联数据表示
(5) 运行时间。如图11所示,本文的方法大约比FlowNet2 SD快2.3倍。具体而言,对于一个视频帧,FlowNet2 SD算法花费0.071秒,而本文的RGB差异策略只需要0.031秒。此外,“RGB+RGB差分”的准确率分别比“RGB+FlowNet2 SD”和“RGB+TV-L1”高2.1%和2.6%。本文使用NVIDIA GeForce Titan Xp图形卡实现方法。每视频帧检测异常事件需要0.0312秒,即32FPS,这与现有的基于深度学习的方法相当或更快。
图11 UCSD Ped2数据集上AUC性能(准确性)和运行时间(效率)的结果
5 总结
本文提出了一种新的自动编码器架构,将时空信息分解为两个子模块,以学习空间和时间特征空间中的规律性,并在正常事件中生成聚集的描述。
具体而言,空间自动编码器对第一个单独帧(FIF)进行操作,并通过重新构造输入来提取空间中的规则性。时间自动编码器对连续视频帧进行处理,通过构造RGB差异来学习时间规律性。根据捕获的时间规律性和运动一致性,时间自动编码器可以学习预测RGB残差,该残差包含用于异常检测的有用运动信息。此外,设计了一个方差关注模块来突出显示帧的运动部分。此外,为了有效地学习空间和运动特征空间中的常态性,并获得更紧凑的数据表示,作者通过深度K-means聚类方法将连接表示与聚类中心之间的距离最小化。作者将空间自动编码器和运动自动编码器的结果相结合,以获得最后一个单独帧(LIF)的预测,并将预测与像素级的聚类距离融合,以评估异常。对三个代表性数据集的扩展实验表明,本文的方法达到了最先进的性能。