ICCV 2017 | 通过学习通用知识同时对异常事件进行检测和重述

199 阅读3分钟

Joint Detection and Recounting of Abnormal Events by Learning Deep Generic Knowledge

论文下载

一、摘要

作者认为对异常事件进行重述(也就是解释异常事件为什么被判断为异常)是视频监控中未被探索但是至关重要的任务,因为它能帮助观察者快速地判断这是否是错误的警报。为了用人类能理解的形式描述事件以进行事件重述,学习关于视觉概念的通用知识(例如,物体和动作)是至关重要的。尽管卷积神经网络(CNNs)在学习这样的概念上已经取得了很好的结果,由于异常检测依赖环境的特性,如何有效地利用CNNs进行异常事件检测一直是一个悬而未决的问题。在本论文中,作者集成通用的CNN模型和与环境相关的异常检测器来解决这个问题。为了获得可用于检测和重述事件的语义信息,本文学习了具有多个视觉任务的CNN。通过适当地将该模型插入异常检测器中,可以利用CNN的判别能力对异常事件进行检测和重述。

二、贡献点

  1. 解决了一个新的问题——同时对异常事件进行检测和重述,这对实际的监控应用和理解异常事件检测算法的行为有着重要的意义。

  2. 将基本视觉概念的学习纳入到异常事件检测框架中。概念化模型为更高层次的异常事件检测开辟了有趣的方向。

  3. 基于多任务的Fast R-CNN,在多个基准点上取得了优于其他方法的性能,并证明了deep CNN特征在异常事件检测中的有效性。

三、模型训练过程

(一)训练过程

(1)学习通用模型

通用模型
作者使用Microsoft COCO数据集去学习objects,使用Visual Genome 数据集去学习attributes和actions,因为这两个数据集包含足够多的具有边界框注释的对象。作者使用COCO中所有的object类型(80个),从Visual Genome中选择出现频率最高的45个attributes和出现频率最高的25个actions。

在大规模有监督数据集(Microsoft COCO和Visual Genome)上学习multi-task Fast R-CNN,得到的通用模型可以同时检测object、action和attribute。

(2)学习与环境相关的模型

利用Multi-task Fast R-CNN,得到指定环境下的训练数据(固定摄像头拍摄的视频)的fc7 features(deep features)和classification scores。

  • fc7 features用于建立fc7 model,即与环境相关的normal events的模型。在测试阶段,可以根据测试特征偏离模型的程度来判断是否是异常。
  • 使用具有高斯内核和带宽的核密度估计(KDE),根据得到的classification scores为每个类别建立目标环境下各个分类的分布。在测试阶段,根据Multi-task Fast R-CNN得到测试数据的classification scores,根据 classification scores可以预测三种类型的视觉概念(object、action和attribute),classification scores的倒数作为这三个视觉概念的异常分数。

(二)测试过程

pipline

  1. 检测推荐的对象 根据geodesic objectmoving object proposals可在每一帧上检测推荐的对象
  2. 提取深度特征和分类得分 利用multi-task Fast R-CNN得到所有推荐对象的deep feature和classification scores。
  3. 根据深度特征判断是否异常 根据得到的deep feature判断推荐的对象是否是异常,利用异常检测器计算异常得分,当特征的异常分数大于某个阈值则被判断为异常。
  4. 重述异常事件 从classification scores预测异常事件的三种类型(object、action和attribute)的视觉概念。classification scores的倒数作为三个类型视觉概念的异常分数。图中显示异常的原因是“running”这个动作导致的。

四、实验结果对比