Human Action Recognition论文要点

596 阅读2分钟

two-stream convolutional networks for acition recognition in videos 2014 university of Oxford

network architecture分为spatial stream 和temporal stream,分别用rgb image 和 optical flow,两个cnn的classification scores用SVM或者averaging综合得到最终分类结果。

Long-term Recurrent Convolutional Networks for Visual Recognition and Description 2015

action recognition模式相对简单,将多帧图像经CNN所得特征向量送入LSTM,最用个unit平均融合,接fc分类。 action descriptor模式相对复杂。

Learning Spatio temporal Features with 3D Convolutional Networks 2015 facebook

论文解释了3D convolution和3D pooling的计算方法。相对于temporal stream中的多通道2D convolution,3D convolution不同kernel在时间维度上(即在不同通道间)也是共享的。此外实验证明3* 3 *3的卷积核效果最好。3D convolution通常参数量比较大,且容易过拟合,一般网络深度不大(up to 8 layers)。

convolutional two-stream network fusion for action recognition 2016

论文探究了三个问题:1)如何将two stream networks融合到一起;2)在哪里融合two streams;3)temporal stream如何将不同的frame融合到一起。 实验证明用convolution将two stream在两个网络的末端融合效果最好,NOTE:两个stream输出的feature map的concatenation是依照channel交叉级联的,temporal的融合采用3D convolution和3D pooling。

Quo Vadis,Action Recognition? A New Model and the Kinetics Dataset 2017 deepmind google

Two-Stream Inflated 3D ConvNet (I3D)

论文主要解决3D convolutional network 使用pretrained model问题,以及加深网络深度。 使用了inception v1结构,将其扩充为3D convolution,将2d的imagenet预训练模型延time维度复制,以达到3d convoltion使用预训练模型的目的。

Rethinking Spatio temporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification 2017 S3D

论文主要探讨了1)是否需要使用3D convolution,是否可以将3D和2D convolution混合使用以及两者如何混合。2)3D convolution是否可以将spatial temporal分开计算。 实验表明:1)top-heavy-I3D在速度和准确性上都由于bottom-heavy-I3D 2)文中构造了separable 3D convolution,分别使用尺寸为Kt* 1 *1和 1 *Kn *Kn的卷积核计算temporal feature和spatial feature(类似于inception v3),两者分离可以减少3D convolution参数量,且准确率相对于原始I3D也有所提升。