two-stream convolutional networks for acition recognition in videos 2014 university of Oxford

network architecture分为spatial stream 和temporal stream，分别用rgb image 和 optical flow，两个cnn的classification scores用SVM或者averaging综合得到最终分类结果。

Long-term Recurrent Convolutional Networks for Visual Recognition and Description 2015

action recognition模式相对简单，将多帧图像经CNN所得特征向量送入LSTM，最用个unit平均融合，接fc分类。 action descriptor模式相对复杂。

Learning Spatio temporal Features with 3D Convolutional Networks 2015 facebook

论文解释了3D convolution和3D pooling的计算方法。相对于temporal stream中的多通道2D convolution，3D convolution不同kernel在时间维度上（即在不同通道间）也是共享的。此外实验证明3* 3 *3的卷积核效果最好。3D convolution通常参数量比较大，且容易过拟合，一般网络深度不大（up to 8 layers)。

convolutional two-stream network fusion for action recognition 2016

论文探究了三个问题：1）如何将two stream networks融合到一起；2）在哪里融合two streams;3）temporal stream如何将不同的frame融合到一起。实验证明用convolution将two stream在两个网络的末端融合效果最好，NOTE:两个stream输出的feature map的concatenation是依照channel交叉级联的，temporal的融合采用3D convolution和3D pooling。

Quo Vadis,Action Recognition? A New Model and the Kinetics Dataset 2017 deepmind google

Two-Stream Inﬂated 3D ConvNet (I3D)

论文主要解决3D convolutional network 使用pretrained model问题，以及加深网络深度。使用了inception v1结构，将其扩充为3D convolution，将2d的imagenet预训练模型延time维度复制，以达到3d convoltion使用预训练模型的目的。

Rethinking Spatio temporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification 2017 S3D

论文主要探讨了1）是否需要使用3D convolution，是否可以将3D和2D convolution混合使用以及两者如何混合。2）3D convolution是否可以将spatial temporal分开计算。实验表明：1）top-heavy-I3D在速度和准确性上都由于bottom-heavy-I3D 2）文中构造了separable 3D convolution，分别使用尺寸为Kt* 1 *1和 1 *Kn *Kn的卷积核计算temporal feature和spatial feature（类似于inception v3），两者分离可以减少3D convolution参数量，且准确率相对于原始I3D也有所提升。

Human Action Recognition论文要点