一年多前写过一篇关于DeepMind的关系网络(relation network)的回答(周博磊:如何评价 DeepMind 新提出的关系网络(Relation Network)?),最近的一篇ECCV我把这个关系结构扩展到时域,用于视频行为识别取得了不错的效果。大致想法是通过利用网络在时间域上面估计帧与帧之间的关系,模型本身非常简单,在something-something dataset v2上也取得了SOTA。熟悉我研究工作的朋友应该知道我自己喜欢简洁有效的方法。昨天为即将举办的ECCV录了个demo视频,发现在长视频的预测上效果也蛮好,跟大家分享一下,如下,视频下方是模型的预测结果:
感兴趣的同学可以看下面论文和代码(特别鸣谢TSN作者的代码库)。
论文:https://arxiv.org/pdf/1711.08496.pdf
值得一提,这篇论文是我PhD期间的最后一个工作,发表过程也曲折。投稿CVPR‘18时因为被二作坑而高分被拒(原因是二作美国小哥没经验,在我们为补充材料准备的demo video开头直接插入了我们作者名字,我也没注意到就提交了,最后PC直接以违反double blind policy锯掉。。)后来转头ECCV‘18中了。周六将参加ECCV,朋友们慕尼黑聚起来,也许这也是我最后一次自己来讲海报了,完结:)。