在CVPR2022上，上海科技大学和小红书多模态算法团队共同提出了一项新颖的动作序列验证任务，旨在验证两个视频中呈现的动作序列是否一致。区别于传统的关注单个动作的视频任务，我们认为一项复杂任务是需要多个动作构成的步骤序列来完成的，且这些步骤之间遵循一定的内在联系且互相影响。

这种任务可以应用于娱乐或者体育领域的自动打分。例如在跳水比赛中，可以根据与标准视频的对比检测，对选手动作进行打分。对于小红书这样一个笔记模态多元化的业务场景而言，该方法对视频内容、动作流程的理解将有助于平台更精准地为用户推荐相关笔记。

1.背景

得益于近年来各个视频平台的火爆与拍摄器材的普及，视频数据大量涌现，也为视频理解的研究提供了重要的数据基础。我们发现，多数视频中记录的日常活动都是通过一系列步骤而非单个动作来完成的。针对这类视频，我们提出了动作序列验证任务，旨在区分执行相同动作序列的正视频对与具有子动作级别差异但仍执行相同任务的负视频对，如下图所示。

这样一项具有挑战性的任务能够应对开集问题，且不需要事件级甚至帧级注释监督的动作检测或分割来提供先验知识。该任务可应用于体育、娱乐领域的自动打分，或工业生产场景中的标准流程检测等。

2.数据

我们设计了一个全新的脚本数据集，Chemical Sequence Verification (CSV)来支持这项任务。CSV以第一人称视角记录了化学实验场景下的诸多操作流程，充分包含了各类子动作级别变换（子动作的增加、缺失、乱序），能够构成足够数量的正负样本对，因此与我们的任务相契合。数据集包含了约2000个视频，100余类步骤，18类原子动作，具有充分的动作多样性。数据示例可参考图一。下图为CSV中各类原子动作的占比与视频时长分布。

除此之外，我们对COIN[2]和Diving48[3]进行了重规划，使其标注与切分更符合我们的设定，我们将重规划后的数据集称为COIN-SV与Diving48-SV。

3.方法

针对流程验证任务对步骤级别差异的高要求，我们提出CosAlignment Transformer （CAT），从整体流程、局部步骤多角度来进行模型训练的监督。

Intra-step module: 对于每一张采样帧输出帧级别的特征图，提取子动作级别的特征。

Inter-step module: 参考ViT [1]的方法，利用Transformer Encoder来对子动作之间的时序关系进行建模，得到视频的全局特征。

Alignment module: 仅关注视频的全局特征是不够的，我们的任务更关注视频对之间子动作级别的差异，因此我们提出序列对齐损失（Sequence Alignment Loss）对来自正视频对的两个特征图序列进行对齐，要求两个输入视频中的子动作在时序上能够一一对应。

4.实验结果

作为一项新提出的任务，在此之前并没有专门针对此项任务的方法，考虑到我们的方法与动作识别方法的相似性，且同样是以多类别分类任务来进行训练，实验中我们与传统动作识别算法进行对比。

实验证明我们的方法在三个数据集上均超越了传统的动作识别算法。

上图为消融实验的结果，左图证明了TE（Transformer Encoder）与SA（Sequence Alignment）模块对量化结果的积极作用；右图的可视化配合不同模型的类内误差与类间误差证明了TE和SA模块对细化分辨流程中的步骤是有益的。

5.应用

该任务可用于娱乐/体育领域的自动打分。给定一段标准视频，与多段待打分视频，根据两段视频在特征空间的相似度给出打分结果。

或是标准化流程中的异常动作检测，当与标准流程显著不同的动作发生时，两段视频在特征空间的距离开始飙升，此时我们可以停止操作，一定程度上避免由不规范动作引发的危险。

6.结语

本文提出了一项全新的动作序列验证任务来判断两个视频中的动作序列是否一致，具有广阔的应用前景。针对此任务，我们设计和收集了包含各种子动作级别变换的化学实验流程数据集CSV，并且提出了一套简单而有效的流程验证算法CAT，实验证明优于现有方法。该方法不仅能直接用于视频序列验证任务上，也能作为预训练模型，用于视频检索，视频分类等下游任务中，在视频搜索，推荐等工业应用场景中发挥更大的价值。

参考文献：

[1] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[2] Tang Y, Ding D, Rao Y, et al. Coin: A large-scale dataset for comprehensive instructional video analysis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 1207-1216.

[3] Li Y, Li Y, Vasconcelos N. Resound: Towards action recognition without representation bias[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 513-528.

7.作者信息

钱一成

小红书多模态算法团队实习生，现硕士就读于上海科技大学SVIP Lab，师从高盛华教授。

主要研究方向：视频动作理解。

汤神

小红书多模态算法团队负责人。

CVPR、ECCV、ICCV、TIFS、ACMMM等会议与期刊发表近20篇论文。多次刷新WiderFace和FDDB国际榜单世界记录，ICCV Wider Challenge人脸检测国际竞赛冠军，ICCV VOT单目标跟踪冠军，CVPR UG2+亚军。

CVPR2022 | 上科大x小红书首次提出动作序列验证任务，可应用于体育赛事打分等多场景