在理想情况下,通过自然语言描述(例如“这个人将配料倒入搅拌器”)来查找视频的特定片段将变得非常简单。在今年的ACM信息检索特别兴趣小组会议上,本文作者及其同事提出了一种执行此类自然语言引导的视频时刻检索的新方法。
该方法摒弃了先前一些技术所采用的复杂迭代消息传递过程,从而减少了训练时间;在一项实验中,与先前的先进模型相比,在相同数据和硬件上,该模型的训练时间仅为其三分之一。同时,该模型的性能超越了之前的技术,在相关指标和数据集上实现了高达11%的相对改进。
该模型主要有两大创新点:
- 早期融合与交叉注意力: 一些先前的模型采用“后期融合”,即独立地将视频片段和查询文本嵌入到一个表征空间中,然后根据某种度量距离选择最接近查询的视频片段。本文采用了一种早期融合方法,其中查询和视频片段的嵌入是以交叉协调的方式确定的。此外,与某些使用迭代消息传递进行交叉协调的早期融合方法不同,该方法使用了一个更简单的交叉注意力机制。
- 多任务训练: 该模型同时训练两个任务。一个是识别视频序列的开始和结束点;另一个是将这两个点之间的每一帧进行二元分类,判断其是否属于目标序列。标注者之间的分歧,即训练数据中识别出的开始和结束时间的差异,会降低模型准确性;而针对片段内帧标注的连续性所进行的二元分类任务,则可以纠正训练数据中的这种不平衡。
交叉注意力机制
过去,自然语言视频时刻检索模型通常将查询文本和视频帧序列都表示为图。这些模型通过消息传递方案来确定文本中的单词与序列中帧之间的对应关系,在该方案中,文本图的每个节点向视频图的多个节点发送消息,反之亦然。模型基于多轮消息传递后产生的对应关系来优化其对查询和帧的嵌入。
相比之下,该模型首先对查询和候选视频片段进行编码,然后使用一个交叉交互的多头注意力机制,来确定查询编码的哪些特征与视频编码最相关,反之亦然。
基于这种交叉交互,模型输出一个融合了查询信息的视频嵌入,以及一个融合了视频信息的查询嵌入。这些嵌入被连接起来,形成一个单一的融合嵌入,然后传递给两个独立的分类器。一个分类器识别开始/结束点,另一个将视频帧分类为相关片段的一部分与否。
为了测试这种方法,本文使用了两个基准数据集,这两个数据集都包含一些已用描述性文本进行标注的视频帧。将该方法与五个先前的模型进行了比较,其中三个取得了当时最先进的结果。
使用交并比来评估模型的性能,交并比是正确标记的视频片段帧数与模型或数据集中标记为属于该片段的总帧数之比。正确的检索被定义为达到某个交并比阈值的检索。实验采用了三个阈值:0.3、0.5和0.7。
在六个实验(两个数据集和三个交并比阈值)中,该方法有五次优于所有先前的模型。在第六个案例中,一个先前模型略有优势。但在该模型表现最佳的那个实验中,那个先前模型的性能低了37%。FINISHED