MIST : Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering
论文地址 : arxiv.org/abs/2212.09…
github : github.com/showlab/mis…
简介
本文主要介绍了一种名为MIST(Multi-modal Iterative Spatial-Temporal Transformer)的新型模型,用于解决长视频问答(VideoQA)中的多事件推理和多粒度视觉概念交互等挑战。MIST将传统的密集自注意力分解成级联的段和区域选择模块,用于自适应选择与问题相关的帧和图像区域。此外,MIST还通过多层迭代执行选择和自注意力来支持多事件推理。实验结果表明,MIST在四个VideoQA数据集上均取得了最先进的性能,并且在效率方面表现卓越。
模型
MIST结构图
mist执行过程
1.利用预训练模型提取输入的特征
2.对于选定的特征集,迭代地执行自注意力机制,并执行多事件推理
3.基于视频、问题和答案特征得到最终答案
输入表示
视频
将视频分为K段,每一段有T帧,每一帧被划分为N个patches
具体怎么分块?每个块怎么分帧?patches一定要分9份吗?
除此之外,需要为每个帧加上位置信息,即位置编码,具体加的是什么位置编码呢?
问题(文本内容处理)
对于每个问题,将问题经过一个vision-language编码器,表示为
其中的w1是[CLS],其余的w都是问题中的单词
迭代时空注意力层
迭代地以问题为条件在长视频中选择片段和区域,然后对选中的区域执行多事件推理
三个步骤
段选择、区域选择、时空自注意力机制
段选择
特征都是池化得出的,考虑其他方法?论文中可以是MLP、first token pooling等
(帧特征)第k个段、第t个帧的特征表示(帧的特征是通过对所有patch进行池化得到的):
(段特征)第k个段的特征表示(由T个帧的特征经过池化后得到):
(问题特征)由每个单词的特征经过池化后得到
池化层可以根据不同的编码器进行选择,有mean pooling、first token pooling、simple MLP layer等
具体选择方法(选出k个与问题最相关的视频段)
由于是不同模态,Q和K需要做一个线性投射来统一?
最终的段采样的输出
具体选择方法(选出Topk个最相关的段)
论文使用的是Gumbel-Softmax
区域选择
选定与问题最相关的视频段之后,需要继续求出每一帧中与问题最相关的一些patches
最后将选中的区域中的帧中的patches特征全部堆叠起来
选出每个段中每一帧中与问题相关的Topj个patches
具体方法,也是用问题作为Q,去和帧特征执行一个交叉注意力:
最后选出与问题最相关的Topj个patches
时空自注意力机制
每一层的ISTA的输出是一个多头注意力层的输出,其中的QKV如下
S:视频段特征
Xst:经过段选择+区域选择选出来的堆叠起来的patches特征
Xw:问题对应的特征向量
每一层的输出都会用于答案预测
答案预测
候选答案Xa是由预训练模型获取到的
最终对每个ISTA的输出做一个pool,得到Xo,再将Xo与所有的候选答案XA计算相似度,最终相似度最大的即为最终答案
实验
一些细节
图像-语言预训练模型:CLIP(ViT-B/32)
视频-语言预训练模型:AIO(Allin-One-Base)
ISTA的层数为L=2
对于所有的视频,每个视频采样12帧,并将其分为K=8段
在各个数据集中的表现
与其他方法的对比
1.在需要多粒度视觉概念推理的问题上,我们的模型要表现得更好(效果提升较大)
2.在需要因果推理或多事件推理的任务上,我们模型表现得也更好
从上述结论表明,该方法可以更加有效地解决长视频QA的独特挑战
收获
该方法在帧抽取方面并未详细说明,对于不同的问题or视频,采取相同的帧抽取方式可能是不合理的,根据不同的视频可以设置一个可学习的帧抽取方法以保证抽取的帧更具有代表性