【论文笔记】VMT+HAN：视频多模态机器翻译的小创新本文是 ACL 2021 的一篇 Workshop 论文，作者来自

这是我参与2022首次更文挑战的第31天，活动详情查看：2022首次更文挑战

本文是 ACL 2021 的一篇 Workshop 论文，作者来自京都大学。
Video-guided Machine Translation with Spatial Hierarchical Attention Network

Motivation

过去的工作大多集中在图像多模态机器翻译，视频能提供更多的视觉信息，视频帧作为图像能为翻译进行名词消歧，有序的帧序列能进行动词消歧。之前的视频 MMT 相关的工作比较少，要么只提取了动作表示忽略了名词消歧，要么处理方法过于简单，效果不够好。作者希望能使用帧内的详细空间信息和帧间的上下文信息，更好地解决翻译中的歧义问题。

Model

Overview

作者在前人工作的基础上，用了一种层次注意力网络（hierarchical attention network, HAN），模型整体架构如下：

Text Encoder ：用 Bi-GRU 将词嵌入转换为文本特征，然后对该文本特征和上一个时间步的解码器的隐藏状态计算 attention 。

Motion Encoder ：VATEX 数据集已经用 I3D 完成了动作检测，得到的动作特征由 Bi-GRU 转换成动作表征，再根据动作特征的顺序给定位置编码，之后与上一个时间步的解码器的隐藏状态做 attention 。

Spatial HAN

相比于标准 HAN，为了获得更好的上下文空间信息，作者在原始 HAN 中的 object-to-frame 和 frame-to-video 之间增加了几种中间层。结构如下：

Object-level (Ro) ：Object-level 层包含 R-CNN 提取的各帧中所有的物体的特征，然后对这些特征和解码器隐藏状态计算 attention 得到 frame-level 的特征，构成 frame-level 层；

Frame-level (Rf) ：同上，对 Frame-level 层与解码器隐藏状态计算注意力，得到视频级的特征。

Target Decoder

解码器有文本特征、运动特征和视频的上下文空间特征三种输入，通过对解码器的上一个隐藏状态和三种输入的拼接计算 attention，得到最终的上下文向量，用于 GRU 预测生成词并更新隐藏状态。

Experiment

作者选取了最早期的视频 MMT 工作（与 VATEX 数据集同期）和本文所参考的基线模型 VMT 作为 baseline，在 VATEX 数据集上的 BLEU 得分如下，相比于 baseline 略有提升。

同时，作者还进行了消融实验，探究了解码器的三种输入对翻译效果的影响。仅有文本和视频上下文空间特征的模型效果是最好的。包含 motion 特征的模型反而表现得不好，作者认为可能是视频的动作与空间和文本特征没有严格对齐，进而对翻译产生误导，与此同时，翻译中名词远多于动词，因此空间特征的作用要更大一些。

对于 HAN 中额外添加的中间层，作者也进行了消融实验：

作者发现不加中间层反而效果更好。作者认为原因可能是 object-level 已经提供了上下文信息，中间层是可有可无的。

Summary

作者对视频多模态机器翻译的基线模型 VMT 进行了改进，加入了一种调整过的层次注意力网络（HAN），相比于之前的工作，能更好地利用视觉信息帮助模型对名词的翻译进行消歧。