【论文笔记】VMT+HAN:视频多模态机器翻译的小创新

266 阅读3分钟

这是我参与2022首次更文挑战的第31天,活动详情查看:2022首次更文挑战

本文是 ACL 2021 的一篇 Workshop 论文,作者来自京都大学。
Video-guided Machine Translation with Spatial Hierarchical Attention Network

Motivation

过去的工作大多集中在图像多模态机器翻译,视频能提供更多的视觉信息,视频帧作为图像能为翻译进行名词消歧,有序的帧序列能进行动词消歧。之前的视频 MMT 相关的工作比较少,要么只提取了动作表示忽略了名词消歧,要么处理方法过于简单,效果不够好。作者希望能使用帧内的详细空间信息和帧间的上下文信息,更好地解决翻译中的歧义问题。

Model

Overview

作者在前人工作的基础上,用了一种层次注意力网络(hierarchical attention network, HAN),模型整体架构如下:

image.png

Text Encoder :用 Bi-GRU 将词嵌入转换为文本特征,然后对该文本特征和上一个时间步的解码器的隐藏状态计算 attention 。

Motion Encoder :VATEX 数据集已经用 I3D 完成了动作检测,得到的动作特征由 Bi-GRU 转换成动作表征,再根据动作特征的顺序给定位置编码,之后与上一个时间步的解码器的隐藏状态做 attention 。

Spatial HAN

相比于标准 HAN,为了获得更好的上下文空间信息,作者在原始 HAN 中的 object-to-frame 和 frame-to-video 之间增加了几种中间层。结构如下:

image.png

Object-level (Ro) :Object-level 层包含 R-CNN 提取的各帧中所有的物体的特征,然后对这些特征和解码器隐藏状态计算 attention 得到 frame-level 的特征,构成 frame-level 层;

Frame-level (Rf) :同上,对 Frame-level 层与解码器隐藏状态计算注意力,得到视频级的特征。

Target Decoder

解码器有文本特征、运动特征和视频的上下文空间特征三种输入,通过对解码器的上一个隐藏状态和三种输入的拼接计算 attention,得到最终的上下文向量,用于 GRU 预测生成词并更新隐藏状态。

Experiment

作者选取了最早期的视频 MMT 工作(与 VATEX 数据集同期)和本文所参考的基线模型 VMT 作为 baseline,在 VATEX 数据集上的 BLEU 得分如下,相比于 baseline 略有提升。

image.png

同时,作者还进行了消融实验,探究了解码器的三种输入对翻译效果的影响。仅有文本和视频上下文空间特征的模型效果是最好的。包含 motion 特征的模型反而表现得不好,作者认为可能是视频的动作与空间和文本特征没有严格对齐,进而对翻译产生误导,与此同时,翻译中名词远多于动词,因此空间特征的作用要更大一些。

对于 HAN 中额外添加的中间层,作者也进行了消融实验:

image.png

作者发现不加中间层反而效果更好。作者认为原因可能是 object-level 已经提供了上下文信息,中间层是可有可无的。

Summary

作者对视频多模态机器翻译的基线模型 VMT 进行了改进,加入了一种调整过的层次注意力网络(HAN),相比于之前的工作,能更好地利用视觉信息帮助模型对名词的翻译进行消歧。