这是我参与2022首次更文挑战的第15天,活动详情查看:2022首次更文挑战
这篇文章于 2017 年发表在 ACL 上,第一作者 Calixto 来自都柏林城市大学 ADAPT Centre,目前在阿姆斯特丹大学任助理教授(tenure-track)。
原文链接:Incorporating Global Visual Features into Attention-Based Neural Machine Translation
Preface
这篇文章的背景是 2017 年初,ACL-WMT 2016第一次将多模态机器翻译设置为共享任务后,多数工作并不能利用视觉特征提升翻译效果;另一方面,大名鼎鼎的 Transformer 也还没被提出,彼时的注意力机制依然是一个新兴的研究热点,正在被越来越多地应用到各个领域中,如图像描述生成、机器翻译等。
当时效果最好的模型是 Huang 等人提出的用 VGG19 和 RCNN 提取的全局/区域图像特征。
【论文笔记】Attention-based Multimodal Neural Machine Translation - 掘金 (juejin.cn)
作者 2017 年 1 月将本文上传至 arXiv,刷新了当时的 SOTA,而短短一个月后,作者又报道了改进后的模型,进一步提高了翻译效果。
【论文笔记】Doubly-Attentive Decoder:多模态注意力经典之作 - 掘金 (juejin.cn)
Motivation
作为一个新方向,作者的动机也很简单,就是想办法更好地利用视觉信息辅助机器翻译,使得翻译效果尽可能地好。过去的工作进行过很多尝试,但是效果都不是很理想,典型的有作者 2016 年的工作,以及 上文提到的 Huang 等人的工作。与此同时,注意力机制也开始在 IDG、NMT 等领域大放异彩,作者希望构建一个基于注意力机制的多模态机器翻译模型。
Method
作者用 VGG19 提取图像的视觉特征,设计了三种不同的方法让图像融入注意力 NMT:
- 图像特征作为单词:将图像特征作为双向 RNN 文本序列中的单词,投影图像作为源句子的第一个和/或最后一个单词。该方法有点类似于 Huang 等人的工作,只不过作者在序列首尾均添加了图像特征。作者的直觉是将图像特征作为第一个单词时,在前向 RNN 中将图像特征传播到源句子的表示中,同理,将图像特征作为第二个单词时,在后向 RNN 中将图像特征传播进源句表示中。
- 图像特征初始化编码器:用图像来初始化编码器的隐藏状态,原始的注意力 NMT 用零向量初始化编码器隐藏状态,作者用两个单层前馈网络来初始化,用两个投影矩阵将图像特征投影到隐藏状态的相同维度作为初始隐藏状态。
- 图像特征初始化解码器:用图像作为附加信息来初始化解码器隐藏状态,同上。
- 除此之外,作者还评估了第四种方法:在解码的每个时间步用图像作为不同的可用的上下文。
Experiment
英译德任务中,模型2和模型3在纯文本 NMT 和 PBSMT 两个baseline 上均有改进,这也是第一次有纯神经网络的模型在所有指标上都显著优于 PBSMT。德译英任务中,除了模型1的 BLEU 分数低于纯文本 NMT,所有多模态模型的表现都优于纯文本 baseline,但这些多模态模型之间的差异并不显著。
作者还设计了几种集成解码方法,将上文提到的3个模型集成在一个系统中。这些模型都是单独训练的,从表现最好的模型(模型3)开始,一步一步将表现没那么好的模型加进去。结果显示即便加入了效果相对更差的模型,集成解码的性能依然会不断提升,添加最大四个模型时性能达到最好。
我也不知道是怎么集成的,作者在文中没有详细描述具体的实验细节。
Error Analysis
作者还针对具体的例子进行了分析,用两个例子展示了这些这些模型的翻译效果,但是作者也没有给出令人信服的解释,甚至现象描述得也让我看得一脸迷惑,我就不再赘述了。
Summary
作者设计了三种新的基于注意力的多模态机器翻译模型,其中两种模型创新性地将图像特征作为编码器或解码器的初始状态,这些模型取得了 SOTA 结果。特别是将这些模型集成在一起的时候,效果会进一步提升。
作者还发现了多模态 NMT 模型可以受益于反向翻译的数据,这也是作者希望进一步研究的方向。