这是我参与2022首次更文挑战的第14天,活动详情查看:2022首次更文挑战
这篇文章于 2017 年发表在 ACL 上,是多模态机器翻译的经典作品,第一作者 Calixto 来自都柏林城市大学 ADAPT Centre,目前在阿姆斯特丹大学任助理教授(tenure-track)。
原文链接:Doubly-Attentive Decoder for Multi-modal Neural Machine Translation
Motivation
过去的文献中,利用空间视觉特征的 MMT 模型并没有比使用全局视觉特征甚至纯 NMT 模型有显著改善,如作者在 2016 年发表的工作(比全局视觉特征辅助的机器翻译提升了 2.3 Meteor,比纯文本机器翻译提升了 2.9 Meteor),以及 Huang 等人发表于 WMT 2016 的文章(【论文笔记】Attention-based Multimodal Neural Machine Translation - 掘金)。近年来,注意力机制被应用到机器翻译和图像描述生成领域,受此启发,作者希望将注意力应用到多模态机器翻译中。
Method
相比于过去的工作使用源语言单词的注意力机制,如 Huang 等人将全局或局部视觉特征映射进文本空间与输入文本拼接在一起作为输入,本文使用了一个额外的视觉注意力机制来结合空间视觉特征。
Model
模型整体结构如下:
作者使用 ResNet-50 来提取图片的空间特征,这些空间特征是 res4f 层的激活,把图片编码成 14x14 的网格,每个网格是 1024D 的特征。
双注意力解码器 RNN 利用两个独立的注意力机制,将条件 GRU 扩展为双条件 GRU,以文本输入和图像输入为条件。
Experiment
作者选取了几个模型作为 baseline:
- phrase-based SMT。作者用 Moses 构建了 PBSMT 的 baseline。
- 纯文本 NMT。
- Huang 等(MMT)。对于 Huang 等人提出的多模态机器翻译模型,作者使用了两个版本的,一个是使用全局视觉特征的 MMT,另一个是额外增加 RCNN 的 MMT。
作者发现 NMT 与 PBSMT 分别在面向精度(BLEU4)和面向召回(METEOR、chrF3 等)的指标中存在优势,说明这些模型是互补的,NMT的注意力机制没有明确考虑到以前时间步长的注意力权重,因此缺乏SMT中的来源覆盖概念。而本文提出的模型在两个指标上都表现出性能增益,尤其是在面向召回的指标中。
作者也用纯文本数据集对模型进行了预训练,发现模型也能从纯文本的通用领域数据集中学习。
Summary
作者设计了一种新的基于注意力的 MMT 模型,取得了 SOTA 结果。