【论文笔记】Attention-based Multimodal Neural Machine Translation

这是我参与2022首次更文挑战的第12天，活动详情查看：2022首次更文挑战

这篇文章是 WMT 2016 的一篇 Shared Task Papers，第一作者 Po-Yao Huang 来自 CMU，目前任职于著名的 FAIR 实验室。
WMT 2016-2018 连续三年将多模态机器翻译作为 Shared Task，这篇文章就是 MMT 相关的早期作品之一。
原文链接：Attention-based Multimodal Neural Machine Translation

Motivation

过去的神经机器翻译只关注文本之间的转换。正如人类理解语言时会参考视觉信息，来自图像的额外信息可以帮助解决翻译中的歧义问题。比如 bank 一词可能翻译成银行也可能翻译成河岸，如果图像中有一条河，那么它就能帮助模型进行语义的消歧。

Method

提取图像的全局视觉特征，以及用 R-CNN 检测物体进而得到区域特征，再将视觉特征映射到文本空间，通过不同的方法与文本序列拼接在一起，将多模态信息集成到基于 attention 的编码器-解码器架构中。

Model

作者根据全局视觉特征和区域视觉特征，设计了三种模型进行探索。

1. LSTM with global visual feature

在 encoding 阶段将视觉特征附加到原始文本序列的头部或尾部。考虑到图像嵌入和文本嵌入维度不匹配且内容存在差异，作者用一个变换矩阵 $W_{img}$ 来学习两种模态嵌入之间的映射关系。

2. LSTM with mutiple regional visual features

在第二个模型中，除了添加一个全局视觉特征外，作者额外添加了多个（top 4）区域特征。作者用 R-CNN 中的 region-proposal network 来识别图像中的对象，然后从这些对象中提取视觉特征。值得注意的是，作者将这些视觉特征按照边界框的大小进行升序排列（他们还尝试了别的排序方法，如降序、随机、分类顺序，但升序效果最好），放在全局视觉特征之前。这样做是为了让重要的特征更接近编码表示。

3. Parallel LSTM threads

区分与模型2预定义区域视觉特征的顺序，作者又提出了一种多个编码线程组成的编码器，每一个编码线程都是由图片特征和文本序列组成，如图：

多个编码线程间共享 LSTM 的参数，记录所有可能的隐藏状态以便进行 attention，编码阶段结束时，不同编码线程的输出融合得到一个最终嵌入。在解码阶段中，全局 attention 的候选都来自多线程上的文本隐藏状态。

Re-scoring of Translation Candidates

传统的 NMT 中，最简单的解码方式是一步一步获取概率最高的单词作为输出。作者也探究了 3 种翻译候选的评分机制：

1. Language model

利用大规模语言模型来判断句子的可读性，通过下一词在预测中的得分来给翻译句评分。作者认为检查句子是否可读是评估翻译质量的最简单方法。

2. Bilingual autoencoder

将双语信息投射到联合空间，如果联合空间的相似程度高，则可能表明源句和翻译句在概念上相似，翻译质量会更好。

3. Bilingual dictionary

使用双语词典统计一种语言中的单词是否也出现在另一种语言中，根据源语言中的同义词在翻译结果中出现的数量来排序评分。

Experiment

Model

3 种模型的表现：

Text baseline 是基于纯文本的全局注意力 NMT 的表现。

从结果中可以看出全局视觉特征确实对翻译质量有所改善，但是结果并不理想，作者用“ lukewarm（不温不火）”来形容这个提升；而这个“不温不火的提升”也恰恰成了后续不少作者讲故事的素材，用于跟他们的模型做对比。

模型2和3的改进程度尚可，说明大多数句子所描述的都是可由 RCNN 识别的重要对象，而这些区域视觉特征也进一步帮助解码器进行更准确地翻译。

Re-Scoring

Bilingual dictionary 方法得到了最高的 METEOR 分数，但原始模型的 BLEU score 最高。

Language model 方法没有实现改进（果然不出我所料）。在翻译任务中可读性和与源句子的相关性没什么关系。

Bilingual autoencoder 也导致了性能的下降，作者分析可能是因为语料库的质量和数量不够，不足以学习一个好的 autoencoder，此外，作者观察到了过拟合现象。

Bilingual dictionary 可以在 METEOR 上实现更多的改进，因为字幕翻译的质量取决于我们在多大程度上正确翻译了对象及其修饰语。

Summary

作者将视觉特征加入到 Seq2Seq 网络，探索了 3 种 encoder 结构，分别是 global visual、regional visual 和 parallel threads，又探究了 3 种 rescore 翻译候选的方法，分别是 Language model、Bilingual autoencoder 和 Bilingual dictionary。模型的创新带来了差强人意的性能提升，而 rescore 的尝试尽管不那么成功，但也带来了一些有参考价值的结论。