这是我参与2022首次更文挑战的第29天,活动详情查看:2022首次更文挑战
本文发表于 ACL 2020,作者来自北京大学。
原文链接:Multimodal Transformer for Multimodal Machine Translation
Motivation
多模态机器翻译(MMT)领域的绝大多数工作都没有考虑语言与视觉模态的相对重要性,在 MMT 中平等对待两种模态将导致对很多不相关的信息进行编码,但实际上肯定是语言相对而言更重要。为了解决上述问题,作者提出了一种多模态自注意力,在文本的基础上学习图像表征,避免学习图像中的冗余信息。
Methods
作者从多模态融合、自注意力和解码三个方面介绍了本文的方法。
Incorporating Method
在 Transformer 中,每一个词的表示都是在自注意力过程中由所有词共同产生。因此,如果我们把每一个词看成一个结点,那么 Transformer 就可以看成是 GNN 的一个变体,每一句话都是一个全相连的图。(我不是很清楚作者这样类比有什么意义,好像跟本文的思路关系不大,而且作者后面也没有再提到图了。不过倒是有在多模态机器翻译中用图结构的工作:【论文笔记】基于图的多模态融合编码器:当 GNN 遇上多模态机器翻译 - 掘金 (juejin.cn),在本文发表后不久上传至 arXiv 。)
对于视觉模态,作者提取图像的区域特征,作为伪词,与源句拼接在一起喂入多模态自注意力层。
Multimodal Self-attention
作者设计了一种特殊的多模态自注意力,将文本与视觉嵌入拼接在一起用来产生 Q 矩阵,然后用文本嵌入来产生 K 和 V 矩阵,在文本的指导下调整注意力,发掘视觉模态信息,最终得到多模态上下文表示。如图所示。
Experiments
Results
作者选取了几个纯文本机器翻译、过去的多模态机器翻译的模型作为 baseline,并在有额外数据(back-translated data)的情况下又进行了测试。在 Multi30k 数据集上的测试结果对比如下:
本文提出的模型的性能超越了现有的 SoTA,尤其是与纯文本 baseline 的对比表明模型的确从图像信息中受益。
此外,有额外数据时,虽然所有模型的表现都有所提升,但本文的模型提升最大。这说明模型在更大数据集上将表现更好。
作者在测试集中选取了一些例子单独分析,图片是不同注意力头的注意力分布,可见在文本的指导下,模型更关注图像中与翻译内容有关的区域,即人和建筑物。
Ablation Study
作者探究了模型的多模态自注意力和图像输入对模型表现的影响。
首先用普通的自注意力替换本文设计的多模态自注意力,即同等对待视觉与文本模态,效果出现了明显的下降;然后作者又尝试将图像输入替换成空图像,模型性能进一步下降;将输入替换成其它随机图像时,不匹配的图文导致模型的表现甚至还不如纯文本 baseline。
Summary
作者的核心思想是在多模态机器翻译中,图像和文本两个模态的信息不是同等重要的,作者用一种特殊的多模态自注意力来编码图文信息,自注意力中的 K、V 来自文本,而 Q 来自文本和图像,换言之,用文本来指导图像中的自注意力,以减少无效视觉信息的引入。该工作达到了 SoTA 。