这是我参与2022首次更文挑战的第32天,活动详情查看:2022首次更文挑战
本文发表于 ICLR 2020 ,第一作者来自上海交通大学赵海老师课题组。
Neural Machine Translation with Universal Visual Representation
Motivation
过去的多模态机器翻译依赖专门的数据集,包含图像和双语平行句对,如 Multi30K ,而且单张图片往往不能提供足够的视觉信息。作者提出了一种仅依靠图像-单语注释的通用视觉表示方法以解决上述问题。
Method
作者先从源句中提取关键词,针对关键词构建一个 topic-image 查询表,每个关键词都有几张对应的图像。在翻译的过程中,用源句中的关键词查表,把查询结果(多张图片)进行筛选排序,得到跟源句相关的图像。然后用 ResNet 提取这些图像的特征送入编码器(的最后一层),用于多模态机器翻译。
Implementation
Lookup Table
作者为源句中出现的词设计了一种评分机制,由词频等属性来计算。筛掉停顿词等之后,作者计算每个词的得分并排序,选取前 w 个词,与本句对应的图像所绑定,每个词都被认定为该图像的标签词。相应的,处理完整个数据集之后,每个词也会成为多个图像的标签词。这样,整个数据集的 topic-image 查询表就构建好了。
Image Retrieval
对于一个输入的源句,先用同样的方法提取关键词,然后用这些词去查表,每个词都会得到多张图片,这里面有重复的图片,根据图片出现的频率,保留最高频的 m 张图。
因为这些图是从查询表里得到的,所以测试的时候甚至不需要测试数据中源句的对应图片。
Model
模型结构如图:
编码器的前 L 层与标准 Transformer 机器翻译模型无异,在最后一层加了一个 Aggregation 层,引入了视觉表征。
Experiments
Results
作者用纯文本 Transformer 模型作为 baseline,
相比于纯文本 baseline,仅额外引入了 1.5M (base) 和 4M (large) 参数,但效果取得了显著提升。
作者同样选取了几个基于 Multi30K 数据集的 MMT baseline ,其中 Calixto et al. (2017) 这篇工作之前介绍过(【论文笔记】Doubly-Attentive Decoder:多模态注意力经典之作 - 掘金 (juejin.cn))。
本文的模型也取得了最好的结果,不过跟其他几个模型一样,对纯文本 baseline 的提升有限。作者分析是因为 Multi30K 中的源句本来就很简单,不需要视觉信息也能翻译得很好。
Ablation Study
作者做了几个消融实验:
Lookup Table :作者认为 topic-image 查询表的作用可能不仅仅在于图像携带的视觉信息,从文本词到索引的映射也至关重要,即类似图像和句子的主题意识共现。也就是说,相似的句子(有相同的主题词)倾向于映射相同或相似的图像。为了验证作者的猜想,作者直接在图像的视觉信息中引入噪音,做了三个对照试验,分别是将所有图片的图像特征打乱、随机初始化图像特征、随机检索无关图像,对照试验的 BLEU 得分分别为 33.53、33.28、32.14。前两个跟模型本来的表现 33.78 没差太多,这说明图片内容并不重要;而随机检索无关图像时,性能下降,这进一步证明了文本词和图片索引的映射才是最重要的。(有一说一,这个消融实验有点惊艳到我了……)
Number of Images :作者把每句话对应的检索结果的图片数 m 分别设置成 {0, 1, 3, 5, 7, 9, 15, 20, 30} ,结果如下图(左)所示。
Gating weight :原本的模型中,门控权重是自动学习的,用来决定视觉信息的重要性。作者手动将其设置为 {0.1, 0.3, 0.5, 0.7, 0.9} ,结果如上图(右),虽然不及原本的模型,但都优于纯文本 baseline (权重为 0 ),说明了视觉信息的有效性。
Summary
作者提出了一种多模态翻译方法,利用整个数据集中的源句关键词和图像构建一个查询表,在翻译的时候查表获取更丰富的视觉信息(以及 topic-aware co-occurrence 带来的增益),提升了翻译效果。而且,这种方法也减轻了模型对大规模双语-图片数据集的依赖,甚至能在只有文本的数据集上使用。