这是我参与2022首次更文挑战的第11天,活动详情查看:2022首次更文挑战
本文于2021年8月25日上传至 arXiv,已被 ACM MM 2021 接受为 Oral 论文,第一作者来自中国人民大学。
原文链接:Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training
Pre-training Tasks
本文设计了三个预训练任务:
多模态翻译语言建模(MTLM)
由翻译语言建模(TLM)和掩蔽语言建模(PMT)结合,随机选取两种语言中15%的单词标记进行预测,其中80%被替换为[MASK],10%被替换为另一个随机单词(含外来词),10%不变。然后用图像上下文信息、该语言周围单词和另一种语言的所有单词来预测。
不过,作者发现此与训练任务中视觉对翻译的辅助较弱,因此该与训练任务不能很好地利用视觉模态信息。所以作者又设计了其它的与训练任务。
图像-源句匹配(ISM)
这是 vision-and-language 预训练模型中常用的任务,用于学习视觉和文本模态间的语义对齐。作者通过预测图像与源句是否匹配。值得注意的是,为了避免 ISM 任务太简单,构建负样本时,从同类产品中抽取句子来进行替换,这样模型会更加关注产品细节而不是产品类别。
产品属性预测(ATTP)
在 FACAD 数据集上进行预训练。输入为源句和图像,屏蔽了源句中表示产品属性的词,强制模型依靠图像来预测属性。
Fine-tuning
使用图像和源句的上下文生成目标句,限制目标句的子注意力掩码,使双向预训练模型像单项生成器适应。实现类似于 MTLM , 随机选取目标语言中15%的单词标记进行预测,其中80%被替换为[MASK],10%被替换为另一个随机单词(含外来词),10%不变。
Experiments
预训练任务消融实验:
第 1 行没有经过预训练,直接进行微调任务;
第 2~4 行逐步增加预训练任务,可见模型性能不断提升;
第 5 行在预训练阶段加入了 Fashion-MMT(L) 数据集(机翻噪声),并在 Fashion-MMT(C) 上进行了微调,与 4 相比得到了显著提升。这说明机器生成的噪音数据也对模型表现有益。
编码器层数:
与 baseline 的对比:
作者选取了基于 Transformer 的最先进的纯 NMT 文本模型和多模态图(最先进的 MMT 模型,【论文笔记】基于图的多模态融合编码器:当 GNN 遇上多模态机器翻译 - 掘金 (juejin.cn)),实验结果如下,UPOC2 模型在两个数据集上都优于最先进的 MMT 模型。
在 Multi30k 数据集上的结果表明,UPOC2模型甚至在传统 MMT 任务上也都达到了最佳性能。
Lower-resource:
除此之外,作者还探究了仅用部分数据集进行微调对模型性能的影响,如下表:
可见,仅用15000个三元组对 UPOC2 进行微调,性能就已经与最先进的 MMT 模型使用全部 36000 个三元组微调的结果相当,说明本文的模型可以有效减轻对大量数据的依赖。
定性分析:
作者也选取了几个例子进行了定性分析,下图展示了本文模型与最先进的 NMT、MMT 模型以及 ground truth 的翻译结果,和翻译过程中源句和图像上的注意力可视化结果。
Summary
本文构建了一个大规模双语产品描述数据集,这是迄今最大的时尚领域的多模态机器翻译数据集,还设计了一个统一的预训练与微调框架 UPOC2,以及三个代理任务,能很好地进行源句与目标句的语义对齐、图像和文本之间的语义对齐,取得了取得了显著优于当下最先进的 NMT、MMT 的结果。此外,在消融实验和 Low-resource 的实验中,作者还分别证明了大规模噪声数据也对模型有益、模型能减少对大量人工标记数据的依赖。