【论文笔记】UPOC2：跨模态跨语言，时尚领域的模型预训练（下）本文于2021年8月25日上传至 arXiv，已被 AC

这是我参与2022首次更文挑战的第11天，活动详情查看：2022首次更文挑战

本文于2021年8月25日上传至 arXiv，已被 ACM MM 2021 接受为 Oral 论文，第一作者来自中国人民大学。
原文链接：Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training

【论文笔记】UPOC2：跨模态跨语言，时尚领域的模型预训练（上） - 掘金 (juejin.cn)

Pre-training Tasks

本文设计了三个预训练任务：

多模态翻译语言建模（MTLM）

由翻译语言建模（TLM）和掩蔽语言建模（PMT）结合，随机选取两种语言中15%的单词标记进行预测，其中80%被替换为[MASK]，10%被替换为另一个随机单词（含外来词），10%不变。然后用图像上下文信息、该语言周围单词和另一种语言的所有单词来预测。

不过，作者发现此与训练任务中视觉对翻译的辅助较弱，因此该与训练任务不能很好地利用视觉模态信息。所以作者又设计了其它的与训练任务。

图像-源句匹配（ISM）

这是 vision-and-language 预训练模型中常用的任务，用于学习视觉和文本模态间的语义对齐。作者通过预测图像与源句是否匹配。值得注意的是，为了避免 ISM 任务太简单，构建负样本时，从同类产品中抽取句子来进行替换，这样模型会更加关注产品细节而不是产品类别。

产品属性预测（ATTP）

在 FACAD 数据集上进行预训练。输入为源句和图像，屏蔽了源句中表示产品属性的词，强制模型依靠图像来预测属性。

Fine-tuning

使用图像和源句的上下文生成目标句，限制目标句的子注意力掩码，使双向预训练模型像单项生成器适应。实现类似于 MTLM ，随机选取目标语言中15%的单词标记进行预测，其中80%被替换为[MASK]，10%被替换为另一个随机单词（含外来词），10%不变。

Experiments

预训练任务消融实验：

第 1 行没有经过预训练，直接进行微调任务；

第 2~4 行逐步增加预训练任务，可见模型性能不断提升；

第 5 行在预训练阶段加入了 Fashion-MMT(L) 数据集（机翻噪声），并在 Fashion-MMT(C) 上进行了微调，与 4 相比得到了显著提升。这说明机器生成的噪音数据也对模型表现有益。

编码器层数：

与 baseline 的对比：

作者选取了基于 Transformer 的最先进的纯 NMT 文本模型和多模态图（最先进的 MMT 模型，【论文笔记】基于图的多模态融合编码器：当 GNN 遇上多模态机器翻译 - 掘金 (juejin.cn)），实验结果如下，UPOC2 模型在两个数据集上都优于最先进的 MMT 模型。

在 Multi30k 数据集上的结果表明，UPOC2模型甚至在传统 MMT 任务上也都达到了最佳性能。

Lower-resource：

除此之外，作者还探究了仅用部分数据集进行微调对模型性能的影响，如下表：

可见，仅用15000个三元组对 UPOC2 进行微调，性能就已经与最先进的 MMT 模型使用全部 36000 个三元组微调的结果相当，说明本文的模型可以有效减轻对大量数据的依赖。

定性分析：

作者也选取了几个例子进行了定性分析，下图展示了本文模型与最先进的 NMT、MMT 模型以及 ground truth 的翻译结果，和翻译过程中源句和图像上的注意力可视化结果。

Summary

本文构建了一个大规模双语产品描述数据集，这是迄今最大的时尚领域的多模态机器翻译数据集，还设计了一个统一的预训练与微调框架 UPOC2，以及三个代理任务，能很好地进行源句与目标句的语义对齐、图像和文本之间的语义对齐，取得了取得了显著优于当下最先进的 NMT、MMT 的结果。此外，在消融实验和 Low-resource 的实验中，作者还分别证明了大规模噪声数据也对模型有益、模型能减少对大量人工标记数据的依赖。