【论文笔记】在Transformer架构中融合多输入，怎么做效果比较好？（下）【实验部分】作者针对 Transforme

这是我参与2022首次更文挑战的第38天，活动详情查看：2022首次更文挑战

上期内容：【论文笔记】在Transformer架构中融合多输入，怎么做效果比较好？（上） - 掘金 (juejin.cn)

本文于 2018 年 11 月上传至 arXiv ，作者来自查尔斯大学。
原文链接：Input Combination Strategies for Multi-Source Transformer Decoder

Experiments

作者在多模态翻译和多源翻译两个任务上进行了实验。

图片的视觉特征是 ResNet 最后一个卷积层，通过一个矩阵投影到 512 维，在 EN→FR 翻译中，MMT 的性能显著优于纯文本 baseline，但是其他两种目标语言的翻译中 MMT 和 NMT 差不多。这跟 RNN 架构的 MMT 相关工作的结果相似。

不过，对于 flat 策略，MMT 的效果比纯文本更差，作者假设是因为模型在学习的时候不能找到两种模态的共同表征。

adv.BLEU 分数是作者做的对抗性实验，就是随机找一张图片作为源句对应的图片，MMT 的性能均有所下降，说明图像输入的重要性；而 hierarchical 策略下降得最少，说明对图像输入的噪音具有更好的鲁棒性。

作者又进行了多语言翻译。

serial 是得分最高的策略。

作者通过可视化，探究了四种策略对各种语言的注意程度，发现 serial 策略和 hierarchical 策略能比较好地利用所有源语言的信息，而 parallel 几乎不用西班牙语，flat 更偏好英语。

下面这个例子是 serial 策略的注意力分布，可见四种源语言获得了比较均等的注意。

多语言翻译的对抗性实验是随机将四种语言中的一种替换成另一个随即句子。对抗性实验结果中，替换英语后模型的表现下滑最严重，说明英语是四种策略在多语言翻译中依赖的首选语言。

作者提出了几种在 Transformer 架构中进行多输入融合的策略，并在多模态机器翻译和多语言机器翻译两个任务上进行了实验，得到了一些有价值的结论。