这是我参与2022首次更文挑战的第33天,活动详情查看:2022首次更文挑战
本文收录于 ACL 2019 ,第一作者 Julia Ive 来自谢菲尔德大学。
原文链接:Distilling Translations with Visual Awareness
Motivation
过去的多模态机器翻译聚焦用图像信息在特殊情况下帮助模型更好地翻译(比如多义词的消歧),作者认为 MMT 还可以有更好的实现方案,同时利用文本上下文和视觉信息来优化翻译结果。
Method
作者提出了一种两阶段的翻译方法:先翻译、再优化:先直接生成一个初版翻译结果,然后用目标语言上下文和视觉信息来优化翻译结果。
Related Works
作者首先介绍了二十多种已有的多模态机器翻译工作,每个工作用一句话概括(这段比较推荐一读,用来做 survey),然后介绍了过去的几种 translation refinement 的方法:
- 基于迭代优化的方法:
- Hardmeier et al., 2012 :通过 hill-climbing 来探索整个文档的上下文,进行句子层面的局部改进;
- Novak et al., 2016 :针对翻译草稿,利用注意力机制预测离散的替换;
- Lee et al., 2018 :用了一种非自回归的方法,重点在于加快解码速度;
- 单独学习一个模型来优化(需要额外训练数据,即翻译草稿和正确翻译的句对):
- Niehues et al., 2016;
- Junczys-Dowmunt and Grundkiewicz, 2017;
- Chatterjee et al., 2018
Model
模型有两层解码结构,第一通道解码器及之前的 encoder 是基于标准 transformer 架构的,用于产生翻译草稿;第二通道解码器用了一种 deliberation network (加在标准端到端架构上用于增加一个额外解码器用的)。
deliberation network 参考文献:
Achieving Human Parity on Automatic Chinese to English News Translation
Deliberation Networks: Sequence Generation Beyond One-Pass Decoding
这个编码器除了要利用编码器的隐藏状态,还会利用第一通道编码器的输出(利用束搜索从候选结果中选择)和图像输入。图示如下:
作者认为图像只在少数情况下需要,因此仅仅在第二通道解码器中加入视觉信息。用一个可学习的矩阵将视觉特征投影成向量与编码器的输出相拼接。
其中,作者设计了三种视觉输入策略:
- att :CNN 提取的空间视觉特征,其中,空间视觉特征来自 ResNet-50 最后一个卷积层;
- sum :使用开放图像数据集现成的目标检测算法进行物体检测,每个物体用一个 545 维的向量来表示;
- obj :同样进行物体检测,用预先训练好的50维词向量来表示每个物体类别。
下期内容:【论文笔记】Distilling Translations with Visual Awareness:先翻译、再完善(下) - 掘金 (juejin.cn)