【论文笔记】多模态翻译效果也就那样,视觉信息到底有没有用?(上)

632 阅读2分钟

这是我参与2022首次更文挑战的第35天,活动详情查看:2022首次更文挑战

本文是 NAACL-HLT 2019 的最佳短文,作者来自勒芒大学和帝国理工学院。
原文链接:Probing the Need for Visual Context in Multimodal Machine Translation

Background

作为 WMT16 的共享任务,MMT 已经得到了很多工作的关注,常见的可以分为三类:

  • 使用卷积特征的多模态注意力;
  • 使用全局特征的跨模态交互;
  • 使用基于目标检测网络的区域特征。

然而很多研究者发现视觉特征的贡献并不明显,比如 Gr¨onroos 等人认为他们工作中的多模态增益不大,最大的改进应该来自于外部平行文本库;Lala 等人发现他们的多模态语感消歧方法跟单模态没有太大区别;Elliott 用不相关的图像特征进行 MMT ,效果也不赖。WMT18 的组织者总结认为迄今为止的 MMT 方案只能带来有限增益。

Motivation

有观点认为视觉模态的有限作用是因为图像特征的质量或者整合图像的方式不够好。作者认为不然,之所以效果有限,是因为 Multi30K 数据集中的源文本本来就很简单,纯文本也能翻译好。作者本文希望探索视觉信息在 MMT 中的贡献,反驳上述观点。

Method

作者用了两种方法来验证猜想:

  1. 引入了几种退化机制来处理源句,对 MMT 的表现进行重新评估;
  2. 用不相关的图像来进一步探究模型对视觉信息的灵敏度。

Model

对于纯文本 baseline ,作者用的是 Bahdanau 等人 2014 年提出的注意力模型;

对于 MMT 模型,作者选取了 DIRECT 和 HIER。前者基于多模态注意力,将文本与视觉上下文拼接之后进行线性投影;后者是对前者的一种分层扩展,用一个额外的注意力层来代替拼接。此外,作者还测试了 INIT ,用视觉特征同时对编码器和解码器进行初始化。

【论文笔记】INIT:用图像特征初始化编/解码器,多模态机器翻译新思路 - 掘金 (juejin.cn)
另一篇(HIER)之后可能也会介绍,到时候来补一下链接 ~


那么结果怎么样呢?下期见分晓 (●'◡'●)~

下期内容:【论文笔记】多模态翻译效果也就那样,视觉信息到底有没有用?(下) - 掘金 (juejin.cn)