【论文泛读】Adaptive Fusion Techniques for Multimodal Data

198 阅读5分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

论文题目:Adaptive Fusion Techniques for Multimodal Data
时间:2019
来源:arXiv
论文链接:点击跳转
论文代码:点击跳转

目录


多模态数据的自适应融合技术

摘要

研究目的

由于多模态数据的异构性质,有效融合来自多种模态的数据(例如视频、语音和文本)具有挑战性。

解决方法

  在本文中,我们提出了自适应融合技术,旨在有效地对来自不同模态的上下文进行建模。我们没有为网络定义确定性的融合操作,例如串联,而是让网络决定“如何”更有效地组合一组给定的多模态特征。
我们提出了两个网络:

  1. AutoFusion,它学习压缩来自不同模态的信息,同时保留上下文
  2. GAN-Fusion,它从补充模态中对给定上下文的学习潜在空间进行正则化。

实验结果

  对多模态机器翻译和情感识别任务的定量评估表明,与现有方法相比,我们的轻量级自适应网络可以更好地对来自其他模态的上下文进行建模,其中许多方法采用基于大量转换器的网络。

介绍

  多模态深度学习是一个活跃的研究领域,对于单个事件,一个人拥有跨多种模态的信息,例如视频、语音和文本。人类的大脑可以轻松且永久地从这些异构数据中感知事件的上下文;然而,对于计算机系统来说,这不是一项微不足道的任务。为了让机器获得上下文理解,必须首先组合异构输入。因此,组合,或更准确地说,融合多模态输入是任何多模态任务的关键步骤。自然,更好的融合方法将帮助多模态系统更好地学习,最终提高其在给定任务上的性能。

  文献中最常用的融合技术涉及来自所有可用模态的表示的串联。然而,这会导致一个浅层网络(Ngiam 等人,2011),并且该网络更侧重于学习模态内特征,完全忽略模态间动态。后来,Zadeh 等人。 (2017) 提出了张量融合网络 (TFN),它使用 3 倍笛卡尔积对单峰、双峰和三峰相互作用进行建模。 TFN 的性能优于简单的串联;然而,它强加了高计算要求,因为它将所有信息从输入模态投影到密集的 3-D 空间,而无需任何先验信息提取。计算开销相对于单峰特征的维度呈指数增长。刘等人。 (2018) 提出了一种低秩多模态融合技术 (LMF) 来解决之前的问题。这种融合技术很有用,但通常会导致架构复杂。此外,上述融合方法仅关注组合单个单峰特征,而不是同时组合和提取有用信息。这意味着最终的预测器模块(例如 Seq2Seq 网络中的解码器(Sutskever et al., 2014))承担着识别有用信号的额外责任,以关注。

  本文通过提出自适应融合技术来解决这些问题,该技术允许模型决定“如何”更有效地为事件组合多模态数据。第一种技术 AutoFusion 学习压缩多模态信息,同时尽可能多地保留意义。第二种技术,GAN-Fusion,采用对抗性网络,根据互补模态提供的信息,对给定目标模态的学习潜在空间进行正则化。

  由于我们的模型是通用的,需要指定一个预先确定的融合操作。例如笛卡尔积得到缓解,这进一步激励网络自行对多模态交互进行建模。此外,我们的技术相对于现有的较重的对应物来说是轻量级的(V aswani 等人,2017 年;Gr¨ onroos 等人,2018 年),从而防止了不必要的计算负载。静态负载。我们在三个基准数据集上评估我们的模型:

  1. How2 数据集 (Sanabria et al., 2018) 具有用于英语-葡萄牙语翻译的多模态输入。
  2. Multi30K 数据集 (Elliott et al., 2016),其中包含用于多模态机器翻译的并行语料库,以及
  3. IEMOCAP 数据集 (Busso et al., 2008),其中包含用于情感检测的多模态数据。

  定量评估表明,我们的模型在机器翻译的 BLEU 分数(Papineni 等人,2002 年)和情感识别的精确度、召回率和 F1 分数方面优于现有的最先进方法。我们的消融研究还表明,学习到的多模态表示是稳健的;即使从目标模式中删除信息后,它们的表现也相当不错。我们现在总结我们的主要贡献如下:

  1. 我们提出了两种轻量级的自适应技术,以实现更好的数据多模态融合:Auto-Fusion 和 GAN-Fusion。
  2. 我们提出了一个多任务框架,用于多模态网络的端到端训练(用于分类和生成)。

  论文的其余部分结构如下:第 2 节涵盖相关工作,第 3 节讨论所提出的方法和整体架构,第 4 节描述实验设置,第 5 节显示结果,第 6 节包含我们的结论。