本文已参与「新人创作礼」活动,一起开启掘金创作之路。
论文题目:DeepCU: Integrating both Common and Unique Latent Information for Multimodal Sentiment Analysis
时间:2019
来源:IJCAI
论文链接:点击跳转
论文代码:点击跳转
目录
DeepCU:为多模态情感分析整合共同和独特的潜在信息
摘要
研究目的
多模态情感分析结合了来自视觉、文本和声学表示的可用信息,用于情感预测。最近的多模态融合方案有:
- 将多种模态组合为一个张量并获得其中之一
- 通过利用神经网络来获取公共信息,或者通过对张量的低秩表示进行建模来获取独特信息。然而,这两个信息都是必不可少的,因为它们分别呈现数据的模态间和模态内关系。
解决方法
在这项研究中:
- 提出了一种新颖的深度架构来从多模表示中提取公共信息。
- 提出了独特的网络来获取特定于模态的信息,从而增强我们的多模态系统的泛化性能。
- 通过融合层整合了这两个方面的信息,并提出了一种新颖的多模态数据融合架构,我们称之为 DeepCU(具有通用和独特潜在信息的深度网络)。
提议的 DeepCU 整合了两个网络,用于联合利用和发现所有重要的潜在信息。
实验结果
进行了全面的实验,以证明利用 DeepCU 在多个真实世界数据集上发现的常见和独特信息的有效性。
介绍
深度学习技术的最新发展在情感分析和情感识别方面取得了巨大成功。尽管最近利用语言进行情感分析做出了大量努力,但该领域的核心研究挑战是多模态表示的有效利用,例如用于情感预测的语音和视觉手势 [Lahat et al., 2015; Baltruˇ saitis 等,2018]。在社交媒体平台(Facebook、YouTube 等)上分享观点视频的趋势越来越大,这些视频包括语言、视觉手势和声音作为多模态表示。结合单峰表示进行情感分析变得至关重要,因为来自多种模式的组合信息比传统的基于文本的方案具有更好的泛化能力。图 1 展示了一个典型的多模态情感分析系统,其中“那是 - 那是真的”是模棱两可的,可以被视为积极或中性的情绪。然而,结合说话者的视觉手势和声学有助于我们识别说话者的情绪。
尽管交互模态(即声学、视觉和语言)的融合通常会提高泛化性能,但在执行融合时必须正确处理真实世界数据集的各种场景,否则联合表示可能会变得徒劳。在这方面的一个常见情况是在单峰表示中出现缺失值 [Lahat et al., 2015],这导致了无效的联合表示。对于视觉特征缺失值可能由于多种原因而发生,例如自以为是的视频中光线不足、说话者戴着配饰(帽子、眼镜等)或在笑时遮住脸。类似地,对于语音回声等听觉信号因素,环境噪声会导致特征集中的缺失值。图 2 举例说明了当前最先进融合技术的局限性,即 TFN [Zadeh et al., 2017] 显示为 A.,LMF [Liu et al., 2018] 显示为 B.;当面临缺失值时,我们提出的 DeepCU 的优势和优势在图 2 中显示为 C。
在图 2 中,为了从声学和语言模态中获得联合表示,TFN 和 LMF 在增强特征上使用外积。这导致联合表示中的双峰和单峰特征(作为张量)。然而,所有情况下的联合表示都比声学模态稀疏得多(包含更多的缺失值),并且 TFN 和 LMF 的学习机制都无法在这种情况下有效地提取信息。我们提出的 DeepCU 可以处理缺失值场景:
- 卷积核在执行特征提取的同时将联合表示拆分为重叠段,从而减少缺失值的影响。
- 获得特定模态唯一信息的分解机 (FM) 具有稀疏特征向量的鲁棒性,当联合表示无效时,这会减弱对 DeepCU 性能和信息发现的影响。
- 学习公共和独特网络的非共享潜在表示确保高级表示的潜在嵌入不受劣等表示(即无效表示的梯度)的影响。此限制强制执行潜在嵌入以获得补充信息,并在更高层执行融合时提供更多表现力。
受上述几点启发,我们提出了一种用于多模态数据融合的新型深度共性和独特特征提取技术,我们称之为 DeepCU。我们提出的 DeepCU 有两个组成部分:1)独特的子网络,它获取特定于个体模式的信息; 2)公共子网络,它通过使用提出的深度卷积张量网络从联合(多模式)表示中获取组合信息。来自公共和独特子网络的信息由融合层集成以获得集成输出。
这项工作的主要贡献如下:
- 我们设计了一个整合的深度网络,用于联合利用和发现多模式数据的共同(多模式)和独特(特定模式)属性以进行情感分析。
- 我们提出的 DeepCU 在概念上比现有的最先进技术(TFN 和 LMF)更具表现力,因为它捕获了在我们公共网络子网络中的张量表示中表现出的非线性多模式交互。此外,我们独特的子网络同时获得线性和分解的非线性(二次)特征关系,这减轻了缺失值场景并增强了 DeepCU 的泛化能力。
- 我们对多模态 CMU-MOSI 和 POM 数据集进行了全面的实验,并证明了利用常见和独特的潜在信息与其他技术进行比较的有效性。