论文笔记(1)信息融合综述

448 阅读7分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第1天,点击查看活动详情

本文是信息融合综述Multi-feature, multi-modal, and multi-source social event detection: A comprehensive survey的学习笔记。

一、信息融合

1. 多模态信息融合

1.1 表示学习 (representation learning)

表示学习又叫特征学习(feature learning)或者表征学习,一般指模型自动从数据中抽取特征或者表示的方法,是模型自动学习的过程。典型相关分析(CCA)是多模态表示学习的基本范式和基础的经典方法。Huang et al. (2018)[1] 使用了深度典型相关分析(DCCA),它比CCA内核更灵活。DCCA 是 CCA 的非线性版本,它使用神经网络作为映射函数而不是线性变换器。

1.2 基于 Bilinear 的多模态信息融合

Bilinear源于Bilinear CNN,通过对两个CNN得到的两个特征,然后进行外积。

Akira等人[2]将其用在多模态融合之中。两个向量x,q,进行outer product 后,得到隐含表达z。然而,当x,q,z维度很大时,线性变换的参数将十分巨大。为了解决这个问题,论文提出MCB(Multimodal Compact Bilinear Pooling)的方法:视觉特征x和文本特征q经过一个算法(具体可以看原论文),得到一个表达,然后经过卷积/FFT得到融合后的结果。同MCB类似,Yu等人[3]提出的MFB(Multi-modal Factorized Bilinear Pooling)也是用于融合图像和文本特征。他们使用矩阵分解及sum pooling方法,总的框架比MCB多了question attention。此外,双线性池化可以推广到两种以上的modality,例如使用外积来建模视频、音频和语言表示之间的交互[4]。双线性池化和注意力机制也可以进行结合。MCB融合的双模态表示可以作为注意力模型的输入特征,得到含有注意力的图像特征向量,然后再使用MCB与文本特征向量融合,形成最终的联合表示[2][5]。

1.3 基于 Transformer 的多模态信息融合

Trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。

[6]中提出的Fusion-based Transformer把三个模态的信息经过LMF得到融合后的信息, 然后对每个模态放到一个Transformer中,来做一个跨模态的attention,然后得到的新的融合向量再进行self-attention,使得得到最终的表示,进行预测。[7]中提出多模态 Transformer(MulT)来分析人类多模态语言。MulT的核心是跨模态注意机制,它提供了一种潜在的跨模态适应,通过直接关注其他模态中的低级特征来融合多模态信息。[8]中提出了一种名为TransFuser的模型,用来融合来自摄像头和激光雷达传感器的多模态数据,使用Transformer的注意力机制将关于 3D 场景的全局上下文推理直接集成到不同模态的特征提取层中。

2. 多源信息融合

从融合级别上来说,多源信息融合模型通常从数据、特征、决策三个层次上进行信息的融合处理。其中,数据层信息融合中大多采用加权平均值或聚类算法;特征层信息融合算法包括神经网络、模糊理论和 D-S 证据理论等;决策层信息融合常用的算法包括 D-S 证据理论、Bayes 推理和模糊理论。

Satya et al. (2017)[9]提出了三种不同的方法来合并来自各种社交媒体的信息,分别对应了数据、特征和决策三个层次。在数据层融合方法中,直接将来自多个媒体的数据流融合为一个数据流,之后再对该数据流进行后续处理,这种方式源数据的准确性最高;在特征层融合方法中,分别对单一数据流进行图表示和剪枝(即特征提取)后再进行融合;而在决策层融合方法中,每一条数据流都要经过一个完整的处理流程,包括图的生成、剪枝、聚类和事件提取,最后对各数据流中提取出的事件进行融合,得到最终的社交事件提取结果。

3. 多语言信息融合

对于多语言的信息,往往将它们转化为为同一维度的词向量后再进行融合操作。Liu et al. (2020)[10]利用word2vec表示多语言的社交帖。word2vec利用一个隐含层的神经元网络将单词转化为向量,从而帮助融合不同语言中的相同实体和相似单词。Modha et al. (2018) [11]利用fastText进行多语言文本的表示。fastText是word2vec的扩展,提供了294种语言的在Wikipedia语料上进行训练的可迁移词向量模型, 它们采用skipgram和CBOW模式进行训练, 词向量维度可以达到300维。

二、 流式大数据框架对比

通过对比Storm、Spark Streaming和Flink三个主流的流式大数据框架,突出Flink在流式处理中的突出地位。

  1. 数据流处理模式:Flink和Storm均为Native,即输入的数据可以立即得到处理响应。而由于Spark Streaming基于Spark,尽管引入“微批”的概念,但它仍然是批式处理,和Native仍有一定的差距。

  2. 一致性:当任意条数据流转到某分布式系统中,无论遭遇故障与否,如果系统在整个处理过程中对该任意条数据都仅精确处理一次,且处理结果正确,则被认为该系统满足Exactly-Once一致性。Flink和Spark Streaming均能保证Exactly-Once,而Storm只能保证至少处理一次,可能会进行多次不必要的处理。

  3. 延迟、吞吐量:Flink的低延迟、高吞吐远优于其它框架。

三、 模型评价准则

为了了解新方法的发展和改进,需要进行基准分析和评价分析。评价分析是指使用现有的方法和与历史实践相关的方法对相应的模型进行培训和测试。Precision、Recall和F-Measure是常用的评价准则。对于二分类模型来说,其混淆矩阵如图1所示。其中T表示预测正确,F表示预测错误;P表示正向预测,N表示负向预测。Precision = TP / (TP + FP);Recall = TP / (TP + FN);F-Measure是Precision和Recall的调和平均。

image.png

图1 二分类模型混淆矩阵

四、 参考文献

[1]    P.-Y. Huang, J. Liang, J.-B. Lamare, A.G. Hauptmann, Multimodal filtering of social media for temporal monitoring and event analysis, in: Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval, 2018, pp. 450–457

[2]    Akira Fukui,Dong Huk Park,Daylen Yang,Anna Rohrbach,Trevor Darrell,Marcus Rohrbach. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding.[J]. CoRR,2016,abs/1606.01847.

[3]    Yu Z , Yu J , Fan J , et al. Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering[J].  2017.

[4]    Z. Liu, Y. Shen, V. Lakshminarasimhan, P. Liang, A. Zadeh, and L.-P. Morency, “Efficient low-rank multimodal fusion with modality-specific factors,”in Proc. ACL, 2018.

[5]    J.-H. Kim, K.-W. On, W. Lim, J. Kim, J.-W. Ha, and B.-T. Zhang, “Hadamard product for low-rank bilinear pooling,” in Proc. ICLR, 2017.

[6]    Sahay S ,  Okur E ,  Kumar S H , et al. Low Rank Fusion based Transformers for Multimodal Sequences[J].  2020.

[7]    Tsai Y ,  Bai S ,  Liang P P , et al. Multimodal Transformer for Unaligned Multimodal Language Sequences[J].  2019.

[8]    Prakash A ,  Chitta K ,  Geiger A . Multi-Modal Fusion Transformer for End-to-End Autonomous Driving[J].  2021.

[9]    Katragadda S ,  Benton R ,  Raghavan V . Framework for Real-Time Event Detection using Multiple Social Media Sources[C]// Hawaii International Conference on System Sciences. 2017.

[10] Y. Liu, H. Peng, J. Li, Y. Song, X. Li, Event detection and evolution in multi-lingual social streams, Front. Comput. Sci. 14 (5) (2020) 1–15.

[11] S. Modha, P. Majumder, T. Mandl, Filtering aggression from the multilingual social media feed, in: Proceedings of the First Workshop on Trolling, Aggression and Cyberbullying (TRAC-2018), Association for Computational Linguistics, 2018, pp. 199–207.