导语

会议：Arxiv 2022
链接：arxiv.org/abs/2212.08…

1 简介

多模态和多跳问答(Multi-modal and Multi-hop Question Answering，MMQA)任务需要整合文本和视觉形式的信息来帮助回答复杂问题。对于这些系统来说，准确检索中间证据（即检索的结果）是必要的，因为存在导致答案的相互依赖的推理步骤。

现有的MMQA系统存在以下两个限制：

大多数现有的MMQA系统分别对每个源进行编码以供检索，无法建立输入源之间的联系，如果不在源之间建立连接，对多模态候选的推理过程可能是不平衡的。因为即使不同模态的输入之间存在语义连接，相同模态的表示也更接近。
大多数现有的多跳QA模型使用单独的模块进行检索和答案生成。更具体地说，检索器用于检索证据，读取器用于生成答案。如果检索器性能较差，这种架构可能会导致错误传播。检索器不能自适应地确定阅读器推理信息上的检索步数。

为了解决这两个问题，本文提出了一种基于结构化知识和统一检索生成的MMQA方法(SKURG)，该方法通过结构化知识表示集成非结构化多模态输入，并通过语言模型统一源检索和答案生成。

SKURG的概述如图1所示。首先，利用预训练的编码器分别对源进行编码。然后，从输入中提取实体及其关系，从而得到多模态输入的结构化表示。接下来，使用一个以实体为中心的融合编码器（entity-centered fusion encoder）在实体和输入源之间构建对齐，并将每个实体与对齐的源融合。本文假设实体-中心编码器有助于学习源的统一语义空间，从而缓解检索中模态不平衡的问题。然后将编码的源和融合的实体表示送入统一的检索生成解码器，该解码器首先使用指针机制检索证据，然后根据证据生成答案。SKURG将检索和推理阶段紧密联系在一起，通过统一证据检索和答案生成来适应任意检索跳。

本文有三个方面的贡献:

提出了一种以实体为中心的融合编码器，将多模态知识集成到预训练的生成模型中，这有助于学习多模态源的统一语义空间，缓解多模态检索中的不平衡问题。
提出了一种统一的检索生成解码器，以有效地整合中间检索结果以生成答案，并自适应地确定检索步骤数。
实验结果表明，在两个MMQA数据集上，SKURG在检索和回答问题的准确性上都显著优于SOTA。

2 相关工作

略

3 方法

给定一个问题 $Q$ 和输入的源 $S=(S_1, \cdots, S_n)$ ，其中 $n$ 代表源的个数，每个源都有可能是一段文本或者图像。MMQA任务旨在从源中检索到证据，然后结合这些检索的证据生成最终的答案A。

3.1 Basic Encoders

作者使用基于Transformer的预训练模型来对文本和图像分别进行编码，其中图像部分的数据包括了图像的标题和图像本身的内容，图像被分割为了16*16的patch来编码，每个源都有一个整体的表示 $h_{[CLS]}$ 。

3.2 Entity-centered Fusion Encoder

在3.1中的编码中，text Encoder和image Encoder都是独立的对不同源进行编码的，无法构建他们之间的联系。如图2（a）所示，作者提出了Entity-centered Fusion Encoder，首先使用NER模型提取输入文本和图像标题中的实体。然后利用关系预测模型提取每个源中实体之间的关系。由于输入文本通常包含太多的实体，提取所有实体的关系会产生很大的噪声，不利于掌握关键信息。因此，作者将文本标题中的实体视为关系提取的头部实体，上下文中的实体作为尾部实体。提取了每个头部实体和尾部实体之间的关系，本文假设这可以更好地平衡资源消耗和整体性能。对于图像标题中的实体，每个实体可以被视为头部实体或尾部实体，提取每对实体之间的关系。

基于S上的所有实体提取和关系提取结果，可以得到一个通过实体连接多模态源的知识图。然后，通过连接实体及其关系将知识图线性化成一个序列。例如，该操作将图1中的图表转换为以下文本:

[CLS] [ENT] Premier League: participating team, Norwich City ; participating team, Blackburn Rovers [ENT] Liverpool: ...

将线性化的知识图馈送到嵌入层和转换层，得到编码后的表示形式，记为 $H^G$

然后使用每个源和每个头部实体的[CLS]表示之间的内积来计算它们之间的相似性得分。

并计算一个置信度，用于表示一个源对齐到上面的知识图G的概率，

只采信那些概率值超过0.5的，

然后我们将每个头部实体与其对齐的源进行融合:

通过对齐和融合头部实体与源，借助结构化的知识对齐源，并将不同的形式映射到统一的语义空间。最后，更新 $H^G$ ，并将其馈送到Transformer层以获得编码表示。

3.3 Retrieval-Generation Decoder

检索生成解码器的结构如图2 (b)所示。采用基于transformer的语言模型作为检索生成解码器的主干。将问题Q作为前缀信息提供给解码器以读取问题。在这一阶段，解码器对所有来源和知识图的编码表示进行交叉注意，记为:

在此阶段之后，解码器开始从输入源检索证据。与上一阶段不同的是，解码器只对源的池化表示执行交叉注意:

然后利用检索模块检索证据并决定何时停止检索。具体来说，作者选择交叉注意权重最高的来源作为候选证据。利用时间步t的最后一个解码器层 $h_t$ 的输出来决定是继续检索还是开始生成答案:

如果输出是检索到的证据，则在下一个时间步骤中将证据的池表示提供给解码器。如果输出是[ANS]，解码器在下一个时间步开始生成答案。在答案生成过程中，解码器对检索到的证据和知识图的编码表示进行交叉注意。例如，假设检索模块检索到 $S_i$ 和 $S_j$ 作为证据，则可见的编码表示为 $H_R^E = (H_i, H_j, H_G)$ 。使用LM head得到时间步t的生成概率分布 $P_t$ 。

3.4 训练

作者设计多个loss项，分别为：

$L_a$ : 表示一个源 $S_i$ 应该对齐到哪个头实体；
$L_c$ : 表示一个源 $S_i$ 是否应该链接到知识图G；
$L_r$ : 将所有层的交叉注意得分相加，并利用交叉熵在检索步骤中强制检索;
$L_s$ : 采用BCE Loss学习何时停止检索；
$L_g$ : 生成答案的loss。

最后的总loss是各个loss的求和。

4 实验

4.1-4.2 数据集&Baseline

使用WebQA和MultimodalQA数据集。采用VLP、AutoRoute、ImplicitDec和MuRAG作为Baseline方法。

4.3 实现细节

图像编码器采用OFA-base，文本编码器和解码器采用Bart-base（其输入长度为1024个token）。利用Bart-base的参数初始化实体中心融合编码器。在AutoRoute之后，我们在SQuAD2.0上预训练OFA-base和Bart-base，并过滤那些没有相应答案的问题。我们采用基于ELMo的NER 进行实体识别，采用OpenNRE进行关系预测。作者将融合层（fusion layer）添加在以实体为中心的融合编码器的中间，即Bart-base的第三层和第四层之间。

4.4 实验结果

实验结果如下表1-表4所示，

4.5 消融实验

消融实验的表现如表5、表6所示，在丢弃entity-centered fusion encoder时，检索性能下降了1.4%，证明了利用结构化知识学习统一语义空间的有效性。整体的QA性能也下降了，这表明以实体为中心的融合编码器可以帮助推理。表5的第三行显示了删除检索模块时的结果，其中SKURG在不进行检索的情况下根据所有源生成答案。整体的QA性能和流畅性下降，说明检索模块可以帮助找到生成答案的相关材料。但其精度高于完整模型。这可能有助于以实体为中心的融合编码器，它突出显示关键实体，以帮助模型捕获关键信息。

表6第二行显示了放弃提取的知识图，只使用MultimodalQA中给定的表时的结果。可以看到QA和检索都有下降，这也验证了提取知识的有效性，即使提取的知识可能包含很多噪声。第三行显示时的结果放弃了entity-centered fusion encoder和提取的知识，在QA和检索性能上都有急剧下降，这表明使用entity-centered fusion encoder比普通BART编码器更有利于在不同模态之间构建对齐。

作者观察到，所提出方法在MultimodalQA上取得了比WebQA更显著的改进。这表明该方法在生成简短答案(即关键信息)方面更强大。

4.6 Case Study

下图展示了两个示例，

5 总结

本文提出了一种基于结构化知识和统一检索生成的多模态多跳问答方法。该工作的动机是需要连接数据源，以建模相互依赖的推理步骤，并为多模式候选对象学习共享语义空间。实验显示了这种方法的前景，因为它比现有的基线有很大的优势。然而，生成完整句子的性能低于简短答案。这表明在答案生成过程中仍有更有效地整合结构信息的空间。

论文笔记：Enhancing Multi-modal and Multi-hop Question Answering via Structured Knowl

导语