建立答案选择精度的新标准
一个同时利用局部和全局上下文的模型,在两个基准数据集上将最先进系统的精度分别提高了6%和11%。
会议: ECIR 2021, EACL 2021
相关出版物:
- 在Transformer模型中利用局部和全局上下文进行答案句子选择
- 在延迟预算下为答案句子选择系统建模上下文
实用的问答系统通常使用一种称为答案选择的技术。给定一个问题——例如“瑟琳娜·威廉姆斯何时出生?”——系统首先进行普通的基于关键词的文档搜索,然后从检索到的文档中选择一个句子作为答案。
如今,大多数答案选择系统都是基于在问题和候选答案集上训练的神经网络:给定一个问题,它们必须学会从候选句子中选择正确答案。在运行期间,它们独立地考虑每个候选句子,并估计其作为正确答案的可能性。
但这种方法有局限性。假设有一篇文章开头是“瑟琳娜·威廉姆斯是一位美国网球运动员。她出生于1981年9月26日。”如果系统学会独立考虑候选答案,它将不得不给“1981年9月26日”分配很低的概率,因为它无法知道“她”指的是谁。同样,一个文档可能只在标题中提到瑟琳娜·威廉姆斯的名字。在这种情况下,准确的答案选择需要更全局的上下文理解。
为了判断检索文档中的给定句子是否为问题提供了好的答案,一个新系统会查看句子的上下文,包括其前后的句子。
在今年春季发表的两篇论文中,研究人员探讨了如何在不产生过高计算成本的情况下,为答案选择系统添加上下文。
第一篇论文将在这个月底的欧洲信息检索会议(ECIR)上发表。其中描述了一种技术,使用局部和全局上下文来显著提高答案选择的精度。
三周后,在计算语言学协会欧洲分会会议(EACL)上,研究人员将介绍一种更有效的添加全局上下文的技术,该技术涉及少数选定句子的向量表示。
通过将这种全局上下文方法与早期论文中的局部上下文方法相结合,在两个基准数据集上展示了相比最先进的答案选择系统精度分别提高了6%和11%。
局部上下文 在两篇论文中,所有模型都基于2020年AAAI会议上提出的一个模型构建,该模型目前仍然是答案选择任务的最先进技术。该模型将预训练的、基于Transformer的语言模型(如BERT)适应于答案选择任务。其输入是拼接的问题-答案对。
在ECIR论文中,为了给基础模型添加局部上下文,扩展了输入以包含源文本中候选答案前后的句子。输入的每个词都经过三种嵌入或编码,形成固定长度的向量。第一种是标准的词嵌入,它将语义内容编码为嵌入空间中的位置。第二种是位置嵌入,用于编码词在其源句子中的位置。第三种是句子嵌入,指示词来自哪个输入句子。这使模型能够学习候选答案的词与其前后句子中的词之间的关系。
还研究了一种捕获全局上下文的技术,该技术使用一个50,000维的向量来记录源文本中出现的50,000词词典中的每个词的计数。使用一种称为随机投影的技术将该向量降维到768维,与局部上下文向量大小相同。
在测试中,将新系统与不考虑上下文的最先进的基于Transformer的系统,以及一个集成系统基线进行了比较。集成系统基线允许测量模型在多大程度上依赖于推断相邻句子之间的关系,而不是简单地利用它们包含的额外信息。
在三个不同的数据集和两种不同的精度度量上,模型在所有情况下都优于基线。实际上,集成系统的表现比其他两个差得多,可能是因为它被上下文句子中的额外信息搞糊涂了。
全局上下文 在EACL论文中,考虑了另外两种为模型添加全局上下文的方法。两种方法都从源文本中搜索少数(2到5个效果最佳)与问题和候选答案都有很强关联的句子。然后将这些句子作为附加输入添加到模型中。
两种方法以不同的方式衡量句子之间的关系。一种使用n-gram重叠。也就是说,它将每个句子分解为一个词、两个词和三个词的序列,并测量句子间这些序列的重叠程度。
另一种方法使用上下文词嵌入来确定句子之间的语义关系,基于它们在嵌入空间中的接近程度。在实验中,这是效果最好的方法。
在实验中,使用了三种不同的架构来探索上下文感知答案选择的方法。在所有三种架构中,输入都包括局部上下文信息(如ECIR论文所述)和全局上下文信息。
在第一种架构中,只是将全局上下文句子与问题、候选答案和局部上下文句子拼接起来。
第二种架构使用集成方法。它接收两个输入向量:一个将问题和候选答案与局部上下文句子拼接,另一个将问题和候选答案与全局上下文句子拼接。两个输入向量分别传递给独立的编码器,这些编码器产生独立的向量表示以供进一步处理。研究人员推测这会提高精度,但计算成本更高。
第三种架构使用多路注意力机制,试图以较低成本捕获集成架构的部分增益。多路注意力模型使用单个编码器为所有输入产生表示。然后将这些表示馈送到三个独立的注意力块中。第一个块强制模型联合检查问题、答案和局部上下文;第二个块专注于局部上下文和全局上下文之间的关系;最后一个注意力块捕获整个序列中的关系。因此,该架构保留了集成方法的部分信息隔离特性。
在测试中,集成方法表现最佳,但多路注意力模型紧随其后,在用于评估的三个指标上下降了0.1%到1%。
然而,所有三个上下文感知模型都优于最先进的基线,为答案选择精度建立了新的标准。