改进文本与知识库之间的“实体链接”
新模型在实现60倍速度提升的同时,树立了新的准确率标准。
实体链接是将文本中的实体提及自动链接到知识库(一个存储实体相关事实的数据库,如某维基)中对应条目的过程。例如,在下图中,我们的目标是将提及的“英格兰”链接到“英格兰足球队”这一实体,而不是作为国家的“英格兰”实体。
在此句中,实体名称“英格兰”应链接到知识库中关于英格兰国家足球队的条目,而非作为国家的英格兰。
实体链接是问答系统、信息抽取和自然语言理解等自然语言处理应用中的常见第一步。它对于连接非结构化文本与知识库至关重要,这使得访问海量的结构化数据成为可能。 当前的实体链接系统在标准数据集上表现出色,但在实际应用部署时存在若干限制。首先,它们计算量大,导致大规模处理成本高昂。
其次,大多数实体链接系统设计为链接到特定知识库(通常是某百科),难以轻松适配其他知识库。最后,现有最高效的方法无法将文本链接到训练后才引入知识库的实体(即零样本实体链接任务),这意味着为了保持时效性,它们必须频繁地重新训练。
在某顶级会议2022工业界轨道中,我们介绍了一个名为ReFinED的新实体链接系统,它解决了上述三个问题。我们在主会场的第二篇论文中进一步扩展了这项工作,介绍了一种将更多知识库信息融入模型的新方法,从而进一步提高了其准确性。
ReFinED在标准实体链接数据集上的性能超越了现有技术水平,F1分数(一种综合考量假正例和假负例的指标)平均提高了3.7个百分点,并且在与现有方法性能相当的情况下,速度快了60倍。ReFinED能够泛化到某维基这样的大规模知识库(其实体数量是某百科的15倍),并支持零样本实体链接。速度、准确性和规模三者的结合,使得ReFinED成为从网络规模数据集中提取实体的高效且成本效益显著的系统,该模型已在某机构内部成功部署。
利用细粒度类型和描述进行实体链接
实体链接具有挑战性,因为实体提及通常是歧义的。因此,实体链接系统必须有效利用上下文(周围的词语)来可靠地消除实体提及的歧义。
近期的实体链接系统使用深度学习方法,并非直接将提及与实体匹配,而是与知识库中存储的信息(如文本实体描述或细粒度实体类型)进行匹配。这对于链接到训练数据中未见过的实体(零样本实体链接)是有利的,因为用于描述这些实体的信息具有模型在训练期间见过的属性。然而,这类支持零样本的方法在计算上比非零样本模型昂贵一个数量级,因为它们需要大量的实体类型和/或多轮前向传播来编码提及和描述。这使得对于某些应用而言,大规模处理的成本高得令人却步。
与早期的零样本能力模型类似,ReFinED使用细粒度实体类型和实体描述来执行实体链接。但我们使用了一个简单的基于Transformer的编码器,其性能优于更复杂的架构,在五个实体链接数据集上超越了现有技术水平。
与以往工作不同,ReFinED在单个前向传播中处理文档中所有提及的提及检测(识别实体提及范围)、细粒度实体类型预测(预测实体类型)和实体消歧(为实体评分),这使得它比同类模型快60倍,因此运行时资源效率提高约60倍。
在底层,ReFinED是一个基于Transformer的神经网络,它计算两个分数——描述分数和实体类型分数——来指示一个实体对于一个提及的合适程度。
整合关系数据
这种方法的一个缺点是,存在一些提及,其候选实体无法仅通过知识库实体描述和类型进行消歧。为了说明这一点,考虑下面这个句子,以及“Clinton”可能指代的两个实体的实体描述和类型:
有时,描述和类型信息不足以区分两个知识库条目。
仅凭句子上下文以及知识库的描述和类型,无法正确判断这句话指的是希拉里·克林顿还是比尔·克林顿。
我们的第二篇会议论文《通过知识库推理改进实体消歧》解决了这个缺陷。我们提出了一种方法,使用与候选实体关联的额外知识库事实。知识库事实编码了实体对之间的关系,如下例所示:
在类型和描述信息不足以区分候选实体时,模型会使用额外的知识库事实。
为了利用这类信息,我们为模型增加了一个额外机制,使其能够预测文本中连接提及对的关系。例如,模型会从句子上下文中推断出“克林顿”的出生地和受教育地分别是“阿肯色州霍普”和“温泉高中”。然后,我们可以将这些推断与知识库中的事实进行匹配。
在这种情况下,如下图所示,我们会发现这两个预测匹配比尔·克林顿的知识库事实,但不匹配希拉里·克林顿的。因此,我们的模型会提高比尔·克林顿的得分,并有望做出正确预测。
通过增加利用知识库事实的机制,提高了模型准确性。
通过向模型添加此机制,我们能够在文献中常用的六个数据集上将现有技术水平平均提高1.3个F1分数点,并在专注于特别具有挑战性示例的“某链接”数据集上提高12.7个F1分数点。FINISHED