改进文本与知识库间的“实体链接”
实体链接(EL)是将文本中的实体提及自动链接到知识库(存储实体相关事实的数据库,如Wikidata)中对应条目的过程。例如,在句子中,我们需要将“英格兰”这个提及链接到“英格兰足球队”实体,而不是“英格兰”国家实体。
实体链接是自然语言处理(NLP)应用中的常见第一步,如问答、信息提取和自然语言理解。它对于连接非结构化文本与知识库至关重要,使得能够访问大量经过整理的数据。
当前EL系统在标准数据集上表现优异,但在实际应用中存在几个局限性。首先,它们计算密集,使得大规模处理成本高昂。其次,大多数EL系统设计用于链接到特定知识库(通常是维基百科),难以适应其他知识库。最后,最高效的现有方法无法将文本链接到训练后引入知识库的实体(称为零样本EL任务),这意味着必须频繁重新训练以保持最新。
在NAACL 2022行业轨道中,我们推出了名为ReFinED的新EL系统,解决了所有三个问题。我们在主会议的另一篇论文中基于这项工作,引入了一种新方法将额外知识库信息纳入模型,进一步提高了准确性。
ReFinED在标准EL数据集上的F1分数(综合考虑假阳性和假阴性的指标)平均超过现有最佳性能3.7分,并且比具有竞争性能的现有方法快60倍。ReFinED能够泛化到大规模知识库(如Wikidata,其实体数量是维基百科的15倍)并支持零样本实体链接。速度、准确性和规模的结合使ReFinED成为从网络规模数据集中提取实体的有效且成本效益高的系统,该模型已在某机构内部成功部署。
使用细粒度类型和描述的实体链接
实体链接具有挑战性,因为实体提及常常存在歧义。因此,EL系统必须有效利用上下文(周围词语)来可靠地消歧实体提及。
最近的EL系统使用深度学习方法将提及与知识库中存储的信息(如文本实体描述或细粒度实体类型)进行匹配,而不是直接与实体匹配。这对于链接到训练数据中未见过的实体(零样本EL)是有利的,因为用于描述它们的信息将具有模型在训练期间见过的属性。
然而,这种零样本能力方法比非零样本模型计算成本高一个数量级,因为它们需要大量实体类型和/或通过模型进行多次前向传递以编码提及和描述。这使得大规模处理对于某些应用来说成本过高。
与早期的零样本能力模型类似,ReFinED使用细粒度实体类型和实体描述执行EL。但我们使用简单的基于Transformer的编码器,比更复杂的架构获得更好的性能,在五个EL数据集上超越了现有技术水平。
与之前的工作不同,ReFinED在单个前向传递中执行提及检测(识别实体提及范围)、细粒度实体类型预测(预测实体类型)和实体消歧(对实体评分),使其比可比模型快60倍,因此运行资源效率提高约60倍。
在底层,ReFinED是一个基于Transformer的神经网络,计算两个分数:描述分数和实体类型分数,以指示实体对提及的适合程度。
整合关系数据
这种方法的一个缺点是,可能存在一些提及,其候选实体无法通过知识库实体描述和类型进行消歧。作为说明,考虑以下句子,其中包含“克林顿”可能指代的两个实体的实体描述和类型:
仅给定句子上下文以及知识库描述和类型,无法正确决定句子是指希拉里·克林顿还是比尔·克林顿。
我们的第二篇NAACL论文“通过推理知识库改进实体消歧”解决了这个缺点。我们提出了一种使用与候选实体相关的额外知识库事实的方法。
知识库事实编码实体对之间的关系,如下例所示:
为了使用这类信息,我们为模型添加了一个额外机制,使其能够预测文本中提及对之间连接的关系。例如,模型会从句子上下文中推断出“克林顿”的出生地和教育地点是“希望城,阿肯色州”和“温泉高中”。然后我们可以将这些推断与知识库中的事实进行匹配。
在这种情况下,我们会发现两个预测与比尔·克林顿的知识库事实匹配,但与希拉里·克林顿的不匹配。因此,我们的模型会提高比尔·克林顿的分数,并有望做出正确预测。
通过向模型添加这个机制,我们能够在文献中常用的六个数据集上平均将现有最佳性能提高1.3 F1分,在专注于特别具有挑战性示例的“ShadowLink”数据集上提高12.7 F1分。