ReFinED：高效精准的文本与知识库实体链接新方法本文介绍了一种名为ReFinED的新型实体链接系统，它通过单次前向传

改进文本与知识库之间的“实体链接”

新模型在实现60倍速度提升的同时，树立了新的准确率标准。

实体链接是将文本中的实体提及自动链接到知识库（一个存储实体相关事实的数据库，如某维基）中对应条目的过程。例如，在下图中，我们的目标是将提及的“英格兰”链接到“英格兰足球队”这一实体，而不是作为国家的“英格兰”实体。

在此句中，实体名称“英格兰”应链接到知识库中关于英格兰国家足球队的条目，而非作为国家的英格兰。

实体链接是问答系统、信息抽取和自然语言理解等自然语言处理应用中的常见第一步。它对于连接非结构化文本与知识库至关重要，这使得访问海量的结构化数据成为可能。当前的实体链接系统在标准数据集上表现出色，但在实际应用部署时存在若干限制。首先，它们计算量大，导致大规模处理成本高昂。

其次，大多数实体链接系统设计为链接到特定知识库（通常是某百科），难以轻松适配其他知识库。最后，现有最高效的方法无法将文本链接到训练后才引入知识库的实体（即零样本实体链接任务），这意味着为了保持时效性，它们必须频繁地重新训练。

在某顶级会议2022工业界轨道中，我们介绍了一个名为ReFinED的新实体链接系统，它解决了上述三个问题。我们在主会场的第二篇论文中进一步扩展了这项工作，介绍了一种将更多知识库信息融入模型的新方法，从而进一步提高了其准确性。

ReFinED在标准实体链接数据集上的性能超越了现有技术水平，F1分数（一种综合考量假正例和假负例的指标）平均提高了3.7个百分点，并且在与现有方法性能相当的情况下，速度快了60倍。ReFinED能够泛化到某维基这样的大规模知识库（其实体数量是某百科的15倍），并支持零样本实体链接。速度、准确性和规模三者的结合，使得ReFinED成为从网络规模数据集中提取实体的高效且成本效益显著的系统，该模型已在某机构内部成功部署。

利用细粒度类型和描述进行实体链接

实体链接具有挑战性，因为实体提及通常是歧义的。因此，实体链接系统必须有效利用上下文（周围的词语）来可靠地消除实体提及的歧义。

近期的实体链接系统使用深度学习方法，并非直接将提及与实体匹配，而是与知识库中存储的信息（如文本实体描述或细粒度实体类型）进行匹配。这对于链接到训练数据中未见过的实体（零样本实体链接）是有利的，因为用于描述这些实体的信息具有模型在训练期间见过的属性。然而，这类支持零样本的方法在计算上比非零样本模型昂贵一个数量级，因为它们需要大量的实体类型和/或多轮前向传播来编码提及和描述。这使得对于某些应用而言，大规模处理的成本高得令人却步。

与早期的零样本能力模型类似，ReFinED使用细粒度实体类型和实体描述来执行实体链接。但我们使用了一个简单的基于Transformer的编码器，其性能优于更复杂的架构，在五个实体链接数据集上超越了现有技术水平。

与以往工作不同，ReFinED在单个前向传播中处理文档中所有提及的提及检测（识别实体提及范围）、细粒度实体类型预测（预测实体类型）和实体消歧（为实体评分），这使得它比同类模型快60倍，因此运行时资源效率提高约60倍。

在底层，ReFinED是一个基于Transformer的神经网络，它计算两个分数——描述分数和实体类型分数——来指示一个实体对于一个提及的合适程度。

整合关系数据

这种方法的一个缺点是，存在一些提及，其候选实体无法仅通过知识库实体描述和类型进行消歧。为了说明这一点，考虑下面这个句子，以及“Clinton”可能指代的两个实体的实体描述和类型：

有时，描述和类型信息不足以区分两个知识库条目。

仅凭句子上下文以及知识库的描述和类型，无法正确判断这句话指的是希拉里·克林顿还是比尔·克林顿。

我们的第二篇会议论文《通过知识库推理改进实体消歧》解决了这个缺陷。我们提出了一种方法，使用与候选实体关联的额外知识库事实。知识库事实编码了实体对之间的关系，如下例所示：

在类型和描述信息不足以区分候选实体时，模型会使用额外的知识库事实。

为了利用这类信息，我们为模型增加了一个额外机制，使其能够预测文本中连接提及对的关系。例如，模型会从句子上下文中推断出“克林顿”的出生地和受教育地分别是“阿肯色州霍普”和“温泉高中”。然后，我们可以将这些推断与知识库中的事实进行匹配。

在这种情况下，如下图所示，我们会发现这两个预测匹配比尔·克林顿的知识库事实，但不匹配希拉里·克林顿的。因此，我们的模型会提高比尔·克林顿的得分，并有望做出正确预测。

通过增加利用知识库事实的机制，提高了模型准确性。

通过向模型添加此机制，我们能够在文献中常用的六个数据集上将现有技术水平平均提高1.3个F1分数点，并在专注于特别具有挑战性示例的“某链接”数据集上提高12.7个F1分数点。FINISHED