ReFinED：提升文本与知识库实体链接技术本文介绍了一种名为ReFinED的新型实体链接系统，通过结合细粒度实体类型和

改进文本与知识库之间的“实体链接”

新模型在准确率上树立了新标准，同时实现了60倍的加速。

作者：Tom Ayoola, Joseph Fisher | 2022年7月8日 | 阅读时长4分钟

NAACL 2022

EL具有挑战性，因为实体指称往往存在歧义。因此，EL系统必须有效利用上下文（周围的词语）来可靠地消解实体指称。

最近的EL系统使用深度学习方法，将指称不直接与实体匹配，而是与知识库中存储的信息（如文本实体描述或细粒度实体类型）进行匹配。这种方法对于链接到训练数据中未出现的实体（零样本EL）具有优势，因为用于描述这些实体的信息具有模型在训练期间已见过的属性。

然而，这种具备零样本能力的方法在计算上比非零样本模型昂贵一个数量级，因为它们需要大量的实体类型和/或多次前向传播模型来编码指称和描述。这使得对于某些应用来说，大规模处理的成本高得令人望而却步。

与早期的零样本能力模型类似，ReFinED使用细粒度实体类型和实体描述来执行EL。但它使用了一个简单的基于Transformer的编码器，其性能优于更复杂的架构，在五个EL数据集上超越了现有最佳水平。

ReFinED计算两个分数：描述分数和类型分数，用于评估输入句子与知识库中候选实体的匹配程度。

与先前工作不同，ReFinED在单次前向传播中执行指称检测（识别实体指称跨度）、细粒度实体类型预测（预测实体类型）和实体消歧（为实体打分），适用于文档中的所有指称。这使得它比同类模型快60倍，因此运行时的资源效率也提高了约60倍。

在底层，ReFinED是一个基于Transformer的神经网络，它计算两个分数：描述分数和实体类型分数，以指示一个实体对于一个指称的合适程度。

这种方法的一个缺点是，某些指称的候选实体可能无法仅通过知识库的实体描述和类型来消歧。例如，考虑下面这个句子，以及“Clinton”可能指代的两个实体的实体描述和类型：

有时，仅凭描述和类型信息不足以区分两个知识库条目。

仅凭句子的上下文以及知识库的描述和类型，无法正确判断该句子指的是希拉里·克林顿还是比尔·克林顿。

我们在NAACL的第二篇论文《通过知识库推理改进实体消歧》解决了这一缺陷。我们提出了一种方法，使用与候选实体相关联的额外知识库事实。知识库事实编码了实体对之间的关系，如下例所示：

当类型和描述信息不足以区分候选实体时，模型会使用额外的知识库事实。

为了利用这类信息，我们为模型增加了一个额外机制，使其能够预测文本中指称对之间的关联关系。例如，模型会从句子上下文中推断出“Clinton”的出生地和受教育地分别是“Hope, Arkansas”和“Hot Springs High School”。然后，我们可以将这些推断与知识库中的事实进行匹配。

在这种情况下，如下图所示，我们会发现这两个预测与比尔·克林顿的知识库事实相匹配，而与希拉里·克林顿的不匹配。因此，我们的模型会提高比尔·克林顿的得分，从而有望做出正确的预测。

增加利用知识库事实的机制提高了模型准确率。

通过将这一机制添加到模型中，我们得以在文献中常用的六个数据集上平均提高1.3个F1分数，并在专注于极具挑战性示例的“ShadowLink”数据集上提高了12.7个F1分数。