实体链接学习笔记

614 阅读4分钟

参考文章链接:blog.csdn.net/qq_27590277…

一、什么是实体链接

实体链接(Entity Linking)就是将文本中的有意义的实体通过规则或者模型链接到前人创建好的知识图谱中或者专门的实体库中,EL通常分为实体识别(Entity Recognition,ER)和实体消歧(Entity Disambiguation,ED)两部分,

image.png

二、EL常用方法

最初,研究者将EL任务视为一个多分类任务,但是最终在性能和效果上都差强人意,其后,EL任务演变为一种候选排序的方法。自2015年以来,基于神经网络的EL方法已经逐渐火热起来,性能和效果都有了一定程度的改善。 EL的通用体系架构如下图

image.png 可以看得出,上图所示的体系架构分为两个步骤:实体识别和实体消歧。

实体识别:将文本数据中的Mention识别出来。
实体消歧:链接到知识图谱或者医学术语库中的某一个实体,实体消歧又包括候选实体生成(Candidate Generation)生成Mention可能链接到的Top实体和实体排序模型(Entity Ranking)根据文本信息、上下文信息计算出Mention与前Top候选实体的得分并进行排序。其实这整个步骤与推荐系统中的召回、粗排、精排阶段。

EL任务可能会遇到Unlinkable Mention Prediction问题,顾名思义,在知识图谱或者医学术语标准库中没有与其相对应的实体,

三、候选实体生成(Candidate Generation)

由于EL任务的效率和性能等多方面原因的限制,候选实体生成步骤可以理解为一个过滤过程,将可选择的大范围进行缩小在一定程度上能够提高EL任务的效率。候选实体产生的三类方法:

1)词表面的匹配(硬匹配)

类似 编辑距离、BM25、n-gram、normalization等。但是此类方法遇到缩写的情况会降低候选实体产生的准确率。

2)配词典(别名)

该方法是最常用的,构建{Mention:entity}的词典,使用知识图谱或者医学术语库中的数据构建这样一个别名的词典。可以采用维基百科消歧/重定向页面、人工配别名、同义词等方法。这些方法并不是人工率100%,有很多的技术也可以用到该步骤中。可以自行查阅。

3)先验概率计算 预先计算mention和entity之间的先验概率。许多研究采用维基百科实体的超链接计算mention和entity的先验概率。另一个流行的是CrossWikis,可以利用网页抓取数据中mention实体链接的频率。

四、实体排序模型(Entity Ranking)

当Top候选实体生成后就应该对这些候选实体进行排序,选择出最合适mention的entity。计算mention和实体之间的相似度一般采用点积、余弦、并结合其他的特征,比如mention的上下文信息、距离信息(Point-wise\Pair-wise\List-wise)、LinkCount信息。

五、无法链接问题(Unlinkable Mention Prediction)

针对无法链接的问题,一般都有几种解决方法: 1)阈值:提前设置好一个合理的阈值,低于这个阈值就被认为不可链接,则将其置为NIL。 2)引入NIL实体:在排序阶段加入额外的NIL实体,参与到实体排序打分的过程,不可链接的mention则将这个作为最佳匹配。 3)分类判别:单独训练一个mention和entity的二分类器,在实体排序之后采用分类模型判断是都为不可链接实体。

参考文章链接:blog.csdn.net/u010960155/…

题目:医疗实体链接(标准化)论文解读(附代码) A Lightweight Neural Model for Biomedical Entity Linking

医疗实体链接:将在医疗文本数据中所发现的疾病、部位、检查等实体映射到知识库中的标准术语词。

image.png 标准化任务是一项非常有挑战性的任务,因为文档中的实体存在着缩写、同义词、词形态变化、错别字等问题, 再者,知识库中的标准术语集规模庞大,医疗知识库不同于传统的知识库WikiData和YAGO,医学领域中术语的信息只有一个实体,没有其他的描述或者属性信息,这对于医学领域的实体链接来说的确是一项巨大的挑战。 例如一个实体为“decreases in hemoglobin”,从MedDRA疾病词库中找到了至少四个候选实体“1.increase in hematocrit 2.changes in hemoglobin 3.haemoglobin decreased 4.decreases in platelets”,正确的应该链接到的标准词其实应该是第3个。

该篇论文的作者为了解决常用的BERT模型体积庞大、所需参数过多等缺点,提出了一种简单有效的神经网络模型,且经过实验之后,发现该模型在与BERT模型的实验结果对比之后并无显著差异,且该模型比BERT小23倍,推理时间少6.4倍。

具体论文内容还是去看论文吧!