Entity linking functionality in spaCy: Grounding textual mentions to knowledge base concepts
Sofie Van Landeghem
Freelancer ML and NLP @ OxyKodit
实体链接
文本 -> 文档(Doc)-> NLP管道 (nlp)
当前的spaCy NLP管道完全基于文本信息本身进行处理: ● 将输入文本标记化为词语和句子 ● 解析句法和语法 ● 识别有意义的实体及其类型 ● ...
但是,如何将这些信息“锚定”到“现实世界”(或其近似表示——一个知识库)中呢?
实体链接示例
在这段文本中,所有这些“Byron”究竟指的是谁?
任务的复杂性
同义词 ● Augusta Byron = Ada Byron = Countess of Lovelace = Ada Lovelace = Ada King
一词多义 ● 曾有4位不同的男爵都名为“George Byron” ● “George Byron”是一位美国歌手 ● “George Byron Lyon-Fellowes”曾是渥太华市市长(1876年) ● ...
指代模糊 ● 例如:“The president”
上下文决定一切!
更多示例
Johny Carson:指的是美国脱口秀主持人,还是美式足球运动员? Russ Cochran:指的是美国高尔夫球手,还是出版商? Rose:指的是英国足球运动员,还是电视剧《神秘博士》中的角色?