导语
本文介绍了早期的一种学术机构命名实体归一化系统sCool,确立了这类任务“检索+分类”的二阶段pipeline流程。
- 会议:CTS 2014
- 链接:ieeexplore.ieee.org/document/68…
1 简介
国际数据公司(IDC)预测,数字宇宙的大小将从2005年的130EB(1018字节)增加到2017年的16ZB(1021字节)。为了促进更好和更准确的最终用户体验,需要将命名实体识别(NER)和命名实体规范化(NEN)等任务应用于内容,以检测和解析对实体的类似引用。NER是指从文本中识别感兴趣的实体(称为表面形式),NEN是指将这些表面形式与实体相关联。已经有一些尝试使用基于规则的方法和机器学习方法在许多领域应用NER和NEN。
本文提出学术机构NER和NEN(以下简称规范化)系统scool。学术机构实体繁杂多样,极易混淆。例如,布拉德福德学院有三所:1)布拉德福德学院(美国),2)布拉德福德学院(英国)和3)布拉德福德学院(澳大利亚)。因此,sCool系统旨在解决这个问题。
2 相关工作
略
3 学术机构命名实体归一化的挑战
作者认为,对于学术机构命名实体归一化任务,主要有以下几个方面的挑战:
- Equal or almost equal name of a known institution:如Salford College 指的是 Salford City College (U.K.) 并非 Salford College (Australia).
- Other name(s) of a known institution:如University of Central England in Birmingham 是 Birmingham City University的一个旧称;MIT是Massachusetts Institute of Technology的一个知名缩写。
- 不相关的输入信息:如PDF解析或者OCR过程中产生的其他字符错误,或者其他对于该任务没用用的信息。
4 sCool系统
sCool系统由两个主要部分组成。第一个是数据库的初始化,这个只需要做一次。然后就是机构名称的归一化。
4.1 初始化
初始化阶段包括三个步骤。
第一是创建名称之间的mapping,所谓mapping就是一个原始名称到一个归一化标准名称的映射。比如下面的这个例子,把一串非标准的机构名称映射到归一化的标准名称上就叫做一个mapping。这个非标准的名字称为Affiliation Name或Original Name,标准名称称为Normalized Name。 在创建mapping时,sCool有两个mapping来源分别是wikipedia和他自己的系统里手工记录的mapping。
拿到这些mapping之后,sCool会对这些mapping进行合并。合并的策略如表格所示。 假设A1, N1这个mapping来自Wikipedia,A2,N2这个mapping来自于它原先系统的mapping。
- 如果A1=A2,N1=N2就说明这条mapping记录在两个mapping来源中都出现过,那我们就去重只保留一项。
- 如果A1不等于A2,N1=N2,那么说明同一个标准机构名称在两个mapping来源中原始名不同,我们都保存这个数据。
- 如果A1等于A2,N1不等于N2,那么说明存在冲突,一条原始机构名在不同的mapping来源中被映射到了不同的机构,则通过一些算法只选择保留一个。
4.2 归一化
完成初始化后,就是归一化的过程。首先是移除高中的数据(因为他面向的数据集中存在一些非高校学术机构)。然后进行搜索,这里是基于Lucene。Lucene是一个基于Java的搜索引擎。这里它是把每个mapping作为一个document,跟我们现在的很相似。在一条数据输入时,Lucene返回Top N结果。 最后一步,sCool对结果进行一个完善。论文中说该系统提供了8种算法,用户可以自己自由组合这些算法得出最后得分以适应不同的场景和数据。它的最终返回各个机构的分数在0到1之间。 最后,如果A1不等于A2,N1不等于N2,那么也是两条合理的mapping,不存在冲突,两条数据都保留。
5 实验
实验结果如下:
6 总结
论文的结论是相比它之前系统的人工mapping快很多。然后后续的一些改进方向。
- 首先是收集记录下用户提交的query和返回的结果用于扩充KB,
- 增添更多的mapping来源。
- 提高分类精度到学院级别。
- 推广到其他领域。