论文笔记:Supporting Employer Name Normalization at both Entity and Cluster Level

455 阅读3分钟

导语

本文是上一篇论文CompanyDepot系统的后续工作,作者考虑了机构之间的聚类情形。

1 简介

这篇论文中,作者又提出了一个新的问题叫做Cluster level的机构归一化。而这篇文章中的entity level的机构归一化就是之前的任务。

Entity-level问题定义

实体E ={𝑒_1、𝑒_2……𝑒_𝑘}。 机构名称和关联的位置上下文用Q ={𝑞_1,𝑞_2,......𝑞_𝑐}表示,其中𝑞_ =(𝑛_,𝑙_)是雇主名称和关联的位置对。其中𝑙_𝑖=(𝐶𝑖𝑡_𝑖,𝑆𝑡𝑎𝑡_𝑖,𝐶𝑜𝑢𝑛𝑡𝑟_𝑖),可以为空。

这个问题可以概括为推断一个映射函数𝒇_𝑬(𝒒)⇒𝒆,其中q∈𝑄而且e\inE{NIL}e\inE\cup\{NIL\}

Cluster-level问题定义

聚类函数𝑪(𝒆)⇒<e:1>,其中eE,rREe \in E, r\in R \subset E,R是所有聚类代表实体的集合(每个聚类代表实体对应一个聚类),R是e所属聚类的代表实体。 聚类级别的归一化是推断一个映射函数𝒇_𝑪(𝒒)⇒<e:1>,其中q∈𝑄而且rR{NIL}r\in R \cup\{NIL\}

image.png

image.png

这里举个例子,比如Walmart 和 wormart pharmacy在实体层面是两个实体,但这属于子公司和总集团的关系。在聚类时,相同集团下的子公司要被划分到一起,然后再选择一个名称来代表这个cluster。

2 CompanyDepot V2系统

整个系统仍由4部分组成:

image.png

在构建搜索引擎方面,v2采用了5个mapping来源,构建了基本的知识库index、mapping index和cluster index三个搜索引擎。在检索阶段,使用了一种叫做query-expansion的技术。首先在mapping index里搜索,然后基于初步搜索结果再从KB index里进行搜索。这里的搜索步骤的规则相对v1系统也复杂了一些。

image.png

同样,第三步是重排序步骤。这里新增加了url的特征。最后一步是进行验证和之前一样。

在cluster-level上,首先从5个mapping源中构建各个实体之间的关系,如果这条关系在一个mapping源中出现,那么边权重就为1,在两个mapping来源中出现边权重就为2,一次类推。

image.png

构建好无向图后,对低质量的边进行删除,比如这里设置阈值为1,小于等于1的边将被删除。

image.png

然后,寻找这个图中的连通分量作为一个cluster,

image.png

最后,通过某些规则这这些类中选择一个实体名称来代表这个cluster

image.png

选取代表实体后,对这些聚类进行校正。

3 实验与评估

在cluster-level,新增了Success Rate(SR)作为cluster level的预测准确率;

DRR作为衡量聚类效果的一个指标,其计算是通过以下公式实现。聚类约少,DRR越大。

image.png

F-score作为二者的一个综合度量指标。

实验结果如下图所示:

image.png

image.png

image.png

最后,我对比了一下v1和v2两版系统搜索时的差异,可以看到v2设计的更加复杂,同时取得了更好的效果:

image.png