导语

本文是上一篇论文CompanyDepot系统的后续工作，作者考虑了机构之间的聚类情形。

会议：KDD 2017
链接：dl.acm.org/doi/10.1145…

1 简介

这篇论文中，作者又提出了一个新的问题叫做Cluster level的机构归一化。而这篇文章中的entity level的机构归一化就是之前的任务。

Entity-level问题定义

实体E ={𝑒_1、𝑒_2……𝑒_𝑘}。机构名称和关联的位置上下文用Q ={𝑞_1，𝑞_2，......𝑞_𝑐}表示，其中𝑞_ =(𝑛_，𝑙_)是雇主名称和关联的位置对。其中𝑙_𝑖=(𝐶𝑖𝑡_𝑖,𝑆𝑡𝑎𝑡_𝑖,𝐶𝑜𝑢𝑛𝑡𝑟_𝑖),可以为空。

这个问题可以概括为推断一个映射函数𝒇_𝑬(𝒒)⇒𝒆，其中q∈𝑄而且 $e\inE\cup\{NIL\}$ 。

Cluster-level问题定义

聚类函数𝑪(𝒆)⇒<e:1>，其中 $e \in E, r\in R \subset E$ ，R是所有聚类代表实体的集合(每个聚类代表实体对应一个聚类)，R是e所属聚类的代表实体。聚类级别的归一化是推断一个映射函数𝒇_𝑪(𝒒)⇒<e:1>，其中q∈𝑄而且 $r\in R \cup\{NIL\}$

这里举个例子，比如Walmart 和 wormart pharmacy在实体层面是两个实体，但这属于子公司和总集团的关系。在聚类时，相同集团下的子公司要被划分到一起，然后再选择一个名称来代表这个cluster。

2 CompanyDepot V2系统

整个系统仍由4部分组成：

在构建搜索引擎方面，v2采用了5个mapping来源，构建了基本的知识库index、mapping index和cluster index三个搜索引擎。在检索阶段，使用了一种叫做query-expansion的技术。首先在mapping index里搜索，然后基于初步搜索结果再从KB index里进行搜索。这里的搜索步骤的规则相对v1系统也复杂了一些。