知识图谱融合与图神经网络技术创新

31 阅读6分钟

知识图谱融合:快速而准确的方法

新型交叉图注意力和自注意力机制实现了最先进的性能。

会议:2020年网络大会

相关出版物:集体知识图谱多类型实体对齐

知识图谱与实体对齐挑战

知识图谱是一种表示信息的方式,比传统数据库更容易捕捉复杂关系。在某中心,我们使用知识图谱来表示某电商网站上产品类型之间的层次关系;某音乐和视频平台上创作者与内容之间的关系;以及智能助手问答服务的通用信息等。

扩展知识图谱通常涉及将其与另一个知识图谱集成。但不同的图谱可能对相同实体使用不同的术语,这可能导致集成过程中的错误和不一致。因此需要自动化的实体对齐技术,即确定不同图谱中哪些元素指向相同的实体。

在一篇被网络大会接受的论文中,我和同事描述了一种新的实体对齐技术,该技术考虑了实体名称周围图结构的信息。在涉及两个电影数据库集成的测试中,我们的系统在精确召回曲线下面积(PRAUC)指标上比十个基线系统中表现最好的系统提高了10%,该指标评估了真阳性率和真阴性率之间的权衡。

尽管我们系统的性能有所提高,但它仍然保持高度的计算效率。我们用于比较的基线系统之一是基于神经网络的DeepMatcher系统,该系统专门为可扩展性而设计。在涉及电影数据库和音乐数据库的两项任务中,我们的系统相比DeepMatcher将训练时间减少了95%,同时在PRAUC方面提供了巨大改进。

技术实现与方法创新

为了实现我们的模型,我们使用了一个名为DGL(深度图库)的新开源工具,该工具由某机构云服务部门的研究人员开发。

图是一种数学对象,由节点(通常描绘为圆圈)和边(通常描绘为连接圆圈的线段)组成。网络图、组织架构图和流程图是图的常见例子。

我们的工作专门解决了合并多类型知识图谱的问题,即节点代表多种类型实体的知识图谱。例如,在我们处理的电影数据集中,一个节点可能代表演员、导演、电影、电影类型等。边代表实体之间的关系——出演、导演、编剧等。

我们的系统是图神经网络的一个例子,这是一种最近在图相关任务中变得流行的神经网络类型。为了了解它的工作原理,考虑上面提到的示例,其中包含我们称为代表某演员的节点的"邻域"。这是一个两跳局部图,意味着它包含连接到该演员的节点(一跳)和连接到这些节点的节点(两跳),但它不会通过知识图谱进一步扩展。

图神经网络的工作原理

使用标准图神经网络(GNN),第一步(称为0级步骤)是嵌入每个节点,或将其转换为固定长度的向量表示。该表示旨在捕获对网络任务(在这种情况下是实体对齐)有用的节点属性信息,并在网络训练期间学习。

接下来,在1级步骤中,网络考虑中心节点(此处为某演员)和距离它一跳的节点(某电影A和某电影B)。对于每个这些节点,它产生一个新的嵌入,该嵌入由节点的0级嵌入与其直接邻居的0级嵌入之和连接组成。

在2级步骤——两跳网络中的最后一步——网络为中心节点产生一个新的嵌入,该嵌入由该节点的1级嵌入与其直接邻居的1级嵌入之和连接组成。

在我们的示例中,这个过程将来自某数据库的整个六节点邻域图压缩为单个向量。它会对来自另一数据库的十节点邻域图执行相同的操作,比较这些向量是网络决定图中心实体——某演员和某演员别名——是否相同的基础。

创新机制:交叉图注意力与自注意力

这是实体对齐问题的GNN标准实现。不幸的是,在我们的实验中,它表现很差。因此我们做了两个重要修改。

第一个是交叉图注意力机制。在1级和2级聚合阶段,当网络对每个节点的邻居嵌入求和时,它基于与另一个图的比较来加权这些和。

在我们的示例中,这意味着在1级和2级聚合期间,同时出现在两个数据库图中的节点(某电影A和某电影B)将比仅出现在一个数据库图中的节点(某电影C和某电影D)获得更大的权重。

交叉图注意力机制因此强调了图之间的对应关系并淡化了差异。毕竟,图之间的差异正是首先结合它们信息的有用之处。

然而,这种方法有一个主要问题:有时图之间的差异比它们的对应关系更重要。考虑比较某歌曲的两个不同版本的示例:原始专辑版本和与某说唱歌手合作的混音版本。

在这里,交叉图注意力机制可能过度加权两个轨道之间的许多相似性,而低估关键差异:主要表演者。因此我们的网络还包括一个自注意力机制。

在训练期间,自注意力机制学习实体的哪些属性对于将其与看起来相似的实体区分开来最重要。在这种情况下,它会学习到许多不同的录音可能共享相同的词曲作者;区分它们的是表演者。

计算效率优化

这两个修改是我们模型与比较的十个基线相比性能提高的主要原因。最后,简要评论一下我们用于提高模型计算效率的几种技术之一。尽管为了实体对齐的目的,我们比较两跳邻域,但我们不一定包括给定实体的整个两跳邻域。

我们对邻域中包含的节点数量设置了上限,并且为了选择要包含的节点,我们使用加权抽样。样本权重与共享与感兴趣节点相同关系的邻居节点数量呈反比关系。

因此,例如,一部电影可能有数十个演员但只有一个导演。在这种情况下,我们的方法将有更高的机会将导演节点包含在我们的抽样邻域中,而不是任何给定的演员节点。以这种方式限制邻域大小可以防止我们方法的计算复杂性失控。