用于文档级关系提取的全局到局部神经网络

104 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。 首先欧拉筛的代码

0 摘要

本文通过根据实体全局和局部表示以及上下文关系表示对文档信息进行编码。 实体全局表示对文档中所有实体的语义信息进行建模,实体局部表示聚合特定实体的多次提及的上下文信息,上下文关系表示对其他关系的主题信息进行编码。

1 介绍

贡献:

• 新的模型GLRE,综合了实体全局表示、实体局部表示和上下文关系表示。

• 它在提取长距离实体和多次提及的实体之间的关系时特别有效。

解决了以下三个挑战: 1.对文档的复杂语义进行建模:我们使用 BERT 来捕获语义特征和常识性知识,并使用启发式规则构建异构图来建模所有提及、实体和文档中的句子。 2.有效地学习实体表示:我们设计了一个全局到局部的神经网络来编码实体的粗粒度和细粒度语义信息。具体来说,我们通过在创建的异构图上使用 R-GCN (Schlichtkrull et al., 2018) 来学习实体全局表示,并通过聚合具有多头注意力的特定实体的多次提及来学习实体局部表示 (Vaswani et al., 2017)。 3.利用其他关系的影响:除了目标关系表示之外,其他关系还暗示了文档的主题信息。我们通过自注意力学习上下文关系表示(Sorokin 和 Gurevych,2017),以进行最终的关系预测。

3 模型

image.png

3.1 Encoding Layer

image.png

3.2 Global Representation Layer

基于 H,我们构建了一个全局异构图,具有不同类型的节点和边来捕获不同的依赖关系(例如,共现依赖关系、共指依赖关系和顺序依赖关系),受 Christopoulou 等人的启发。 (2019)。 具体来说,有三种类型的节点:

提及节点,它对 D 中实体的不同提及进行建模。提及节点 mi 的表示是通过对包含的单词的表示进行平均来定义的。 为了区分节点类型,我们连接了一个节点类型表示。 因此,mi 的表示是其中“ [ ; ]”是连接运算符。

实体节点,表示 D 中的实体。实体节点 ei 的表示是通过平均它们所指的提及节点的表示以及节点类型表示 来定义的。 因此,ei 的表示为。

句子节点,对 D 中的句子进行编码。与提及节点类似,句子节点 si 的表示形式化为,其中 ts ∈ Rdt。

然后,我们定义了五种类型的边来模拟节点之间的交互: