实体关系抽取-Relational Triple Extraction: One Step is Enough

401 阅读7分钟

2022.5.11 |IJCAI-2022|华中科技大学|2022年SOTA

Relational Triple Extraction: One Step is Enough

==过去的步骤:==

  1. 寻找头尾实体的边界位置(实体识别)
  2. 将特定令牌串联成三元组(关系分类)

存在误差累计问题,每个实体边界识别误差会累积到最终的组合三元组中

==论文中的方法:== 先通过枚举句子中的令牌序列生成候选实体,然后将三元抽取任务转化为"头->尾"二部图上的连接问题。

基础准备

名词解析:

  1. 令牌序列:令牌是自然语言的基础。令牌化是一种将文本分成称为令牌的较小单元的方法。在这里,令牌可以是单词,字符或子单词。因此,标记化可以大致分为3种类型:单词,字符和子词(n-gram字符)标记化。
  2. 重叠模式 EntityPairOverlap(EPO) 一个实体对具有多种关系 SingleEntityOverlap(SEO) 两个三元组共享一个重叠的实体 HeadTailOverlap(HTO) 三元组的头部实体和尾部实体部分或完全重叠

==现有的联合抽取方法:==

  1. 序列标注 :即给定一个输入序列,使用模型对这个序列的每一个位置标注一个相应的标签,是一个序列到序列的过程。(使用各种标记序列来确定实体的开始和结束位置,有时还包括关系)

2020用序列标记来识别句子中的所有实体,然后通过各种网络进行关系检测 2021用一个预测潜在关系的组件,约束到预测的关系子集,而不是所有关系 2022提出双向实体提取框架,考虑头尾和尾头的提取顺序、约束条件

  1. 表格填充 :为一个句子构造一个表,并用对应的正确的标记填充每个表单元格

2019通过关系加权图卷积网络来考虑实体和关系之间的作用 2020三元组抽取转化为令牌对链接问题,引入特定于关系的握手标记方案对其实体对的边界令牌 2021利用一个分区过滤网络,该网络生成任务特殊特征,用于建模实体识别和关系分类之间的交互

  1. 文本生成:将三元组作为令牌序列,病采用编码器-解码器结构来生成像机器翻译一样的三元组元素

2018用复制机制生成两个对应实体所遵循的关系,但只能预测实体的最后一个单词 2020使用多任务学习框架解决多令牌实体问题 2021一种带有生成变压器的对比三元组提取方法解决长期依赖问题 2021设计一个二进制指针网络来提取显式三元组和隐式三元组

==文中的方法:==

例子 暴力方法: 穷举一个句子的令牌序列,结果是肯定会包含正确的实体 因此:看是否存在关系,可以直接识别三元 通过枚举令牌序列生成候选实体 为每个关系设计一个链接矩阵来检测两个候选实体是否可能构成有效的三元组 三元组的提取转化为一个关系特定的二部图链接问题

方法详解

总体架构图

实体:S={w1,w2,...,wL}S =\lbrace {w_1, w_2, ..., w_L} \rbrace 三元组:T={(h,r,t)h,tξ,riR}T =\lbrace {(h, r, t)|h, t ∈ \xi, r_i ∈ R}\rbraceξ\xi为头部和尾部实体 k个预设的关系:R={r1,r2,...,rK}R = \lbrace{r_1, r_2, ..., r_K}\rbrace

1. 候选实体生成

例子: 枚举句子中所有长度小于C(C<L)的连续令牌作为候选实体,若C=2 “Beijing is the capital of China“ E = { “Beijing”, “Beijing is”, “is”, “is the”, “the”, “the Capital”, “Capital”, “Capital of”, “of”, “of China”, “China”}.

ξ=L×C+C2C22(1)|\xi| = L \times C +\frac{C}{2} - \frac{C^2}{2} \tag{1}

缺点:

  1. 负三元组占主导地位,训练偏向负三元组,会降低识别正三元组的能力
  2. 训练句子多,所以训练效率低

解决: 从ξ\xi随机提取nnegn_{neg}否定实体,与所有基本真值实体一起训练模型,新的子集表示为ξ\overline\xi

2. 二部图链接

目的:句子、ξ\overline\xi、作为句子的编码器的BERT ==->== 每个令牌的D维上下文表示 hih_i


[h1,h2,...,hL]=BERT([x1,x2,...,xL])(2)[h_1,h_2,...,h_L] = BERT([x_1,x_2,...,x_L]) \tag{2}

其中的xix_i是第i的令牌的输入表示,是令牌嵌入和位置嵌入的总和


ei=hstart+hend2(3)e_i = \frac{h^{start} + h ^ {end}}{2} \tag{3}

取实体eiξe_i\in\overline\xi,即开始令牌和结束令牌之间的平均向量

为实体通常由多个令牌组成,为了便于并行计算,需要保持不同实体表示的维度一致


有向的“头->尾“二部图 使用一个有向的“头->尾“二部图提取三元组,将投影实体表示为 Ehead=WhTE+bhE_{head}= W_h^TE + b_hEtail=WtTE+btE_{tail}=W_t^TE+b_t

EE是由(3)式计算得出 Wh,WtW_h,W_t是两个project matrices, 从令牌的特征空间D维的头部实体空间到尾部实体空间,都允许模型识别每个实体的头部或尾部角色 b()b_{(·)}是偏差


对于每个关系rkr_k,可以通过预测之间的链接来判断是否是一个有效的实体对儿

Pk=σ(EheadTUkEtail)(4)P^k = \sigma(E_{head}^{T}U_kE_{tail}) \tag{4}

σ\sigma是sigma激活函数 Ukde×deU_k^{d_e \times d_e}是链接矩阵,根据第k个关系的两个实体之间的相关性生成的 如果概率超过某个阈值θ\theta,则(ei,rk,ej)(e_i, r_k, e_j)判定为是正确的 而且实体的跨度在预处理就确定了,解码更容易 即,对于每个关系rkr_k,如果pijk>θp_{ij}^k > \theta,则预测的三元组是(eispan,rk,ejspan)(e_i\cdot span,r_k,e_j \cdot span)


==Directrel的目标函数定义为==

L=1ξ×K×ξ×=i=1ξk=1Kj=1ξ(ytlog(Pijk)+(1yt)log(1Pijk))(5)\mathcal{L} = - \frac{1}{|\overline\xi| \times K \times |\overline\xi|}\times =\sum_{i=1}^{|\overline\xi|} \sum_{k=1}^K \sum_{j=1}^{|\overline\xi|}(y^t\log(P_{ij}^k) + (1-y_t)\log(1-P_{ij}^k)) \tag{5}

实验

数据集

使用了NYT与WebNLG数据集进行实验

NYT:将FreeBase中的相关事件与纽约时报语料库对其,包含56k个训练句子和5k个测试句子 WebNLG:最初为自然语言生成开发,从给定的三元组生成相应的描述,包含5k个训练句子和703个测试句子 NYT*表示只注释实体的最后一个词的版本,NYT注释了整个实体,webNLG同理 采用Precision(Prec.),Recall(Rec.),F1-score(F1)评价性能,只有当头部h,尾部t和关系r是与事实完全一致时视为正确的

Precision=TPTP+FPPrecision = \frac{TP}{TP+FP} ==预测为正确的数据中,真实值为正确的比例。抽取出的三元组准确与否== Recall=TPTP+FNRecall = \frac{TP}{TP+FN} ==在所有的真实值为正确的数据中,有多少能预测正确。抽取出的正确三元组是否全面== F1=2×Precision×RecallPrecision+RecallF1 = \frac {2 \times Precision \times Recall} {Precision + Recall}==F1 得分反映了模型抽取三元组的综合能力==

样本本身预测模型
TP
FP
FN

主要结果: 主要结果 F1得分优于所有其他模型


详细结果: 通过重叠模式和三元数拆分了NYT和WebNLG的测试集结果 通过重叠模式和三元数拆分了NYT和WebNLG的测试集 第一,它有效地缓解了误差积累问题,保证了提取三元组的==精度==。 其次,在每个实体对之间采用特定于关系的链接,保证了三重抽取的==召回性==。


两个子任务上的性能试验对比 在两个子任务上的性能试验对比,选择了PRGC(最先进的三元模型之一,在关系判断和头尾对齐方面很强)


在训练过程中的表现 不同nnegn_{neg}对NYT* 和WebNLG* 的影响。 训练时间(ms)是指训练一个小批处理所需的平均时间 GPU内存(MB)是训练一个Epoch所需的平均GPU内存


WebNLG上的实体错误分类

在WebNLG上的不足之处:跨度分裂错误、未找到实体和实体角色错误。 “跨度分裂误差”所占比例相对较小,证明了在一个有向的“头→尾”二分图上通过链接预测直接提取三元组的有效性。 “实体角色错误”最具挑战性。 其主要原因是在三重提取过程中忽略了实体的上下文信息。

感悟

作者使用了另一角度去解决三元组抽取的难题,从过去的分步抽取到该方法的直接关注抽象出来的方法,从而无需确定实体的开始和结束的位置。 使用nnegn_neg解决了样本中错误样本会影响识别的问题,使用二部图法直接抽取关系