Packed Levitated Marker for Entity and Relation Extraction

Tsinghua University|ACL 2022|2022.4.21|原文链接|源码链接

文章针对于在过去的研究中，忽略了跨三元组对的关系，由此提出了新的span表征方法：==打包悬浮标记法(PL-Marker)==，通过在编码器中打包标记考虑span问题，并由此衍生了==面向邻域的填充策略==和==面向主体的打包策略==，最后将ACE04和ACE05两个数据集作为评判标准。

前期准备

针对于命名实体识别和关系抽取中的span的表征进行改进，过去使用的三种span表示：

T-Concat：用span的start和end token的表征拼接起来作为span的表征
Solid Marker：在span前后显式的插入两个实心标记，但是不能同时处理多个span对的情况，也不能处理overlapping span的情况
Levitated Marker：悬浮标记先设置一对levitated markers，使其与span的边界token共享相同位置，然后用定向注意力将一对levitated marker联系起来。由此，levitated marker中的两个marker在注意力掩码矩阵中相互可见，但是对text token和其他levitated marker的marker是不可见。因此失去了模型的性能。
Packed Levitated Marker：结合了固体标记和悬浮标记，用实心强调主语的span，用悬浮标记包装所有的候选客体span，此外，面向对象的打包策略应用于完整的双向建模

Packed Levitated Marker的体系结构

首先介绍悬浮标记的体系结构，然后解释如何包装的悬浮标记疑惑度span表示和span对表示

Background：Levitated Marker

允许模型对多对实体进行分类加速推理过程，对于一对levitated marker包括开始单词的marker和结束单词的marker，表示出span。拼接在句子后面的levitated marker对中的start marker和start token共享位置，end marker和end token共享位置，通过对levitated marker矩阵的限制，使其对内之间可以相互看到，而不同对的levitated marker不能看到，文本只能看到文本。

NER/RE

Neighborhood-oriented Packing for Span（NER）

因为levitated可以并行化处理，将span打包成一个训练实例，将所有可能得实体span的levitated markers都放在句子的后面，但因为预训练语言模型处理句子的长度有限，所以无法遍历所有有可能的span，由此提出打包策略。

如上图，首先对所有levitated markers对进行==排序==，先按start token的位置升序然后在对end token的位置升序排序，最后得到候选span列表。然后==等分k组==，将相邻的span聚集到同一组中。生成k个训练实例。

对于==token为N==的句子 $X = \{ x_1, \dots, x_N \}$
最大span的==长度==为 $L$
候选的span集合 $S（x）= \{ (1,1),\dots,(1,L),\dots,(N,N-L),\dots,(N,N) \}$
将 $S(x)$ 分成k组，==聚类k个span==，如 $S_1 = \{ (1,1),(1,2),\dots,([\frac {K} {L}],K - [\frac {K-1} {L})] * L \}$
样本送入预训练语言模型中，对于每一对儿levitated markers，分别将他们的==开始标记表征==和==结束标记表征==拼接一起，作为 $\psi(s_i) = [h_a^{ (s) } ; h_b^{ (e) }]$

对于上图Bank of China + China就是一个典型的重叠span的命名实体识别任务，为每个可能得span分配一个实体类型或者非实体类型，通过上述步骤获取span表征，然后与T-Concat方法抽取的表征合并起来预测相关的实体类型。

Subject-oritented Packing for Span Pair(RE)

为了获得span pair的表示，可以采用levitated markers同时强调subject span和object span，但他们通常由定向注意力绑定的，由此levitated markers不能识别属于同一个span的另一个marker，所以采用了融合打包策略为属于同一个subject的span提供整体的建模。

对于一个句子X，以及它的subject span： $s_i = (a,b)$ 和它的候选obeject spans： $\{ (c_1, d_1),(c_2,d_2),\dots,(c_m, d_m) \}$ 构成一条训练样本，其中subject span采用solid markers，对应的obeject span用levitated markers的方式拼接在文本的后面。

$\hat{X} = \dots[S], x_a, \dots, x_b, [/S], \dots, x_{c_1} \cup [O1], \dots x_{d_1} \cup [/O1], \dots, x_{c_2} \cup [O2], \dots, x_{d_2} \cup [/O2]\dots$

由符号 $\cup$ 链接的标记共享相同的嵌入位置，在上应用一个预训练的编码器，得到 $s_i = (a, b)$ 和 $s_j = (c, d)$ 的span表示：

$\phi(s_i, s_j) = [h_{a - 1}; h_{b + 1}; h_c^{ (s) }; h_d^{ (e) }]$

其中 $;$ 表拼接， $h_{a - 1}$ 和 $h_{b + 1}$ 表示插入的solid markers对于 $s_i$ 来说的表征； $h_c^{ (s) }$ 和 $h_d^{ (e) }$ 表示插入levitated markers对于 $s_j$ 的表征。

相比于subject和object分别使用两对的solid marker的方法，融合标记方案在object span上用levitated markers代替solid marker，==一定程度上削弱了对Object span的影响程度==。为了增加补充信息，新增了object到subject的反向关系的预测，从而实现了双向预测，实则就是==实现了Object-oriented packing strategy==，没有inversion relation的有0.9%-1.1%的性能下降。==体现出了object和subject之间信息的重要性==

Complexity Analysis

因为levitated markers的插入极大的延长了输入序列的长度，由于自注意模块，计算会二次膨胀，超出了预训练语言模型的限制。但对于Span pair分类任务的候选span数量是相对较小的所以增加的数量有限。由此，将markers分成几个批次，可以将序列长度控制在线性增长的区间内。

Experiment

在NER上的效果

在RE上的效果

推理速度

总结

作者认为PURE方法在训练阶段处理不同的span pairs时，会在句子中独立的插入不同的typed markers，从而忽略了span pairs和spans之间的内在联系。因此提出了Packed Levitated Marker (PL-Marker)，设计“打包策略”来建模span pairs或spans之间内在联系。在NER阶段，设计面向邻居的打包策略（neighborhood-oriented packing strategy）将拥有相同start token的多个span同时打包放入同一个训练实例中，以此来建模spans之间的内在联系，从而获得了优异的效果。

实体关系抽取-Packed Levitated Marker for Entity and Relation Extraction