Packed Levitated Marker for Entity and Relation Extraction
Tsinghua University|ACL 2022|2022.4.21|原文链接|源码链接
文章针对于在过去的研究中,忽略了跨三元组对的关系,由此提出了新的span表征方法:==打包悬浮标记法(PL-Marker)==,通过在编码器中打包标记考虑span问题,并由此衍生了==面向邻域的填充策略==和==面向主体的打包策略==,最后将ACE04和ACE05两个数据集作为评判标准。
前期准备
针对于命名实体识别和关系抽取中的span的表征进行改进,过去使用的三种span表示:
-
T-Concat:用span的start和end token的表征拼接起来作为span的表征
-
Solid Marker:在span前后显式的插入两个实心标记,但是不能同时处理多个span对的情况,也不能处理overlapping span的情况
-
Levitated Marker:悬浮标记先设置一对levitated markers,使其与span的边界token共享相同位置,然后用定向注意力将一对levitated marker联系起来。由此,levitated marker中的两个marker在注意力掩码矩阵中相互可见,但是对text token和其他levitated marker的marker是不可见。因此失去了模型的性能。
-
Packed Levitated Marker:结合了固体标记和悬浮标记,用实心强调主语的span,用悬浮标记包装所有的候选客体span,此外,面向对象的打包策略应用于完整的双向建模
Packed Levitated Marker的体系结构
首先介绍悬浮标记的体系结构,然后解释如何包装的悬浮标记疑惑度span表示和span对表示
Background:Levitated Marker
允许模型对多对实体进行分类加速推理过程,对于一对levitated marker包括开始单词的marker和结束单词的marker,表示出span。拼接在句子后面的levitated marker对中的start marker和start token共享位置,end marker和end token共享位置,通过对levitated marker矩阵的限制,使其对内之间可以相互看到,而不同对的levitated marker不能看到,文本只能看到文本。
NER/RE
Neighborhood-oriented Packing for Span(NER)
因为levitated可以并行化处理,将span打包成一个训练实例,将所有可能得实体span的levitated markers都放在句子的后面,但因为预训练语言模型处理句子的长度有限,所以无法遍历所有有可能的span,由此提出打包策略。
如上图,首先对所有levitated markers对进行==排序==,先按start token的位置升序然后在对end token的位置升序排序,最后得到候选span列表。然后==等分k组==,将相邻的span聚集到同一组中。生成k个训练实例。
-
对于==token为N==的句子
-
最大span的==长度==为
-
候选的span集合
-
将分成k组,==聚类k个span==,如
-
样本送入预训练语言模型中,对于每一对儿levitated markers,分别将他们的==开始标记表征==和==结束标记表征==拼接一起,作为
对于上图Bank of China + China就是一个典型的重叠span的命名实体识别任务,为每个可能得span分配一个实体类型或者非实体类型,通过上述步骤获取span表征,然后与T-Concat方法抽取的表征合并起来预测相关的实体类型。
Subject-oritented Packing for Span Pair(RE)
为了获得span pair的表示,可以采用levitated markers同时强调subject span和object span,但他们通常由定向注意力绑定的,由此levitated markers不能识别属于同一个span的另一个marker,所以采用了融合打包策略为属于同一个subject的span提供整体的建模。
对于一个句子X,以及它的subject span:和它的候选obeject spans:构成一条训练样本,其中subject span采用solid markers,对应的obeject span用levitated markers的方式拼接在文本的后面。
由符号链接的标记共享相同的嵌入位置,在上应用一个预训练的编码器,得到和的span表示:
其中表拼接,和表示插入的solid markers对于来说的表征;和表示插入levitated markers对于的表征。
相比于subject和object分别使用两对的solid marker的方法,融合标记方案在object span上用levitated markers代替solid marker,==一定程度上削弱了对Object span的影响程度==。为了增加补充信息,新增了object到subject的反向关系的预测,从而实现了双向预测,实则就是==实现了Object-oriented packing strategy==,没有inversion relation的有0.9%-1.1%的性能下降。==体现出了object和subject之间信息的重要性==
Complexity Analysis
因为levitated markers的插入极大的延长了输入序列的长度,由于自注意模块,计算会二次膨胀,超出了预训练语言模型的限制。但对于Span pair分类任务的候选span数量是相对较小的所以增加的数量有限。由此,将markers分成几个批次,可以将序列长度控制在线性增长的区间内。
Experiment
在NER上的效果
在RE上的效果
推理速度
总结
作者认为PURE方法在训练阶段处理不同的span pairs时,会在句子中独立的插入不同的typed markers,从而忽略了span pairs和spans之间的内在联系。因此提出了Packed Levitated Marker (PL-Marker),设计“打包策略”来建模span pairs或spans之间内在联系。在NER阶段,设计面向邻居的打包策略(neighborhood-oriented packing strategy)将拥有相同start token的多个span同时打包放入同一个训练实例中,以此来建模spans之间的内在联系,从而获得了优异的效果。