1、二大件
2、概念梳理
- DEE:Document-level Event table filling,文档级别的事件表充填。
- GIT:Entity-based directed acyclic graph,基于实体的有向无环图的路径扩展。
- 提及(mention):实体对象的文本跨度
- 事件角色(event role):对于事件表的预定义字段
- 事件参数(event argument):事件参数是扮演特定事件角色的实体
- 事件记录(event record):一个事件记录对应于事件表的一个条目,并包含几个具有所需角色的参数
3、什么是事件抽取
事件抽取由两个子任务构成:事件检测和事件元素充填
- 事件检测
- 根据设定好的事件类型和事件角色(也可以认为是实体类型),基于触发词,确定事件中是否有对应的事件
- 事件元素充填
- 将文档中抽取出的实体,填充到对应事件角色的栏位中
4、论文整体结构图
该论文继承于Doc2EDAG方案,具体参考juejin.cn/post/684490… 第4节,改进主要有两个方面:
- 文档级特征提取改为图卷积的方式,此处部分为大改
- 生成事件记录过程中Transformer的输入内容重新设计,此处部分为小改
4.1、命名实体识别
作者源代码使用了Bert+CRF,这部分不多做赘述
4.2、文档级实体编码及事件检测(重点部分)
这里通过图网络的方式,将实体和句子有机的结合到了一起,作者设计了四种类型的边来构建网络,对文档内的关键信息进行了有效梳理,此部分也是该事件抽取方案最出彩的创新点,如整体结构图中的中间部分所示,该图网络主要由以下几个部分组成:
- 提及节点(Mention Node),即文档中每出现到一个实体都作为一个节点,该实体出现多次,就会有多个不同节点
- 句子节点(Sentence Node),即文档中每个句子都作为一个节点
- 句子-句子边(Sentence-Sentence Edge),句子和句子之间的边
- 句子-提及边(Sentence-Mention Edge),句子和句子内出现的实体之间的边
- 提及内部边(Intra-Mention-Mention Edge),同一个句子中出现的实体之间的边
- 提及外部边(Intra-Mention-Mention Edge),不同句子中出现的相同实体之间的边
由上面介绍的组成部分可知,异构图网络构建好后需要输入的内容主要为提及向量和句子向量:
- 提及向量,可以看做一个词向量,获取方式是计算该词涉及到的所有字向量的平均值
- 句子向量,对该句涉及到的所有字向量进行平均池化(也可以使用[CLS]token的向量)
4.3、抽取事件记录
作者在这部分提出了一个追踪器(Tracker)方法,整个过程如下图所示,起始于一个虚拟的根节点,然后进行树状扩展,即按照定义好的事件角色的先后顺序,对每一个实体进行一次二分类,判断该实体是否符合目前路径下的角色位置,如果有多个实体符合该角色位置,则对路径进行扩展
具体的实现策略如下面的公式所示,由四部分组成:
- :,从前面公式可以看出就是实体向量和事件角色向量的融合,至于实体向量,则是该文档所有提及到该实体的词向量的融合(就是把所有词向量放到一起坐下池化,该作者使用的是平均池化)
- :只提了是个句子向量,没说是哪部分句子的向量,需要看源码
- :该事件类型下第个事件角色时,事件记录路径目前已确定的实体列表,以上图的第四条路径距为例
- : 这里的应该为,即该事件类型下第事件角色时已预测出的全局路径向量,如上图的Global Memory,获取方式为,把上面的集合送入到LSTM中,再将结果做个融合,之后加上事件类型向量就OK了
将上面四部分整合好后送入transformer中进行特征编码,获得的即为目标向量,对该实体进行二分类,判断其是否符合路径下的该事件角色位置
5、实验那点事
5.1、Loss值的设计
这里不做详解感兴趣的可以去原论文看下,和Doc2EDAG类似,三级任务没每级单独计算一个Loss值,整个算法的Loss值由这个三个Loss值加权组成
5.2、效果验证
相比于Doc2EDAG效果提升了3%左右,如下图所示,EF/ER/EU/EO/EP是测试数据集中五个既定的事件类型,Equity Freeze (EF), Equity Repurchase (ER), Equity Underweight (EU), Equity Overweight (EO) and Equity Pledge (EP)
具体的抽取效果比较如下
6、总结
GIT所提方案可以视作对Doc2EDAG后面两级任务的优化,创造性的引入异构图网络,使文档特征更好的融入了句子和句子、句子和提及、提及和提及之间的关系,此外,追踪器的设计使模型在预测事件记录时能够参考到很多的信息,有效缓解事件角色预测过程中的元素遗漏问题。
但精度提高的同时,我们也需要注意到该方案一样继承了Doc2EDAG的缺点,如显存消耗大等问题