事件抽取：GIT论文梳理1、二大件论文：https://arxiv.org/pdf/2105.14924.pdf gi

1、二大件

论文：arxiv.org/pdf/2105.14…
git源码：github.com/RunxinXu/GI…

2、概念梳理

DEE：Document-level Event table filling，文档级别的事件表充填。
GIT：Entity-based directed acyclic graph，基于实体的有向无环图的路径扩展。
提及（mention）：实体对象的文本跨度
事件角色（event role）：对于事件表的预定义字段
事件参数（event argument）：事件参数是扮演特定事件角色的实体
事件记录（event record）：一个事件记录对应于事件表的一个条目，并包含几个具有所需角色的参数

3、什么是事件抽取

事件抽取由两个子任务构成：事件检测和事件元素充填

事件检测
- 根据设定好的事件类型和事件角色（也可以认为是实体类型），基于触发词，确定事件中是否有对应的事件
事件元素充填
- 将文档中抽取出的实体，填充到对应事件角色的栏位中

4、论文整体结构图

该论文继承于Doc2EDAG方案，具体参考juejin.cn/post/684490… 第4节,改进主要有两个方面：

文档级特征提取改为图卷积的方式，此处部分为大改
生成事件记录过程中Transformer的输入内容重新设计，此处部分为小改

4.1、命名实体识别

作者源代码使用了Bert+CRF，这部分不多做赘述

4.2、文档级实体编码及事件检测（重点部分）

这里通过图网络的方式，将实体和句子有机的结合到了一起，作者设计了四种类型的边来构建网络，对文档内的关键信息进行了有效梳理，此部分也是该事件抽取方案最出彩的创新点，如整体结构图中的中间部分所示，该图网络主要由以下几个部分组成：

提及节点（Mention Node），即文档中每出现到一个实体都作为一个节点，该实体出现多次，就会有多个不同节点
句子节点（Sentence Node），即文档中每个句子都作为一个节点
句子-句子边（Sentence-Sentence Edge），句子和句子之间的边
句子-提及边（Sentence-Mention Edge），句子和句子内出现的实体之间的边
提及内部边（Intra-Mention-Mention Edge），同一个句子中出现的实体之间的边
提及外部边（Intra-Mention-Mention Edge），不同句子中出现的相同实体之间的边

由上面介绍的组成部分可知，异构图网络构建好后需要输入的内容主要为提及向量和句子向量：

提及向量，可以看做一个词向量，获取方式是计算该词涉及到的所有字向量的平均值
句子向量，对该句涉及到的所有字向量进行平均池化（也可以使用[CLS]token的向量）

4.3、抽取事件记录

作者在这部分提出了一个追踪器（Tracker）方法，整个过程如下图所示,起始于一个虚拟的根节点，然后进行树状扩展，即按照定义好的事件角色的先后顺序，对每一个实体进行一次二分类，判断该实体是否符合目前路径下的角色位置，如果有多个实体符合该角色位置，则对路径进行扩展

具体的实现策略如下面的公式所示，由四部分组成：

$\overline E$ ： $\overline E = E + Role_j$ ,从前面公式可以看出 $\overline E$ 就是实体向量 $E$ 和事件角色向量 $Role_j$ 的融合，至于实体向量 $E$ ，则是该文档所有提及到该实体的词向量的融合（就是把所有词向量放到一起坐下池化，该作者使用的是平均池化）
$S$ ：只提了是个句子向量，没说是哪部分句子的向量，需要看源码
$U_i$ ：该事件类型下第 $i$ 个事件角色时，事件记录路径目前已确定的实体列表，以上图的第四条路径距为例 $U_i=[E_A,E_B]$
$G$ : 这里的 $G$ 应该为 $G_i$ ，即该事件类型下第 $i$ 事件角色时已预测出的全局路径向量，如上图的Global Memory，获取方式为，把上面 $U_i$ 的集合送入到LSTM中，再将结果做个融合，之后加上事件类型向量就OK了

将上面四部分整合好后送入transformer中进行特征编码，获得的 $\tilde{E}$ 即为目标向量，对该实体进行二分类，判断其是否符合 $U_i$ 路径下的该事件角色位置

5、实验那点事

5.1、Loss值的设计

这里不做详解感兴趣的可以去原论文看下，和Doc2EDAG类似，三级任务没每级单独计算一个Loss值，整个算法的Loss值由这个三个Loss值加权组成

5.2、效果验证

相比于Doc2EDAG效果提升了3%左右，如下图所示，EF/ER/EU/EO/EP是测试数据集中五个既定的事件类型，Equity Freeze (EF), Equity Repurchase (ER), Equity Underweight (EU), Equity Overweight (EO) and Equity Pledge (EP)

具体的抽取效果比较如下

6、总结

GIT所提方案可以视作对Doc2EDAG后面两级任务的优化，创造性的引入异构图网络，使文档特征更好的融入了句子和句子、句子和提及、提及和提及之间的关系，此外，追踪器的设计使模型在预测事件记录时能够参考到很多的信息，有效缓解事件角色预测过程中的元素遗漏问题。

但精度提高的同时，我们也需要注意到该方案一样继承了Doc2EDAG的缺点，如显存消耗大等问题

事件抽取：GIT论文梳理