机器学习联合抽取开篇之作《End-to-End Relation Extraction using LSTMs on Sequences and Tree S

221 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第5天,点击查看活动详情

机器学习联合抽取开篇之作《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》

论文代码网址:github.com/tticoin/LST…

创新点

  • 基于词序信息和树结构信息在关系抽取任务中可以互补,提出了一种基于双向顺序树(从左到右和从右到左)和双向树结构(自底向上和自顶向下)LSTM-RNNs的新型端到端关系抽取模型,对实体和关系进行联合建模
  • 该论文首次结合依存树和深度学习进行实体和关系的联合抽取,为以后的联合抽取奠定了基础

依存句法分析

image.png

image.png

image.png

模型结构

image.png

存在的问题

  • 忽略了标签之间的长依赖关系。如论文使用的标签标注方式中,B开头的标签后面只能为L,I开头的标签,不能为S,O,B等其他标签,当论文的使用的模型中,并没有对此进行约束,那在最后解析实体内容和实体间关系时就会发生错误
  • 信息冗余,增加了错误率。在模型的序列标注层会标注出句子中所有的实体,然后将实体俩俩组合传入关系抽取层,但并不是所有组合的实体间都存在关系,这就造成的信息冗余;而两个实体间来就不存在关系,那传入到关系抽取层后抽取出的关系也就是错误的,这就增加了错误率。