机器学习联合抽取开篇之作《End-to-End Relation Extraction using LSTMs on Sequences and Tree S

2022-10-05 232 阅读2分钟

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第5天，点击查看活动详情

机器学习联合抽取开篇之作《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》

论文代码网址：github.com/tticoin/LST…

创新点

基于词序信息和树结构信息在关系抽取任务中可以互补，提出了一种基于双向顺序树(从左到右和从右到左)和双向树结构(自底向上和自顶向下)LSTM-RNNs的新型端到端关系抽取模型，对实体和关系进行联合建模
该论文首次结合依存树和深度学习进行实体和关系的联合抽取，为以后的联合抽取奠定了基础

依存句法分析

依存句法分析可以帮助理解文本含义
进行依存句法分析的工具有HanLP：www.hanlp.com/index.html

模型结构

存在的问题

忽略了标签之间的长依赖关系。如论文使用的标签标注方式中，B开头的标签后面只能为L，I开头的标签，不能为S,O,B等其他标签，当论文的使用的模型中，并没有对此进行约束，那在最后解析实体内容和实体间关系时就会发生错误
信息冗余，增加了错误率。在模型的序列标注层会标注出句子中所有的实体，然后将实体俩俩组合传入关系抽取层，但并不是所有组合的实体间都存在关系，这就造成的信息冗余；而两个实体间来就不存在关系，那传入到关系抽取层后抽取出的关系也就是错误的，这就增加了错误率。