持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第5天,点击查看活动详情
机器学习联合抽取开篇之作《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》
论文代码网址:github.com/tticoin/LST…
创新点
- 基于词序信息和树结构信息在关系抽取任务中可以互补,提出了一种基于双向顺序树(从左到右和从右到左)和双向树结构(自底向上和自顶向下)LSTM-RNNs的新型端到端关系抽取模型,对实体和关系进行联合建模
- 该论文首次结合依存树和深度学习进行实体和关系的联合抽取,为以后的联合抽取奠定了基础
依存句法分析
- 依存句法分析可以帮助理解文本含义
- 进行依存句法分析的工具有HanLP:www.hanlp.com/index.html
模型结构
存在的问题
- 忽略了标签之间的长依赖关系。如论文使用的标签标注方式中,B开头的标签后面只能为L,I开头的标签,不能为S,O,B等其他标签,当论文的使用的模型中,并没有对此进行约束,那在最后解析实体内容和实体间关系时就会发生错误
- 信息冗余,增加了错误率。在模型的序列标注层会标注出句子中所有的实体,然后将实体俩俩组合传入关系抽取层,但并不是所有组合的实体间都存在关系,这就造成的信息冗余;而两个实体间来就不存在关系,那传入到关系抽取层后抽取出的关系也就是错误的,这就增加了错误率。