小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。
一、论文基本信息
(一)论文标题
Teaching Machines To Read And Comprehend 指导机器阅读理解
(二)论文作者
Karl Moritz Hermann
(三)发表年份
2015
(四)论文摘要(翻译)
摘要:指导机器阅读自然语言文档仍然是一个难以捉摸的挑战(背景)。机器阅读系统可以测试其回答他们所看到的文档内容问题的能力,但直到现在,这种类型的评估还缺少大规模的培训和测试数据集(问题)。在这项工作中,我们定义了一种新的方法来解决这个瓶颈,并提供大规模的有监督的阅读理解数据。这使我们能够开发一类于注意力的深层神经网络,学习阅读真实的文档和回答复杂的问题,而对语言结构的先验知识最少。
二、论文研究成果
(一)关键点
- 如何构建一个 大规模的语料提供给神经网络训练
- 如何设计模型对文章和问题进行交互
(二)创新点
这篇论文借鉴摘要的思想,将摘要中CNN daily mail的数据集经过实体的替换,转换成完形填空的任务。
- 首次提出了一个大规模的训练数据,便于后续的研究
- 提出了三个基本的神经网络模型(The Deep LSTM Reader,The Attentive Reader,The Impatient Reader)以及较为复杂的attention机制
(三)论文主要结论
- 神经网络的方法在大规模的数据集上,效果优于传统方法
- 通过增加复杂的attention机制能够提升模型的表现
- 对于不同的数据集,不同的attention的方式效果会不同
(四)论文意义
- 首次提供了一个可供神经网络训练的数据集,推动了神经网络在MRC的发展
- 提出了三种神经网络的模型,可供今后的研究进行对比