本文已参与「新人创作礼」活动,一起开启掘金创作之路。
作者:Xinyu Xing, Xiaosheng Fan and Xiaojun Wan
摘要:
在本文中,我们研究了学术论文中自动生成引用文本的挑战性问题。鉴于引用论文A和引用的论文B的背景,任务旨在在给定A的背景下生成简短的文本来描述B。
问题
- 解决这项任务的一个大挑战是缺乏训练数据
- 显式引用文本很容易提取,但从学术论文中提取隐式引用文本并不容易。
解决对策
- 首先训练一个基于 BERT 的隐式引用文本提取模型,利用模型来构建引用文本生成任务的大型训练数据集。
- 我们提出并训练了一个 multi-source pointer-generator 网络,并引用文本生成的交叉注意力机制。
在手动标记的测试数据集上的经验评估结果验证模型的功效。
困难在于,在给定不同的A或A的不同上下文的情况下,该任务的目的是为相同的B生成不同的引文文本。
本文的主要贡献如下:
- 提出了学术论文中引文文本自动生成的新任务。
- 我们对1000篇引文文本进行了标注,并训练了一个引文提取模型,以自动构建用于引文文本生成任务的大型训练数据集。这些数据可在https://github.com/XingXinyu96/CITICATION_GENERATION上获得
- 为了解决这一难题,我们提出了multi-source pointer-generator网络。评估结果证明了该模型的有效性。