结构化数据自动生成文本
数据到文本生成技术将表格等结构化格式的信息转换为自然语言。这使得结构化信息能够被阅读或收听,例如设备显示天气预报或语音助手回答问题。
基于数十亿句子训练的语言模型能够学习常见语言模式,通过预测可能的词序列来生成自然流畅的句子。然而在数据到文本生成中,不仅要求语言流畅,还需要准确传达内容。
DataTuner系统
某中心AI组织开发了名为DataTuner的神经端到端数据到文本生成系统,适用于各种数据类型和主题,能生成流畅准确的文本。该系统代码已在GitHub上以非商业许可发布。
在去年的国际计算语言学会议上,研究人员使用四个数据到文本数据集将该方法与最佳性能的前沿方法进行比较。根据评估文本质量的BLEU算法,DataTuner将技术水平提升了1.2到5.9个百分点。
人工标注者也认为生成的响应更加自然和准确。事实上,在四个数据集中的两个上,生成的文本平均比人工编写的文本更自然。
语义保真与流畅性
考虑一个示例,需要向读者或听众传达关于米歇尔·奥巴马的结构化信息,这些信息以知识图谱典型的主体-关系-客体格式组织:
米歇尔·奥巴马 | 作者 | 《成为》
米歇尔·奥巴马 | 出生地 | 芝加哥,伊利诺伊州,美国
普林斯顿大学 | 母校 | 米歇尔·奥巴马
哈佛大学 | 母校 | 米歇尔·奥巴马
可以生成准确传达含义但不太自然的文本:
米歇尔·奥巴马是《成为》的作者。米歇尔·奥巴马出生于芝加哥,伊利诺伊州,美国。米歇尔·奥巴马在普林斯顿大学接受教育。米歇尔·奥巴马在哈佛大学接受教育。
这个文本具有高语义保真但低流畅性。
或者可以生成非常流畅但不准确传达信息的文本:
出生在芝加哥,伊利诺伊州,并在哈佛接受教育,米歇尔·奥巴马是《应许之地》的作者。
这个文本添加了一些信息并遗漏了一些信息,因此即使具有高流畅性,也具有低语义保真。
技术架构
DataTuner的方法包括两个步骤:生成和重新排序。
首先,语言模型从数据生成文本。在实验中,从预训练的语言模型GPT-2开始,通过使用特殊标记<data>和<text>来区分数据和文本,在连接的数据和文本上对其进行训练,使其适应数据到文本任务。
在模型内部,连接了几种类型的嵌入:
- 词嵌入:编码单个输入词的语义信息
- 位置嵌入:表示词在文本中的位置
- 细粒度状态嵌入:使用特殊标记表示数据项之间的结构关系
例如,将数据三元组米歇尔·奥巴马 | 作者 | 《成为》转换为字符串<主体> 米歇尔·奥巴马 <谓词> 作者 <客体> 《成为》,其中<主体>、<客体>和<谓词>是特殊标记。
其次,训练语义保真分类器。该分类器接收输入数据和生成的文本,识别文本是否准确传达数据,或者是否添加、重复、遗漏或更改了任何内容。使用此分类器根据准确性对生成的文本重新排序。
评估结果
在四个不同格式的数据集上进行了实验,包括新闻文本、餐厅评论和关于视频游戏的聊天。通过自动指标和人工标注者对流畅性和准确性进行评估。
实验表明,没有细粒度状态嵌入的模型比有状态嵌入的模型准确性低,而添加语义保真分类器进一步提高了准确性。
研究还发现,语义保真分类器作为自动评估不同模型生成文本准确性的方法,对于两个数据集,它比现有启发式方法能更好地预测标注者的评估。