KBQA数据集整理(二):LC-QuAD 2.0

1,688 阅读5分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第7天,点击查看活动详情

导语

上篇博客为大家介绍了KBQA领域的一个经典数据集LC-QuAD 1.0。该数据集有着高达5000条的标注数据,是同期数据集中规模最大的。本文将为大家继续介绍LC-QuAD的后续数据集——LC-QuAD 2.0。LC-QuAD 2.0弥补了许多1的不足之处,同时提供了更加高质量和更大规模的数据标注。

1 简介

在过去的十年中,知识图谱(如DBpedia和Wikidata)已经成为在链接数据架构中存储事实的主要对象。从这些知识图谱中提取事实信息已经成为研究的焦点。知识图谱问答(KGQA)是实现这一目标的技术之一。在KGQA中,研究的重点通常是将自然语言问题翻译成正式语言查询SPARQL。

LCQuAD 1.0在发布时是使用SPARQL查询的最大的复杂问题数据集。本文提出了LC-QuAD 2.0(Large-Scale Complex Question Answering Dataset 2.0),包括3万个问题,同义重写和相应的SPARQL查询,同时在DBpedia 2018和Wikidata上都进行了标注。这个数据集涵盖了与之前的数据集或任何其他现有的KGQA数据集相比的几个新的问题类型变化(见表1的比较)。

image.png

2 相关工作

随着深度学习的发展,KGQA系统正从一个手工制作的基于规则的系统发展到更健壮的基于机器学习(ML)的系统。这种ML方法需要大数据集进行训练和测试。对于简单的问题,KGQA社区已经达到了很高的准确性水平,但对于更复杂的问题,还有很大的改进空间。但由于深度学习需要大量的训练数据,因而该领域的大规模数据仍是一项急需的工作。

3 数据集工作流

整理的数据集生成和标注的工作流程如下图所示:

image.png

其主要流程和LC-QuAD 1.0相仿。具体如下:

  1. 首先,作者从Wikipedia Vital articles中选择不同主题的各种重要实体作为初始的实体列表(作者没有使用Pagerank或实体流行度的方式是因为这类方法总会选择更多的“人物”实体。)
  2. 然后,从其他数据集或者人工总结一些常用的SPARQL模板。
  3. 在sparql模板的基础上选择谓词,这里会根据不同的模板类型来对谓词做过滤。例如,如果我们想要创建计数类问题,用户想知道一个特定谓词成立的次数,某些谓词,如“birthPlace则被取消资格,因为它不会做一个连贯的计数问题。
  4. 选择实体,得到查询子图,将谓词和子图插入模板后,将生成最终的SPARQL。
  5. 接下来是第一个需要众包平台人工标注的工作:将NNQT(即模板填充的问题QTQ_T)请标注工人(以下简称工人)进行语法纠正,成为一个语法正确的语句QVQ_V
  6. 接着,第二个工人将QVQ_V进行同义改写成为QPQ_P。在这两个工人改写的过程中,都会判断这个问题的具体意图是什么,于是,作者通过检查两人的意图是否一致来检验标注的质量。
  7. 最后,第三个工人进行人工审核,将不合规格的标注剔除。

4 数据集特征

4.1 统计特征

image.png

图3展示了QTQ_TQVQ_VQPQ_P之间的相似程度。这些主要是通过两个指标来判断:

  1. BERT embedding 的余弦相似度:将问句输入BERT,对输出的embedding进行余弦相似度计算。
  2. 编辑距离的相似度:用于衡量重复字符出现的比例。

可以看到QTQ_TQPQ_P之前的编辑距离相似度分布偏低,证明人工改写较大幅度的修改了模板的词汇,更具有语义含义。

4.2 问题类型

作者一共总结了10种类型的问题:

类型说明举例
Single fact最简单的单实体查询Who is the screenwriter of Mr. Bean?
Single fact with type有类型约束的单实体查询Billie Jean was on the tracklist of which studio album?
Multi-fact多实体查询What is the name of the sister city tied to Kansas City, which is located in the county of Seville Province?
Fact with qualifiers含qualifiers查询What is the venue of Barack Obama’s marriage ?
Two intention两个意图Who is the wife of Barack Obama and where did he got married?
Boolean判断查询Did Breaking Bad have 5 seasons?
Count计数查询What is the number of Siblings of Edward III of England ?
Ranking排序查询what is the binary star which has the highest color index?
String Operation字符串操作查询"Give me all the Rock bands that starts with letter R ?
Temporal aspect时间方面查询With whom did Barack Obama get married in 1992 ?

各种类型的查询分布如图4所示。

总结

本文介绍了LC-QuAD的后续数据集——LC-QuAD 2.0。LC-QuAD 2.0弥补了许多1的不足之处,同时提供了更加高质量和更大规模的数据标注,为研究者提供了很好的基准数据集。