某机构发布用于复杂多语言问答的数据集
该数据集要求问答模型查找多个事实并执行比较,填补了该领域的一个重要空白。
会议
COLING 2022
相关出版物
Mintaka:一个用于端到端问答的复杂、自然且多语言的数据集
相关代码/数据集
Mintaka:一个用于端到端问答的复杂、自然且多语言的数据集
问答(QA)是机器学习中的一项任务,旨在学习预测问题的答案。例如,给定问题“娜塔莉·波特曼出生在哪里?”,一个问答模型可以利用网络文章、知识图谱中的事实或模型内部存储的知识来预测答案“耶路撒冷”。这是一个简单问题的例子,因为它可以通过单个事实或网络上的单一来源(如娜塔莉·波特曼的维基百科页面)来回答。
并非所有问题都是简单的。例如,问题“《泰坦尼克号》和《黑衣人2》,哪部电影的预算更高?”就是一个复杂问题,因为它需要查找两个不同的事实(《泰坦尼克号》| 预算 | 2亿美元 和 《黑衣人2》| 预算 | 1.4亿美元),然后进行计算来比较数值(2亿美元 > 1.4亿美元)。
虽然许多最先进的问答模型在简单问题上表现良好,但复杂问题仍然是一个悬而未决的难题。原因之一是缺乏相关数据集。大多数现有的问答数据集要么规模大但简单,要么复杂但规模小,要么规模大且复杂但为合成生成,因此不够自然。此外,大多数问答数据集仅支持英语。
为了帮助填补这一空白,我们公开发布了一个新的数据集:Mintaka,并在今年的国际计算语言学会议(COLING)上通过论文对其进行了介绍。Mintaka是一个大规模、复杂、自然且多语言的问答数据集,包含2万个英语收集的问题,并经过专业翻译为八种语言:阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语。我们还将Mintaka与Wikidata知识图谱关联起来,将问题文本和答案文本中的实体链接到Wikidata ID。
构建数据集
我们将复杂问题定义为任何需要超出单一事实查找的操作的问题。我们使用众包平台某众包平台构建了Mintaka。首先,我们设计了一个众包任务来引出复杂但自然的问题。我们要求工作者编写具有以下复杂度类型之一的问题-答案对:
- 计数(例如,问:有多少宇航员被选入国会?答:4)
- 比较(例如,问:勃朗峰比雷尼尔山高吗?答:是)
- 最高级(例如,问:谁是《饥饿游戏》中最年轻的贡品?答:露)
- 序数(例如,问:埃及的最后一任托勒密统治者是谁?答:克利奥帕特拉)
- 多跳(例如,问:赢得第五十届超级碗的球队的四分卫是谁?答:佩顿·曼宁)
- 交集(例如,问:哪部电影由丹尼斯·维伦纽瓦执导并由蒂莫西·柴勒梅德主演?答:沙丘)
- 差集(例如,问:哪款马里奥赛车游戏没有耀西出现?答:马里奥赛车实况:家庭巡回赛)
- 是非题(例如,问:Lady Gaga 是否曾与爱莉安娜·格兰德合作过歌曲?答:是)
- 通用(例如,问:迈克尔·菲尔普斯出生在哪里?答:马里兰州巴尔的摩)
问题-答案对限制在八个类别:电影、音乐、体育、书籍、地理、政治、电子游戏和历史。它们以自由文本形式收集,对使用的信息来源没有限制。
接下来,我们创建了一个实体链接任务,向工作者展示上一任务中的问题-答案对,并要求他们识别或验证问题或答案中的实体,并从维基百科条目中提供支持性证据。例如,给定问题“《逃离德黑兰》赢得了多少项奥斯卡奖?”,工作者可以将电影《逃离德黑兰》识别为一个实体,并链接到其Wikidata URL。
以下是Mintaka问题的示例:
- 问:哪部吉卜力工作室的电影在烂番茄上评分最低?答:安雅与魔女
- 问:富兰克林·D·罗斯福首次当选时,距离他所在党派的人上次赢得总统选举过去了多久?答:16年
- 问:红辣椒乐队的哪位成员出演了《惊爆点》?答:安东尼·基德斯
结果
为了了解Mintaka在自然性方面与其他问答数据集的比较,我们在众包平台上进行了一项评估,使用了四个对比数据集:KQA Pro、ComplexWebQuestions (CWQ)、DROP 和 ComplexQuestions (CQ)。工作者看到五个问题,每个数据集一个,并要求他们按1(最不自然)到5(最自然)的等级进行排序。平均而言,Mintaka的自然性排名高于其他数据集。这表明Mintaka的问题被认为比自动生成或受段落限制的问题更自然。
我们还评估了八个使用Mintaka训练的基线问答模型。表现最佳的是用于封闭书问答的语言模型T5,其命中率@1达到了38%。基线结果表明Mintaka是一个具有挑战性的数据集,在模型设计和训练流程方面仍有很大的改进空间。
Mintaka通过其大规模、复杂性、自然性以及多语言性,填补了问答数据集领域的一个重要空白。随着Mintaka的发布,我们希望鼓励研究人员继续推动问答模型处理更多语言中的更复杂问题。FINISHED