在2024/8/5,由弗罗茨瓦夫理工大学发布关于波兰语的PUGG数据集,在资源匮乏的语言环境下,利用半自动化流程和大型语言模型创建了第一个波兰语的知识库问答(KBQA),以及用于机器阅读理解(MRC) 和信息检索(IR)数据集。
人工智能和自然语言处理的进步彻底改变了机器与人类之间的语言互动,其中问答系统发挥了关键作用。知识库问答任务利用结构化知识图谱,能够处理大量知识密集型问题。
一、目前面临的困难和挑战:
在低资源语言知识库问答资源中存在的显著知识差距问题,特别关注波兰语自然语言数据集的缺乏。
同时许多现有的数据集构建流程过时,并且在人力资源上效率低下。
特别针对低资源环境,设计并实施一种现代化的半自动化和大型语言模型创建数据集,涵盖了 知识库问答、机器阅读理解和信息检索等任务。
二、让我们一起来看一下PUGG 数据集
PUGG 数据集: 首个波兰语知识库问答数据集,同时包含了MRC和IR任务的数据集,它包括自然发生的基于事实的问题,并提供了详细的统计数据和基线模型的评估。
数据集地址: PUGG|知识库问答数据集|自然语言处理数据集
自然问题构建流程
以半自动化的方式创建数据集,减少人工劳动,同时确保数据集的质量和一致性:从问题前缀到最终构建KBQA(知识库问答)、MRC(机器阅读理解)、IR(信息检索)数据集整个处理过程。
添加图片注释,不超过 140 字(可选)
其中关于人工验证:对所有候选问题和答案进行人工验证,确保只有高质量的数据被包括在最终的数据中,用于后续的KBQA、MRC和IR任务。
1、KBQA 数据集:
使用自然语言模板和SPARQL查询模板来生成问题,并通过人工验证确保这些问题在语义上是有意义的。
添加图片注释,不超过 140 字(可选)
2、MRC数据集:
该数据集包括机器阅读理解问题,用于评估抽取式和生成式模型。
添加图片注释,不超过 140 字(可选)
3、IR数据集:
该数据集由信息检索任务的语料查询组成,用于评估词汇 BM25 和密集检索模型
添加图片注释,不超过 140 字(可选)
三、数据集潜在价值:
1、零样本学习:
在没有特定任务的标注数据时,利用PUGG数据集进行预训练的模型可以进行零样本学习,尝试对未见过的任务进行推理。
2、交互式应用
基于PUGG数据集训练的模型可以集成到多语言聊天机器人、虚拟助手或客户服务平台中,提供波兰语支持。