中文百科问答数据集《十万个为什么》数据收集!|智能体知识库 | AI大模型训练

261 阅读1分钟

今天记录一个十万个为什么数据集分享,用于后续AI方面的使用。

数据集以“十万个为什么”为核心主题,收录了 共计5万条中文百科类问答,涵盖天文地理、生命科学、物理化学、人文历史、日常生活、科技知识等多个领域。数据以 Excel格式 精细整理,适用于 AI大模型训练、知识型智能体构建、百科问答系统开发、儿童启蒙教育助手 等多种应用场景。

数据特点

✅ 内容广泛通识化:问题涵盖多学科、多领域,是百科类知识的典型代表,符合“大语言模型通识能力训练”需求。

✅ 中文原生数据:全部内容为标准中文表达,符合中文语义结构,适合中文语料的自然语言处理与训练。

✅ 结构清晰、格式标准:每条数据都包含【问题】【答案】两部分,采用表格结构存储,便于导入AI模型、知识图谱或数据库中使用。

✅ 知识性与趣味性并存:内容具备较强的科普属性,既适用于技术模型训练,也可作为教育类、儿童问答类产品的基础素材。

数据集个别截图:

image.png

数据集已整理为excel格式,需要的可获取~ www.wwwoop.com/home/Index/…