2024最新 高质量 大模型-预训练数据集(11/26更新)

216 阅读18分钟

大模型中的预训练数据集就像是给模型喂的“食物”,这些“食物”的质量和种类直接影响到模型的“成长”和“智慧”。

通俗来说,预训练数据集有以下3个特点:

1、提供通用性:

大量的文本数据帮助模型更好的学习语言的语法、语义和上下文信息,使模型能够对自然语言有一个全面的理解和掌握。

2、增强泛化能力:

来自不同领域和主题的数据使模型在训练过程中能够获得更广泛的知识,从而提高它们的泛化能力。这意味着模型能够将学到的知识应用到新的、未见过的场景中。这就像是一个人如果已经掌握了一门语言,再学习第二门语言时就会容易得多。

3、提示性能水平:

在预训练语料库中包含多种语言,使模型能够理解不同语言环境中的表达方式,促进跨语言任务能力的培养。这对于处理多语言数据和在不同语言之间进行翻译或理解特别重要。

一般预训练语料库(General Pre-training Corpora)

1、Webpages:包括从网页上抓取的文本数据,这些数据通常包含大量的信息,并且覆盖多种语言和主题。

2、Language Texts:涉及不同语言的文本数据,可能包括新闻、文章、博客等多种类型的文本。

3、Books:包含书籍内容的数据集,书籍通常提供长篇连贯的文本,有助于模型学习语言的深层结构和复杂语境。

4、Academic Materials:涵盖学术论文和学术出版物的数据集,这些数据有助于模型学习专业术语和学术写作风格。

5、Code:包含编程语言代码的数据集,有助于模型学习代码结构和编程概念。

特定领域的预训练语料库(Domain-specific Pre-training Corpora)

1、Parallel Corpus:涉及多语言平行语料库,这些语料库包含同一内容的不同语言版本,有助于模型学习跨语言的对应关系。

2、Social Media:来自社交媒体平台的数据,这些数据反映了用户生成内容的风格和特点。

3、Encyclopedia:包含百科全书类的数据,提供结构化的知识信息。

4、Multi-category:多类别数据集,可能包含上述多种类型的混合,以增强模型的泛化能力。

5、Financial:专门针对金融领域的数据集,可能包含金融报告、市场分析等内容。

6、Medical:专门针对医疗领域的数据集,可能包含医学文献、病例报告等专业内容。

预训练数据的预处理(Preprocessing of Pre-training Data)

1、Data Collection:数据收集,涉及从不同来源获取原始数据。

2、Data Filtering:数据过滤,去除不相关或低质量的数据。

3、Data Deduplication:数据去重,删除重复的内容以避免模型训练时的冗余。

4、Data Standardization:数据标准化,确保数据格式统一,便于处理。

5、Data Review:数据审核,对数据进行最终检查,确保数据集的质量和适用性。

2024/11/26新增:

数据集:XL-SUM|多语言文本摘要数据集

  • 创建时间:2024-11-25

  • 数据集介绍:XL-SUM数据集由Hasan等人于2021年创建,旨在解决大规模多语言抽象摘要的问题。该数据集涵盖了44种语言,为多语言文本摘要研究提供了丰富的资源。主要研究人员包括Hasan、Bhattacharjee、Islam等,他们在ACL-IJCNLP 2021会议上发表了相关研究成果。XL-SUM的推出显著推动了多语言文本摘要技术的发展,为跨语言信息处理提供了新的研究方向。

  • 链接地址:XL-SUM|多语言文本摘要数据集|自然语言处理数据集

2024/10/25新增

数据集:CCI3-HQ|中文文本生成数据集|数据集数据集

  • 创建时间:2024-09-19

  • 链接地址:CCI3-HQ|中文文本生成数据集|数据集数据集

  • 数据集介绍:CCI3.0-HQ是一个500GB的高质量中文预训练数据集,目的通过先进的过滤技术提升数据集的纯净度。包含了新闻、社交媒体和博客等多种中文语料,通过基础处理和高质量处理两个阶段,确保了数据集的覆盖面和代表性。

数据集:Vision Based Navigation Datasets|航天导航数据集|机器学习数据集

  • 发布时间:2024-09-18

  • 链接地址:Vision Based Navigation Datasets|航天导航数据集|机器学习数据集

  • 数据集介绍:Vision Based Navigation Datasets是由欧洲空间局主导,空客防务与空间公司参与创建的数据集,旨在支持基于视觉的导航技术在航天领域的应用。该数据集包含多个子集,涵盖了从月球着陆到人造卫星对接等多种场景,总计超过13万条数据。数据集的创建过程结合了真实图像、实验室模拟和合成图像,确保了数据的多源性和高质量。这些数据集主要用于训练机器学习算法,特别是在姿态估计和光学流算法方面,以解决航天器导航中的精确控制问题。

数据集:Chinese Fineweb Educhinese-fineweb-edu|教育|预训练数据集

  • 发布时间:2024-08-26
  • 链接地址:chinese-fineweb-edu|教育数据集|自然语言处理数据集
  • 数据集介绍:Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。

数据集:IndustryCorpus_technology|行业模型训练|预训练数据集

  • 发布时间:2024-07-25

  • 发布机构:Beijing Academy of Artificial Intelligence

  • 链接地址:IndustryCorpus_technology|行业模型训练数据集|预训练数据集数据集

  • 数据集介绍:该数据集是为了解决行业模型训练中数据量不足、质量低和缺乏领域专业知识的问题而构建的。通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类的中英文预训练数据集,包括1TB的中文数据和2.4TB的英文数据。数据集进行了12种类型的标签标注,并经过了行业分类语言模型的过滤和文档级别的去重处理。数据集涵盖了18个行业类别,并针对每个行业类别提供了数据大小。为了验证数据集的性能,还进行了持续预训练、SFT和DPO训练,结果显示性能有显著提升。

数据集:IndustryCorpus_mathematics|数学|预训练数据集

  • 发布时间:2024-07-25
  • 发布机构:Beijing Academy of Artificial Intelligence
  • 链接地址:IndustryCorpus_mathematics|数学数据集|预训练数据集数据集
  • 数据集介绍:本数据集是一个高质量的多行业分类中英文预训练数据集,通过22个行业数据处理操作符从超过100TB的开放源数据集中筛选出3.4TB的高质量数据,包括1TB的中文数据和2.4TB的英文数据。数据集涵盖18个行业类别,并进行了详细的标注和过滤处理,如传统中文转换、电子邮件和IP地址移除、链接移除、Unicode修复等。此外,数据集还进行了模型训练验证,显示了显著的性能提升。

数据集:IndustryCorpus_agriculture|农业|预训练

  • 发布时间:2024-07-25
  • 发布机构:Beijing Academy of Artificial Intelligence
  • 链接地址:IndustryCorpus_agriculture|农业|预训练数据
  • 数据集介绍:该数据集是通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出的3.4TB高质量多行业分类的中英文预训练数据集。筛选后的数据包括1TB的中文数据和2.4TB的英文数据,并进行了12种类型的标签标注。数据集涵盖18个行业类别,包括医疗、教育、文学、金融等,并提供了各行业类别的数据大小。

数据集:dclm-baseline-1.0-parquet|预训练数据集|自然语言处理

  • 发布时间:2024-07-01

  • 链接地址:dclm-baseline-1.0-parquet|预训练数据集|自然语言处理

  • 数据集介绍:DCLM-baseline 是一个包含4万亿个标记和30亿个文档的预训练数据集,由DCLM团队精心策划,使用英语,并根据CC-by-4.0许可证发布。该数据集源自Common Crawl,经过一系列清洗、过滤和去重步骤处理,特别适用于作为DCLM基准的研究基线。

数据集:TigerResearch/pretrain_zh|对话系统数据集|预训练数据集

  • 发布时间:2023-06-14
  • 链接地址:TigerResearch/pretrain_zh|对话系统数据集|预训练数据集数据集
  • 数据集介绍:该数据集是Tigerbot项目的中文预训练部分,包含12G的中文书籍、25G的中文互联网文本和19G的中文百科内容,总计56G。数据集用于中文预训练,包含多种中文文本资源,适合用于训练中文自然语言处理模型。

数据集:OmniCorpus - 最大开源图文交错数据集|多模态数据集|人工智能研究

  • 发布时间:2024-06-12
  • 发布机构:上海人工智能实验室、哈尔滨工业大学、南京大学、复旦大学等
  • 链接地址:OmniCorpus - 最大开源图文交错数据集|多模态数据集|人工智能研究
  • 数据集介绍:OmniCorpus由上海人工智能实验室联合多所知名高校及研究机构共同构建,是迄今为止最大的多模态数据集。该数据集包含了86亿张图像和1696亿个文本Token,支持中英双语。与现有的数据集相比,其在以下方面具有显著优势:1)更大的数据规模:与之前最大的多模态数据集LAION-5B相比,OmniCorpus的数据集在图像方面大了1.7倍,在文本方面大了12.5倍,同时保持了出色的数据质量。2)更丰富的数据多样性:从更广泛的数据源中提取数据,OmniCorpus数据集比其他图像-文本交错数据集更具多样性。它包括中英文双语多模态数据,并包括从常见网站和视频平台提取的以文本为中心和以视觉为中心的文档。3)更灵活的格式:OmniCorpus的流式数据格式提供了非凡的灵活性,允许适应各种数据结构,包括纯文本语料库、图像-文本对和交错数据格式。数据集制作pipeline由五个关键阶段组成:主体提取、初步文本过滤、文档重复数据消除、图像下载和过滤以及详细文本过滤。每个阶段都有效地减少数据集,只保留高质量的数据。OmniCorpus的多语言特性和高质量数据为多模态机器学习模型提供了丰富的训练资源,推动了人工智能领域的研究进展。

数据集:Zyda - 包含1.3万亿Token的开源预训练数据集|语言模型|预训练数据集

  • 发布时间:2024-06-07

  • 链接地址:Zyda - 包含1.3万亿Token的开源预训练|语言模型|预训练数据集

  • 数据集介绍:Zyda数据集是由Zyphra公司创建的一个大型语言模型预训练数据集。该数据集通过整合多个开源数据集并进行深度处理来构建,包含了1.3万亿Token,其质量接近商业语料。Zyda数据集的创建过程包括了严格的过滤和去重处理,以保持和提高从原始数据集中派生出的质量。实验结果表明,使用Zyda训练的语言模型在多项评估任务上,性能优于其他同类数据集,如Dolma、FineWeb和RefinedWeb。Zyda的发布为开源社区提供了一个高质量的、大规模的预训练语料库,为开源语言模型研究奠定数据基础。

数据集:VishnuPJ/Malayalam_CultureX_IndicCorp_SMC|自然语言处理|预训练

  • 发布时间:2024-06-05
  • 链接地址:VishnuPJ/Malayalam_CultureX_IndicCorp_SMC|自然语言处理|预训练
  • 数据集介绍:用于马来语预训练和分词的预处理和合并数据集,数据来源包括ai4bharat、CulturaX和Swathanthra Malayalam Computing。预处理步骤包括去除非马来语字符、合并文本文件以及去除少于5个字符的行。数据集包含文本特征,分为训练和测试集,具有相应的字节数和示例数。

数据集:m-a-p/Matrix|语言模型数据集|预训练数据集数据集

  • 发布时间:2024-06-03

  • 链接地址:m-a-p/Matrix|语言模型数据集|预训练数据集数据集

  • 数据集介绍:Matrix是一个包含46900亿个标记的开源预训练数据集,支持英语和中文双语,用于训练新型模型。该数据集由多个源自不同领域的组件构成,包括Common Crawl、代码、论文、书籍、指导材料、考试、新闻、维基和专利,每个组件在语言建模和处理中都有不同的用途。

数据集:开放新闻库(OpenNewsArchive)|新闻文本数据集|预训练数据集

数据集:BAAI-CCI 2.0|中文语料库数据集|预训练数据集

数据集:MAP-CC|自然语言处理数据集|预训练数据集

  • 发布时间:2024-04-05
  • 发布机构:Multimodal Art Projection 、复旦大学、北京大学等
  • 链接地址:MAP-CC|自然语言处理数据集|预训练数据集数据集
  • 数据集说明:MAP-CC是一个开源的中文预训练数据集,其规模达到了800亿个词汇(token)。它提供了一套详细的中文网络语料库清洗流程,为自然语言处理(NLP)社区提供了高质量的中文预训练数据和有效的数据准备方法。这个数据集由多模态艺术投影(Multimodal Art Projection)、复旦大学、北京大学等机构共同研发。它包含了来自不同数据源的多个子集,如博客、新闻文章、中文百科全书、中文学术论文、中文图书等。通过精心设计的数据清洗和筛选流程,MAP-CC提高了中文网络语料库的质量,为学术界和工业界提供了宝贵的资源。此外,MAP-CC数据集的构建突破了传统以英文数据为主的训练模式,为非英语语言,特别是中文的深度学习和理解能力提供了新的研究范式。这对于推动中文及其他非英语语言的NLP研究和应用具有重要意义。

数据集:LLM360/CrystalCoderDatasets|预训练数据集数据集|代码生成数据集

  • 发布时间:2024-04-02

  • 发布机构:LLM360

  • 链接地址:LLM360/CrystalCoderDatasets|预训练数据集数据集|代码生成数据集

  • 数据集介绍:该数据集整合了CrystalCoder训练中使用的全部数据序列,包括来自三个预训练阶段的数据,总计约1300亿个token。这些token分布在三个阶段,每个阶段使用不同的数据源和处理方法。第一阶段使用SlimPajama数据集的一半,约345亿个token;第二阶段使用剩余的SlimPajama数据和StarCoder数据的两轮迭代,总计927亿个token;第三阶段重新使用StarCoder数据中的Python和网页相关数据,以及部分SlimPajama数据,总计约110亿个token。此外,还使用了多种指令调优数据集,总计约10亿个token,以增强模型在实际聊天场景中的能力。

数据集:出门问问序列猴子开源数据集|自然语言处理|预训练数据集

  • 发布时间:2024-02-05
  • 链接地址:出门问问序列猴子开源数据集|自然语言处理数据集|预训练数据集数据集
  • 数据集介绍:序列猴子是出门问问提供的超大规模语言模型,基于其通用的表示与推理能力,支持多轮交互,能够大幅度提高生产效率和数据处理能力,被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域。 序列猴子数据集是用于训练序列猴子模型的数据集合,现选择部分数据集向公众开放。 序列猴子开源数据集1.0为序列猴子数据集的首个开源版本,涉及以下领域:中文通用文本语料、古诗今译语料、文本生成语料。

数据集:Chinese-Poetry 最全中文诗歌古典文集数据库|中文诗歌|预训练数据集

数据集:WanJuan2.0 (WanJuan-CC)|自然语言处理|预训练数据集

  • 发布时间:2024-01-15
  • 发布机构:OpenDataLab
  • 链接地址:WanJuan2.0 (WanJuan-CC)|自然语言处理数据集|预训练数据集数据集
  • 数据集介绍:WanJuan-CC 是从CommonCrawl获取的一个 1T Tokens 的高质量英文网络文本数据集。结果显示,与各类开源英文CC语料在 Perspective API 不同维度的评估上,WanJuan-CC都表现出更高的安全性。此外,通过在4个验证集上的困惑度(PPL)和6下游任务的准确率,也展示了WanJuan-CC的实用性。WanJuan-CC在各种验证集上的PPL表现出竞争力,特别是在要求更高语言流畅性的tiny-storys等集上。通过与同类型数据集进行1B模型训练对比,使用验证数据集的困惑度(perplexity)和下游任务的准确率作为评估指标,实验证明,WanJuan-CC显著提升了英文文本补全和通用英文能力任务的性能。

数据集:SkyPile-150B 综合性大规模中文数据集|预训练数据集|中文语言模型

  • 发布时间:2024-01-11
  • 发布机构:昆仑万维
  • 链接地址:SkyPile-150B 综合性大规模中文数据集|预训练数据集数据集|中文语言模型数据集
  • 数据集介绍:SkyPile-150B 是专门为大型语言模型预训练而设计的综合性大规模中文数据集。它源自大量可公开访问的中国互联网网页。数据集采用严格的过滤、广泛的重复数据删除和彻底的敏感数据过滤来确保其质量。此外,研究人员还利用 fastText 和 BERT 等先进工具来过滤掉低质量的数据。