本文针对《LLMBook》llmbook-zh.github.io/ 中的56个数据集进行完整下载地址整理收集。
具体整理部分关于第三章 大型语言模型资源
1、常用预训练24个数据集下载地址整理收集
2、指令微调24个数据集下载地址整理收集
3、人类对齐8个数据集下载地址整理收集
《大语言模型》由作者赵鑫,李军毅,周昆,唐天一,文继荣 等作者编写,全面介绍了大型语言模型的技术背景、发展过程、关键技术、资源、预训练方法、微调与对齐技术、使用方法、评测以及应用等多个方面。
本书主要面向希望系统学习大语言模型技术的读者,将重点突出核心概念与 算法,并且配以示例与代码(伪代码)帮助读者理解特定算法的实现逻辑。
第三章:大语言模型资源
3.1 公开可用的模型检查点或 API
本节介绍了多种公开可用的大语言模型检查点和API,这些资源允许用户无需从头开始训练模型,即可利用预训练模型进行研究或开发。
- 公开可用的通用大语言模型检查点:包括LLaMA、ChatGLM、Falcon、Baichuan、InternLM、Qwen、Mistral、DeepSeek LLM、Mixtral、Gemma、MiniCPM和YuLan-Chat等模型,这些模型在参数规模、训练数据和性能上各有特点,适用于不同的应用场景。
- LLaMA变体系列:基于LLaMA模型的多种变体,通过指令微调或继续预训练等方法扩展了LLaMA的功能和应用范围,如Stanford Alpaca、Vicuna等。
- 大语言模型的公共API:主要介绍了OpenAI提供的GPT系列模型API,包括GPT-3.5 Turbo、GPT-4和GPT-4 Turbo,以及文本表征API,如text-embedding-ada-002等。
3.2 常用的预训练数据集
预训练数据集是大语言模型训练的基础,本节介绍了多种常用的预训练数据集,涵盖了网页、书籍、维基百科、代码和混合型数据集。
语料库:Common Crawl
数据集地址:Common Crawl|网络爬取数据集|文本挖掘数据集
语料库:C4
数据集地址:C4|自然语言处理数据集|机器学习数据集
语料库:CC-Stories-R
数据集地址:cc-stories|自然语言处理数据集|文本分析数据集
语料库:CC-NEWS
数据集地址:CC-News |新闻文本数据集|内容挖掘数据集
语料库:REALNEWs
数据集地址:RealNews|新闻分析数据集|自然语言处理数据集
语料库:RedPajama-Data
数据集地址:togethercomputer/RedPajama-Data-1T
语料库:RefinedWeb
数据集地址:tiiuae/falcon-refinedweb|网络数据数据集
语料库:WanJuan-CC
数据集地址:WanJuan-CC|自然语言处理数据集
语料库:OpenWebText
数据集地址:OpenWebText|网络文本分析数据集
语料库:ChineseWebText
数据集地址:CASIA-LM/ChineseWebText
语料库:WanJuan 1.0 Text
数据集地址:WanJuan1.0|多模态学习数据集|
语料库:WuDaoCorpora Text
数据集地址:WuDaoCorpora Text文本预训练数据集
语料库:SkyPile-150B
数据集地址:Skywork/SkyPile-150B|自然语言处理数据集
语料库:BookCorpus
数据集地址:BookCorpus|文本分析数据集
语料库:Project Gutenberg
数据集地址:Project-Gutenberg|自然语言处理数据集
语料库:arXiv dataset
数据集地址:arXiv Dataset|学术研究数据集|STEM数据集
语料库:S2ORC
数据集地址:S2ORC|学术研究数据集|文本挖掘数据集
语料库:peS2o
数据集地址:allenai/peS2o|学术文本预训练数据集
语料库:BigQuery
数据集地址:BigQuery Public Datasets|公共数据集数据集
语料库:The Stack
数据集地址:The-Stack|编程语言数据集|人工智能数据集
语料库:StarCoder
数据集地址:starcoderdata|编程语言分析数据集
语料库:The Pile
数据集地址:EleutherAI/pile
语料库:ROOTS
数据集地址:ROOTS Corpus|多语言数据集数据集
语料库:Dolma
数据集地址:allenai/dolma|自然语言处理数据集
3.3 常用微调数据集
微调数据集用于增强模型的任务解决能力,本节介绍了指令微调数据集和人类对齐数据集。
添加图片注释,不超过 140 字(可选)
集合:Nat. Inst.
数据集地址:Natural Instructions|自然语言处理数据集|机器学习数据集
集合:FLAN
数据集地址:SirNeural/flan_v2
集合:P3
数据集地址:bigscience/P3|自然语言处理数据集|数据模板数据集
集合:Super Nat. Inst.
数据集地址:Natural Instructions|自然语言处理数据集|机器学习数据集
集合:MVPCorpus
数据集地址:MVPCorpus
集合:xP3
数据集地址:bigscience/xP3
集合:OIG
数据集地址:OIG
集合:UnifedSKG
数据集地址:UnifedSKG
集合:HH-RLHF
数据集地址:Anthropic/hh-rlhf
集合:HC3
数据集地址:Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集
集合:ShareGPT
数据集地址:shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集
集合:Dolly
数据集地址:databricks/databricks-dolly-15k|自然语言处理数据集|文本生成数据集
集合:OpenAssistant
数据集地址:OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集
集合:InstructWild v2
数据集地址:InstructWild|自然语言处理数据集|机器学习数据集
集合:LIMA
数据集地址:lima
集合:Self-Instruct
数据集地址:Self-Instruct
集合:Alpaca
数据集地址:alpaca
集合:Guanaco
数据集地址:GuanacoDataset
集合:Baize
数据集地址:linkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集
集合:Belle
数据集地址:Belle 数据集|自然语言处理数据集|对话系统数据集
集合:Alpaca-GPT4
数据集地址:Alpaca-GPT4|自然语言处理数据集|机器学习数据集
集合:Evol-Instruct
数据集地址:SurgeGlobal/Evol-Instruct|指令进化数据集|文本生成数据集
集合:UltraChat
数据集地址:ultrachat|自然语言处理数据集|对话系统数据集
添加图片注释,不超过 140 字(可选)
数据集:Summarize from Feedback
数据集地址:openai/summarize_from_feedback|自然语言处理数据集|机器学习数据集
数据集:SHP
数据集地址:stanfordnlp/SHP|机器学习数据集|数据集难度评估数据集
数据集:WebGPT Comparisons
数据集地址:openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集
数据集:Stack Exchange Preferences
数据集地址:HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集
数据集:HH-RLHF
数据集地址:Anthropic/hh-rlhf
数据集:Sandbox Alignment Data
数据集地址:Sandbox Alignment Data
数据集:CValues
数据集地址:CValues-Comparison|价值观评估数据集|人工智能文本生成数据集
数据集:PKU-SafeRLHF
数据集地址:PKU-Alignment/PKU-SafeRLHF|人工智能伦理数据集|模型安全数据集
3.4 代码库资源
代码库资源为开发大语言模型提供了技术支持,本节介绍了几个重要的代码库。
- Hugging Face开源社区:提供了Transformers、Datasets和Accelerate等代码库,这些工具简化了模型的训练、数据处理和分布式训练过程。
- DeepSpeed:微软开发的高性能库,提供了内存优化、数据并行、混合精度训练等优化技术支持,适用于大语言模型的分布式训练。
- Megatron-LM:NVIDIA开发的代码库,专门用于训练大语言模型,支持数据并行、模型并行和混合精度训练,提高了训练效率和速度。