模型训练核心：GPT系列模型所依赖的数据 | 豆包MarsCode AI刷题文章围绕 GPT 系列模型展开，深入剖析了各

文章围绕 GPT 系列模型展开，深入剖析了各阶段模型在数据与训练方面的特点、发展变化以及带来的影响，呈现出一条清晰且极具意义的技术脉络。

起初，GPT 初代按语言模型预训练结合特定任务 finetune 的方式开展训练，其预训练依赖 BooksCorpus 数据集，尽管该数据集含 7000 篇英文图书，约 5GB，对训练长上下文依赖有帮助，可数据量有限且内容单一，同时初代模型参数量仅 1.17 亿，整体规模较小。

GPT-2.0 则另辟蹊径，从 Reddit 爬取数据组建 40GB 的 WebText 数据集，该数据集覆盖领域广泛、内容丰富多样，更契合多任务模型训练，且摒弃了原有的训练思路，通过直接预训练后接 zero-shot 进行多任务学习尝试，凸显出高质量数据对模型效果的决定性作用。

GPT-3.0 的数据量级有了质的飞跃，以 Common Crawl（去重清洗后达 570GB）为核心数据源，经过文本清洗、去重以及融入 WebText、Books、Wikipedia 等多类数据集来保障数据质量、增加多样性，其参数量也扩充至 1750 亿，在模型结构和数据运用上已与 ChatGPT 较为相似。

InstructGPT 以 GPT3 为基础运用 RLHF 训练法，其训练数据集总量约几万条，不同阶段数据来源各有侧重，少量数据下却能展现出良好效果。然而其数据集分布偏向主观指令，客观知识占比低，致使模型易出现 “幻觉妄语” 现象，相应地也有着严格的标注标准来规范回答质量。

GPT-3.5 推测利用了规模更大且更侧重事实性、客观性知识的数据集，其能力范畴突破了传统自然语言处理界限，能解读程序语言、二进制数值以及文字描述的图像等内容，展现出强大的通用性。

针对 ChatGPT 的 RLHF 训练数据，考虑到其展现出的多领域处理能力及过往模型的情况，推测其数据量远超 InstructGPT，并且提高了客观问题 prompt 的占比。

值得一提的是，这些模型的发展演变不仅体现了技术层面的数据与训练方法的革新，还对众多行业产生了深刻影响，例如在智能客服、内容创作等领域改变了原有的工作模式，促使从业者不断适应新的技术环境，寻求新的发展方向，这也彰显了 GPT 系列模型的重要价值。