模型训练核心:GPT系列模型所依赖的数据 | 豆包MarsCode AI刷题

176 阅读2分钟

文章围绕 GPT 系列模型展开,深入剖析了各阶段模型在数据与训练方面的特点、发展变化以及带来的影响,呈现出一条清晰且极具意义的技术脉络。

起初,GPT 初代按语言模型预训练结合特定任务 finetune 的方式开展训练,其预训练依赖 BooksCorpus 数据集,尽管该数据集含 7000 篇英文图书,约 5GB,对训练长上下文依赖有帮助,可数据量有限且内容单一,同时初代模型参数量仅 1.17 亿,整体规模较小。

GPT-2.0 则另辟蹊径,从 Reddit 爬取数据组建 40GB 的 WebText 数据集,该数据集覆盖领域广泛、内容丰富多样,更契合多任务模型训练,且摒弃了原有的训练思路,通过直接预训练后接 zero-shot 进行多任务学习尝试,凸显出高质量数据对模型效果的决定性作用。

GPT-3.0 的数据量级有了质的飞跃,以 Common Crawl(去重清洗后达 570GB)为核心数据源,经过文本清洗、去重以及融入 WebText、Books、Wikipedia 等多类数据集来保障数据质量、增加多样性,其参数量也扩充至 1750 亿,在模型结构和数据运用上已与 ChatGPT 较为相似。

InstructGPT 以 GPT3 为基础运用 RLHF 训练法,其训练数据集总量约几万条,不同阶段数据来源各有侧重,少量数据下却能展现出良好效果。然而其数据集分布偏向主观指令,客观知识占比低,致使模型易出现 “幻觉妄语” 现象,相应地也有着严格的标注标准来规范回答质量。

GPT-3.5 推测利用了规模更大且更侧重事实性、客观性知识的数据集,其能力范畴突破了传统自然语言处理界限,能解读程序语言、二进制数值以及文字描述的图像等内容,展现出强大的通用性。

针对 ChatGPT 的 RLHF 训练数据,考虑到其展现出的多领域处理能力及过往模型的情况,推测其数据量远超 InstructGPT,并且提高了客观问题 prompt 的占比。

值得一提的是,这些模型的发展演变不仅体现了技术层面的数据与训练方法的革新,还对众多行业产生了深刻影响,例如在智能客服、内容创作等领域改变了原有的工作模式,促使从业者不断适应新的技术环境,寻求新的发展方向,这也彰显了 GPT 系列模型的重要价值。