青训营X豆包MarsCode 技术训练营第七课

129 阅读2分钟

模型训练核心:GPT 系列模型所依赖的数据

GPT 初代训练数据与规模

GPT 初代沿着语言模型预训练(第 3 节)+ 特定任务 finetune 的思路展开。

GPT-2.0 训练数据与规模

GPT-3.0 训练数据与规模

GPT3 的主要数据集来源于 Common Crawl(CC)  ,它是一个开源的互联网爬虫,旨在为 AI 提供充足的数据集

InstructGPT 训练数据与规模

GPT3、InstructGPT、GPT3.5、ChatGPT 这几个模型的关系如下图所示:

12-1.png

InstructGPT 模型直接在 GPT3 模型的基础上,尝试了 RLHF 训练方法。ChatGPT 实际上是在预训练语言模型 GPT3.5 基础上,结合 RLHF 训练方法得到的产物。

数据集数量

根据第 11 节对 RLHF 原理的介绍,InstructGPT 制作的训练数据集数量情况如下表所示:

其中,prompt 就是要输入给模型的指令,主要包括数据标注员自己想出来的,也包括从互联网上用户那里收集到的。SFT 即指有监督学习,RM 为训练奖励模型,PPO 即强化学习。

在 SFT 阶段,标注员提供的数据量多过用户提供的;而在 RM 阶段,用户提供的数量多过标注员;在强化学习阶段,已经完全脱离了标注员的标注数据。依据我个人粗浅的理解,标注员人数是有限的,因此构造的 prompt 语言风格、指令内容多多少少会有一定的规律,而互联网上用户的提问形式更加多样,内容覆盖也更广,在 PPO 阶段学习,使用了完全针对用户的数据集。

总体而言,这个数据量大约几万条,相比海量的预训练语言模型中用到的文本语料而言,可以说微乎其微,它说明了 RLHF 在少量的数据量上依然可以取得非常惊艳的效果

数据集分布

数据集标注标准

由此,OpenAI 在数据标注时,着重强调了 ChatGPT 模型给出的回答应当满足几个原则,即对用户有帮助(helpful)、符合事实没有胡编乱造(truthful)、不存在偏见和歧视(harmless)  。

GPT-3.5 训练数据猜测

GPT3.5 已经超越了自然语言处理这个概念

ChatGPT RLHF 训练数据猜测

总结

  • GPT 系列模型的发展伴随着数据量的指数级增长,证明了只有充足参数的大模型才能具备较高的智能。
  • InstructGPT 以较少的数据集训练得到了超过 SFT 的效果,证明了 RLHF 方法的有效性。
  • 数据的质量高低对模型训练的效果影响很大,需要克服幻觉妄语(Hallucination)。
  • ChatGPT 模型已经超越了自然语言处理的范畴。