模型训练核心:GPT 系列模型所依赖的数据 | 豆包MarsCode AI刷题

48 阅读6分钟

文章详细分析了 ChatGPT 模型的训练数据和计算资源,并阐明了数据和算力在模型效果中的重要作用。通过回顾 GPT 系列模型的训练数据和规模,文章展示了这些模型从初代到当前的演变过程,以及它们如何依赖于不断增长的训练数据和计算资源来提升性能。

1. GPT 初代的训练数据与规模

GPT 初代的训练方法结合了语言模型预训练和特定任务微调(fine-tuning)。其训练数据主要来自 BooksCorpus 数据集,包含了 7000 本不同风格的英文图书,数据规模较小,约为 5GB。这个数据集内容相对单一,主要是文本资料,适合用于训练长篇上下文依赖的语言模型。在该模型中,使用的参数量大约为 1.17 亿,相较于现代的 GPT 模型,这一参数量非常小。因此,尽管初代 GPT 模型能够展示出一定的语言理解能力,但它在能力和规模上相对有限。

2. GPT-2.0 的训练数据与规模

GPT-2 进行了更大规模的数据收集,使用了 WebText 数据集,该数据集包含了从 Reddit 等社交媒体平台爬取的大量高质量内容,数据总量达到了 40GB。WebText 的优势在于,它涵盖了多种语言风格、领域和语言种类,数据来源非常广泛。与初代 GPT 相比,GPT-2 不仅扩大了数据量,还着重强调了数据质量的重要性。OpenAI 强调,只有高质量的数据才能带来有效的训练,低质量数据则会使模型学习到无效或错误的信息。与 GPT 初代模型不同,GPT-2 摒弃了预训练+微调的结构,改用基于 zero-shot 的方法进行多任务学习,从而在多种 NLP 任务中获得更好的表现。

3. GPT-3.0 的训练数据与规模

GPT-3 继续推进了数据和参数规模的增加。它的主要数据来源是 Common Crawl 数据集,这一数据集是一个开源的网络爬虫,涵盖了互联网广泛的文本信息,总规模达到了 570GB。为了提高数据质量,GPT-3 对数据进行了精心的清洗,包括去除重复数据和过滤低质量的文本。此外,还加入了一些高质量的附加数据集,如 WebTextBooksWikipedia,从而增加了数据的多样性和可信度。最终,GPT-3 的模型参数数量达到了 1750 亿,远超前几代模型,使其能够处理更复杂的语言任务,并表现出更强的推理和生成能力。

4. InstructGPT 和 ChatGPT 的训练数据与强化学习

InstructGPT 和 ChatGPT 采用了 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)方法来微调 GPT-3.5 模型。与传统的监督学习不同,RLHF 使得模型能够根据人类反馈进行改进,从而提升模型的对话能力和生成能力。InstructGPT 在 GPT-3 的基础上,使用了较少的人工标注数据集来进行微调,而 ChatGPT 则进一步扩展了这一方法,结合了来自全球用户的多样化反馈。

5. 数据质量与模型效果的关系

文章强调,数据质量对模型效果的影响至关重要。尽管 GPT-3 和 GPT-3.5 使用了庞大的数据集,但低质量的文本仍然可能对模型训练产生负面影响,因此 OpenAI 对数据进行了多次清洗和过滤,确保模型能够学习到有用且高质量的信息。在 InstructGPT 和 ChatGPT 的训练过程中,虽然使用的标注数据量相对较少,但 RLHF 方法成功地利用了人类反馈,改进了模型在生成文本时的质量,特别是在确保回答真实、无偏且有帮助方面,取得了良好的效果。

6. ChatGPT 在多任务和跨领域能力的提升

ChatGPT 不仅仅停留在自然语言处理的基础任务上,它还扩展到其他复杂任务,如编程、数学计算、科学问题解答等。通过 RLHF 微调,ChatGPT 能够处理包括程序语言在内的多种任务,展示了其跨领域的能力。例如,它能够理解和解答编程问题,甚至能够根据二进制数据推断出其含义。此外,ChatGPT 还能够解析文字形式表示的图像数据,这使得它不仅能够处理文本任务,还能在视觉信息的处理上有所突破。

7. RLHF 数据集与标准

InstructGPT 和 ChatGPT 在 RLHF 阶段的训练数据量相对较少,大约为几万条数据,这表明 RLHF 方法能够在数据量较小的情况下仍然取得显著的效果。在 ChatGPT 的训练过程中,数据标注员和用户的反馈共同构成了训练数据,标注员的任务是为模型提供初步的标注数据,而用户反馈则涵盖了更多样化的内容和指令,这些反馈进一步丰富了模型的学习数据。此外,在数据标注标准方面,OpenAI 强调了 ChatGPT 生成的回答必须符合 有帮助(helpful)、真实(truthful)和 无害(harmless)等标准,以减少模型生成错误信息或不当内容的概率。

8. 总结与展望

总体而言,随着 GPT 系列模型的数据量和参数规模的不断扩大,模型的智能水平也不断提高。从初代模型的 1.17 亿参数,到 GPT-3 的 1750 亿参数,再到后续的 ChatGPT,模型的能力逐步超越了传统的自然语言处理任务,扩展到了编程、科学推理和多任务处理等领域。数据的质量和模型的训练方法,尤其是 RLHF 的应用,极大地提升了 ChatGPT 的表现,解决了幻觉妄语等问题。未来,随着更多高质量数据的收集和更先进的训练方法的应用,ChatGPT 有望在更多领域发挥更大的作用。

这篇文章通过详细剖析 ChatGPT 的数据来源、训练过程和技术细节,展示了数据和算力在 AI 模型成功中的重要性,以及 OpenAI 在这方面的创新和进展。