语言模型训练范式全解析:GPT 与 LLaMA 有何不同?

132 阅读4分钟

一、GPT 模型训练流程

GPT 的训练分为以下四个阶段:

  • Pretrain(预训练)
  • SFT(Supervised Fine-tuning,有监督微调)
  • Reward Model(奖励模型)
  • PPO(Proximal Policy Optimization,近端策略优化)

二、LLaMA 模型训练流程

LLaMA 的训练流程相对复杂一些:

  • Pretrain(预训练)
  • Reward Model(奖励模型)
  • Rejection Sampling(拒绝采样)
  • SFT(有监督微调)
  • DPO(Direct Preference Optimization,直接偏好优化)

三、什么是 Pretrain(预训练)?

预训练是训练语言模型的第一步。它的本质是:

  • 把海量文本(如图书、网页、论文)输入模型,让模型学习人类是如何使用语言的。
  • 模型会尝试预测下一句话、下一个词,甚至下一个字,从而积累语言知识。训练目标是最大化段落联合概率——也就是模型一字不差地生成某段话的概率越高,模型对语言的理解就越强。
  • 简而言之,预训练阶段培养的是模型的“语言理解力”和“语感”。

四、SFT(有监督微调)

预训练让模型学会了“说话”,但它不会“做事”。

    1. 什么是 SFT?

SFT 是在预训练模型的基础上,用有标签的数据(即有问题和答案)对模型进行微调的过程。目的是让模型掌握具体的“任务技能”,比如问答、写作、翻译、代码生成等。

    1. 自监督 vs 有监督
  • 1.预训练属于自监督学习:自己构造问题和答案(比如预测下一个词)。
  • 2.SFT是有监督学习:人类提供问题和标准答案。

Pretrain+SFT两者结合,被称为半监督学习。

    1. Instruction Tuning(指令微调)

这是 SFT 的一个子类,重点是让模型理解人类指令,比如“请写一封道歉信”。这样模型不仅能回答,还能“听懂指挥”。

五、Reward Model(奖励模型)

训练到这里,模型已经能说会做,但还不够“聪明”或“有判断力”。 我们引入奖励模型(RM)来教模型判断“好回答”还是“坏回答”。 做法是:

  1. 准备海量问题;
  2. 模型生成多个回答(如 A、B、C、D);
  3. 人类对回答进行排序(如 C > B > A > D);
  4. 用这些偏好数据训练出奖励模型RM,学会对回答打分。
  5. 奖励模型就像裁判,是后续强化学习的核心。

六、PPO(近端策略优化)

有了 RM,就可以进行强化学习了。

模型生成回答 → RM打分 → 模型根据得分优化自己。 不断迭代打分+优化,模型会越来越“聪明”,回答更符合人类偏好。

这就是 PPO。

七、PPO + RM 的循环

PPO 会迭代多轮,每轮都基于最新模型生成新回答,由 RM 打分,再优化模型。循环数轮后,模型逐步逼近人类思维。

八、GPT 的完整训练流程总结:

  1. 预训练(Pretrain):打基础,学语言
  2. 有监督微调(SFT):学技能,听指令
  3. 奖励模型训练(RM):学判断
  4. 强化学习优化(PPO):变聪明
  5. 循环执行 RM + PPO:越来越聪明

最终得到一个知识丰富、能理解、会执行、懂判断的模型。

九、LLaMA 模型的训练差异

  • LLaMA 模型训练虽然也基于 Pretrain,但它的策略更偏向人类偏好:

它的 RM 训练阶段,直接基于预训练模型(而不是像 GPT 那样先经过 SFT)。

  • 引入 Rejection Sampling(拒绝采样):

对一个问题生成多个回答(如20个以上),筛出其中表现最好的3~4个用于训练。 这一步极大提升了 SFT 的质量。

十、DPO(直接偏好优化)

DPO 是 LLaMA 特有的一种优化方式:

  1. 直接使用“好回答” vs “差回答”的偏好数据来训练模型;
  2. 目标是让模型更接近好回答,远离差回答,不再需要复杂的强化学习流程。

十一、LLaMA 的完整训练流程总结:

  1. 预训练(Pretrain)
  2. 收集人类偏好数据
  3. 奖励模型(RM)
  4. 多个回答生成(Prompt → 多个 Response)
  5. 拒绝采样(筛选优质回答)+ RM评估 → 得到 SFT 数据
  6. SFT(结合领域数据)
  7. DPO(直接偏好优化)
  8. 回到第二步循环迭代

最终得到一个高度贴合人类偏好的模型。

结语:

GPT 和 LLaMA 训练路径的本质都是为了构建一个“语言能力强 + 能理解 + 会执行 + 有判断”的 AI 模型。 区别在于:

  1. GPT 依赖强化学习(PPO)+ RM 的打分机制;
  2. LLaMA 更注重偏好数据与直接优化,流程更轻量灵活。

这就是两大模型在“变聪明”的道路上的不同选择。