语言模型训练范式全解析：GPT 与 LLaMA 有何不同？GPT 模型训练流程 GPT 的训练分为以下四个阶段： Pre

一、GPT 模型训练流程

GPT 的训练分为以下四个阶段：

LLaMA 的训练流程相对复杂一些：

预训练是训练语言模型的第一步。它的本质是：

把海量文本（如图书、网页、论文）输入模型，让模型学习人类是如何使用语言的。
模型会尝试预测下一句话、下一个词，甚至下一个字，从而积累语言知识。训练目标是最大化段落联合概率——也就是模型一字不差地生成某段话的概率越高，模型对语言的理解就越强。
简而言之，预训练阶段培养的是模型的“语言理解力”和“语感”。

预训练让模型学会了“说话”，但它不会“做事”。

SFT 是在预训练模型的基础上，用有标签的数据（即有问题和答案）对模型进行微调的过程。目的是让模型掌握具体的“任务技能”，比如问答、写作、翻译、代码生成等。

1.预训练属于自监督学习：自己构造问题和答案（比如预测下一个词）。

2.SFT是有监督学习：人类提供问题和标准答案。

Pretrain+SFT两者结合，被称为半监督学习。

这是 SFT 的一个子类，重点是让模型理解人类指令，比如“请写一封道歉信”。这样模型不仅能回答，还能“听懂指挥”。

训练到这里，模型已经能说会做，但还不够“聪明”或“有判断力”。我们引入奖励模型（RM）来教模型判断“好回答”还是“坏回答”。做法是：

有了 RM，就可以进行强化学习了。

模型生成回答 → RM打分 → 模型根据得分优化自己。不断迭代打分+优化，模型会越来越“聪明”，回答更符合人类偏好。

这就是 PPO。

PPO 会迭代多轮，每轮都基于最新模型生成新回答，由 RM 打分，再优化模型。循环数轮后，模型逐步逼近人类思维。

最终得到一个知识丰富、能理解、会执行、懂判断的模型。

它的 RM 训练阶段，直接基于预训练模型（而不是像 GPT 那样先经过 SFT）。

对一个问题生成多个回答（如20个以上），筛出其中表现最好的3~4个用于训练。这一步极大提升了 SFT 的质量。

DPO 是 LLaMA 特有的一种优化方式：

最终得到一个高度贴合人类偏好的模型。

GPT 和 LLaMA 训练路径的本质都是为了构建一个“语言能力强 + 能理解 + 会执行 + 有判断”的 AI 模型。区别在于：

这就是两大模型在“变聪明”的道路上的不同选择。