1 GPT模型的训练流程
-
Pretrain(预训练): 先做预训练,产出通用模型(数据投喂)
-
SFT((Supervised Fine-Tuning有监督的训练):做有监督的训练(带着答案训练模型) 例如给一段话分析评价正负面 得到一个专用模型
-
Reward Model(奖励模型):在去训练一个教练(奖励模型)
-
PPO (Proximal Policy Optimization强化学习):做强化学习更新奖励模型
反复PPO 到Reward Model 指导打分理想
2 Llama 模型训练方式的差异
- Pretrain(预训练): 先做预训练,产出通用模型(数据投喂)
- Reward Model(奖励模型):类似GPT,训练偏好评分模型。
- Rejection Sampling: 筛选高质量数据用于后续训练,(让基础模型生成多组输出,用Reward Model选择高分样本。保留Top样本作为高质量数据池(类似课程学习))。
- SFT((Supervised Fine-Tuning有监督的训练):数据经过Reward Model过滤,可能比GPT的SFT阶段更精准。
- DPO(Direct Preference Optimization是一种通过人类偏好数据直接优化语言模型的训练方法)直接优化人类偏好,替代PPO的复杂强化学习流程。