大模型3 预训练+微调的训练范式

62 阅读1分钟

1 GPT模型的训练流程

  • Pretrain(预训练): 先做预训练,产出通用模型(数据投喂) 

  • SFT((Supervised Fine-Tuning有监督的训练):做有监督的训练(带着答案训练模型)  例如给一段话分析评价正负面 得到一个专用模型

  • Reward Model(奖励模型):在去训练一个教练(奖励模型) 

  • PPO (Proximal Policy Optimization强化学习):做强化学习更新奖励模型

反复PPO 到Reward Model 指导打分理想

2 Llama 模型训练方式的差异

  • Pretrain(预训练): 先做预训练,产出通用模型(数据投喂) 
  • Reward Model(奖励模型):类似GPT,训练偏好评分模型。
  • Rejection Sampling: 筛选高质量数据用于后续训练,(让基础模型生成多组输出,用Reward Model选择高分样本。保留Top样本作为高质量数据池(类似课程学习))。
  • SFT((Supervised Fine-Tuning有监督的训练):数据经过Reward Model过滤,可能比GPT的SFT阶段更精准。
  • DPO(Direct Preference Optimization是一种通过人类偏好数据直接优化语言模型的训练方法)直接优化人类偏好,替代PPO的复杂强化学习流程。