大模型3 预训练+微调的训练范式1 GPT模型的训练流程 Pretrain（预训练）：先做预训练，产出通用模型（数据投

反复PPO 到Reward Model 指导打分理想

Pretrain（预训练）：先做预训练，产出通用模型（数据投喂）
Reward Model（奖励模型）：类似GPT，训练偏好评分模型。
Rejection Sampling： 筛选高质量数据用于后续训练，（让基础模型生成多组输出，用Reward Model选择高分样本。保留Top样本作为高质量数据池（类似课程学习））。
SFT（(Supervised Fine-Tuning有监督的训练）：数据经过Reward Model过滤，可能比GPT的SFT阶段更精准。
DPO(Direct Preference Optimization是一种通过人类偏好数据直接优化语言模型的训练方法)直接优化人类偏好，替代PPO的复杂强化学习流程。