PreTrain
核心: 调整模型初始的无序权重变成智慧的过程,目的是填充知识
SFT
核心: 把“只会续写的基座模型”变成能够“听懂指令的对话模型” STF: 需要表明哪一部分是问题,哪一部分是回答,只计算模型回答部分的loss
LORA
核心 : 大矩阵拆分为AB小矩阵
RLHF
强化学习让模型说human的feature
包含经典的PPO、DPP、GRPO算法
PPO算法
openai提出的,成本才高了
核心:自己做题自己预测,对答案后修改,能够训练出对应的口味
主要包含四个模型:Actor(演员)给出答案、Critic(评论家)预测分数、Reward(裁判)给出实际分数、Ref(参考)防止模型训练 偏
主要要知道的是只有Actor和Critic是需要进行训练的
推理逻辑图
DPO算法
核心:不用reward模型,直接按答案偏好训练,直接看学霸和学渣的答案对比学习
在原有四个模型的基础上,剔除了Critic和Reward,只保留了Actor和Ref,大大减少了显存占用,提高了运算速度 通俗易懂的就是,给他好的答案和坏的答案,他只需要学习好的答案,但是他一定程度上没办法像PPO一样学习到好答案的口味,更多的是直接给好答案,特别依赖数据
GRPO算法
DeepSeek验证了GRPO的方法,摒弃了传统的评价网络(Critic),利用群体相对优势激发出模型的推理能力
与PPO、DPO的区别: PPO无法预测推理逻辑一半的时候,逻辑链条是对的还是错的; DPO需要构造数据对,构造逻辑链里的某一步是(win,lose)
核心 :对于逻辑链条类处理具有优势
GRPO的名字里有两个字最关键:Group(组)和Relative(相对),只有Actor和Ref 相当于输入一个prompt,输出好几个答案,然后对答案进行奖励分数,求平均
有点类似蚁群寻路时,找到对的路信息素会越来越浓