LLM学习-Minimind

0 阅读2分钟

image.png

PreTrain

核心: 调整模型初始的无序权重变成智慧的过程,目的是填充知识

SFT

核心: 把“只会续写的基座模型”变成能够“听懂指令的对话模型” STF: 需要表明哪一部分是问题,哪一部分是回答,只计算模型回答部分的loss

image.png

LORA

核心 : 大矩阵拆分为AB小矩阵

image.png

RLHF

强化学习让模型说human的feature

包含经典的PPO、DPP、GRPO算法

PPO算法

openai提出的,成本才高了

核心:自己做题自己预测,对答案后修改,能够训练出对应的口味

主要包含四个模型:Actor(演员)给出答案、Critic(评论家)预测分数、Reward(裁判)给出实际分数、Ref(参考)防止模型训练 偏

image.png 主要要知道的是只有Actor和Critic是需要进行训练的

推理逻辑图

image.png

DPO算法

核心:不用reward模型,直接按答案偏好训练,直接看学霸和学渣的答案对比学习

在原有四个模型的基础上,剔除了Critic和Reward,只保留了Actor和Ref,大大减少了显存占用,提高了运算速度 通俗易懂的就是,给他好的答案和坏的答案,他只需要学习好的答案,但是他一定程度上没办法像PPO一样学习到好答案的口味,更多的是直接给好答案,特别依赖数据

image.png

GRPO算法

DeepSeek验证了GRPO的方法,摒弃了传统的评价网络(Critic),利用群体相对优势激发出模型的推理能力

与PPO、DPO的区别: PPO无法预测推理逻辑一半的时候,逻辑链条是对的还是错的; DPO需要构造数据对,构造逻辑链里的某一步是(win,lose)

核心 :对于逻辑链条类处理具有优势

GRPO的名字里有两个字最关键:Group(组)和Relative(相对),只有Actor和Ref 相当于输入一个prompt,输出好几个答案,然后对答案进行奖励分数,求平均

image.png 有点类似蚁群寻路时,找到对的路信息素会越来越浓