LLM学习-MinimindPreTrain 核心：调整模型初始的无序权重变成智慧的过程，目的是填充知识 SFT 核心

PreTrain

核心：调整模型初始的无序权重变成智慧的过程，目的是填充知识

核心： 把“只会续写的基座模型”变成能够“听懂指令的对话模型” STF：需要表明哪一部分是问题，哪一部分是回答，只计算模型回答部分的loss

核心：大矩阵拆分为AB小矩阵

强化学习让模型说human的feature

包含经典的PPO、DPP、GRPO算法

openai提出的，成本才高了

核心：自己做题自己预测，对答案后修改，能够训练出对应的口味

主要包含四个模型：Actor（演员）给出答案、Critic（评论家）预测分数、Reward（裁判）给出实际分数、Ref（参考）防止模型训练偏

主要要知道的是只有Actor和Critic是需要进行训练的

核心：不用reward模型，直接按答案偏好训练，直接看学霸和学渣的答案对比学习

在原有四个模型的基础上，剔除了Critic和Reward，只保留了Actor和Ref，大大减少了显存占用，提高了运算速度通俗易懂的就是，给他好的答案和坏的答案，他只需要学习好的答案，但是他一定程度上没办法像PPO一样学习到好答案的口味，更多的是直接给好答案，特别依赖数据

DeepSeek验证了GRPO的方法，摒弃了传统的评价网络（Critic），利用群体相对优势激发出模型的推理能力

与PPO、DPO的区别： PPO无法预测推理逻辑一半的时候，逻辑链条是对的还是错的； DPO需要构造数据对，构造逻辑链里的某一步是（win，lose）

核心：对于逻辑链条类处理具有优势

GRPO的名字里有两个字最关键：Group（组）和Relative（相对），只有Actor和Ref 相当于输入一个prompt，输出好几个答案，然后对答案进行奖励分数，求平均

有点类似蚁群寻路时，找到对的路信息素会越来越浓