2025 年初,DeepSeek 发布了 R1 系列模型。其核心突破在于:通过**强化学习(RL)**而非单纯的模仿学习,让模型自发产生了自我反思、多步验证等高级推理行为。以下是 DeepSeek-R1 训练路径的完整拆解。
一、 总览:从 R1-Zero 到 R1 的演变
在进入细节前,我们需要明确 R1 的两个版本演进:
- DeepSeek-R1-Zero:直接在 Base 模型上进行纯强化学习。它证明了推理能力可以“原生演化”,但也存在语言混杂、排版混乱等问题。
- DeepSeek-R1:为了解决上述问题,引入了四阶段训练流程(冷启动 SFT → 面向推理的 RL → 拒绝采样 SFT → 全场景 RL)。
二、 面向推理的 RL:GRPO 的“群体进化论”
对PPO\GRPO不了解的可参考: juejin.cn/post/761170…
在第二阶段,DeepSeek 引入了其核心原创算法 GRPO (Group Relative Policy Optimization),这是其训练效率远超传统路径的关键。
1. GRPO 具体是怎么做的?
传统的 PPO 算法需要一个与策略模型(Policy)同样大的 Critic(评论家)模型 来预测状态价值。对于 671B 的模型,这会导致显存占用翻倍。
- 群组比较机制:GRPO 弃用了 Critic 模型。对于每个问题(Prompt),模型生成一组(如 个)候选答案。
- 相对优势计算:它不再计算绝对分数,而是计算该回答在组内的“相对表现”。某个回答的“优势(Advantage)”取决于它比同组其他回答好多少。
2. GRPO 的反向传播(核心数学逻辑)
对反向传播不了解的可参考:juejin.cn/post/761104…
反向传播的目标是最大化期望奖励。GRPO 的损失函数设计非常精巧,直接决定了梯度如何更新:
- 梯度更新逻辑:
- 当一个回答的 (高于组内平均水平)时,反向传播产生的梯度会增加生成该路径的概率。
- 当 (低于组内平均水平)时,反向传播会抑制该路径。
- KL 散度约束:公式末尾的 项在反向传播时作为一个“锚点”,防止模型为了拿高分而导致参数偏移过大(如产生模式崩溃),确保新策略不会偏离原始参考模型太远。
- 效率优势:由于没有 Critic 网络,反向传播只作用于 Actor 网络(即模型本身),显著降低了显存消耗和计算设备间的通信开销。
3. 数据选择与奖励函数
- 数据策略:专注于数学、代码、逻辑谜题。先用几千条人类标注的高质量 CoT(思维链)种子数据进行“冷启动”,引导模型学会基本的
<think>格式。 - 奖励函数(Rule-based):
- 准确性奖励:利用编译器或答案匹配,结果正确即给分。
- 格式奖励:强制要求思维过程包裹在
<think>内,否则予以惩罚。 - 语言一致性:惩罚在推理过程中无故切换语言的行为。
三、 第三阶段:拒绝采样与综合微调(数据的二次收割)
当第二阶段的 RL 模型练就了一身“逻辑神功”后,它被用作数据工厂来生产更高质量、更具通用性的训练集。
1. 拒绝采样(Rejection Sampling)
模型对海量推理问题进行生成,然后进行“残酷淘汰”:
- 硬筛选:只有最终答案正确且推理逻辑经过验证的样本才会被保留。
- 软优化:利用 DeepSeek-V3 作为“审稿人”,剔除掉那些虽然答案正确,但思维过程冗余、语调生硬或有明显逻辑漏洞的样本。
- 规模:最终沉淀了约 60 万条 顶尖质量的推理 SFT 样本。
2. 综合微调(Combined SFT)
将这 60 万条推理数据与 20 万条通用数据(写作、角色扮演、事实 QA 等)混合,重新对 Base 模型进行微调。这一步确保了模型在具备顶级推理内核的同时,拥有正常的对话能力和“人味儿”。
四、 第四阶段:全场景 RL(最后的人格对齐)
这是最后一道工序,目标是将模型对齐到人类的真实偏好(Helpfulness & Harmlessness)。
1. 混合奖励机制
- 推理任务:继续维持“规则奖励”,保持逻辑精准度。
- 通用任务:引入偏好奖励模型(RM)。基于人类标注的对比数据,对回答的有用性和无害性进行打分。
2. 核心改进点
- 安全性增强:在思维过程(CoT)中加入自我审查,确保模型在复杂诱导下依然能识别风险。
- 提示词鲁棒性:通过对抗性 Prompt 训练,让模型在面对各种刁钻问法时依然稳健。
结语:DeepSeek 的工程美学
DeepSeek-R1 的成功证明了:AI 的智慧不一定来自更多的标注,而可以来自更严苛的规则和更自由的探索。
- GRPO 的创新:用“组内竞争”代替了昂贵的“评论员”,让超大规模 RL 成为可能。
- 蒸馏的价值:R1 生成的数据甚至成功训练出了 1.5B 这种能“越级打怪”的小模型,改写了小模型的性能上限。