深度拆解 DeepSeek-R1：强化学习如何“催生”大模型的推理灵魂？2025 年初，DeepSeek 发布了 R1

arxiv.org/abs/2501.12…

2025 年初，DeepSeek 发布了 R1 系列模型。其核心突破在于：通过**强化学习（RL）**而非单纯的模仿学习，让模型自发产生了自我反思、多步验证等高级推理行为。以下是 DeepSeek-R1 训练路径的完整拆解。

一、总览：从 R1-Zero 到 R1 的演变

在进入细节前，我们需要明确 R1 的两个版本演进：

DeepSeek-R1-Zero：直接在 Base 模型上进行纯强化学习。它证明了推理能力可以“原生演化”，但也存在语言混杂、排版混乱等问题。
DeepSeek-R1：为了解决上述问题，引入了四阶段训练流程（冷启动 SFT → 面向推理的 RL → 拒绝采样 SFT → 全场景 RL）。

二、面向推理的 RL：GRPO 的“群体进化论”

对PPO\GRPO不了解的可参考： juejin.cn/post/761170…

在第二阶段，DeepSeek 引入了其核心原创算法 GRPO (Group Relative Policy Optimization)，这是其训练效率远超传统路径的关键。

1. GRPO 具体是怎么做的？

传统的 PPO 算法需要一个与策略模型（Policy）同样大的 Critic（评论家）模型 来预测状态价值。对于 671B 的模型，这会导致显存占用翻倍。

群组比较机制：GRPO 弃用了 Critic 模型。对于每个问题（Prompt），模型生成一组（如 $G=64$ 个）候选答案。
相对优势计算：它不再计算绝对分数，而是计算该回答在组内的“相对表现”。某个回答的“优势（Advantage）”取决于它比同组其他回答好多少。 $A_i = \frac{r_i - \text{mean}(r_{group})}{\text{std}(r_{group})}$

2. GRPO 的反向传播（核心数学逻辑）

对反向传播不了解的可参考：juejin.cn/post/761104…

反向传播的目标是最大化期望奖励。GRPO 的损失函数设计非常精巧，直接决定了梯度如何更新：

$J_{GRPO}(\theta) \approx \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\right) A_i \right) - \beta D_{KL}(\pi_\theta || \pi_{ref}) \right)$

梯度更新逻辑：
- 当一个回答的 $A_i > 0$ （高于组内平均水平）时，反向传播产生的梯度会增加生成该路径的概率。
- 当 $A_i < 0$ （低于组内平均水平）时，反向传播会抑制该路径。
KL 散度约束：公式末尾的 $D_{KL}$ 项在反向传播时作为一个“锚点”，防止模型为了拿高分而导致参数偏移过大（如产生模式崩溃），确保新策略不会偏离原始参考模型太远。
效率优势：由于没有 Critic 网络，反向传播只作用于 Actor 网络（即模型本身），显著降低了显存消耗和计算设备间的通信开销。

3. 数据选择与奖励函数

数据策略：专注于数学、代码、逻辑谜题。先用几千条人类标注的高质量 CoT（思维链）种子数据进行“冷启动”，引导模型学会基本的 <think> 格式。
奖励函数（Rule-based）：
- 准确性奖励：利用编译器或答案匹配，结果正确即给分。
- 格式奖励：强制要求思维过程包裹在 <think> 内，否则予以惩罚。
- 语言一致性：惩罚在推理过程中无故切换语言的行为。

三、第三阶段：拒绝采样与综合微调（数据的二次收割）

当第二阶段的 RL 模型练就了一身“逻辑神功”后，它被用作数据工厂来生产更高质量、更具通用性的训练集。

1. 拒绝采样（Rejection Sampling）

模型对海量推理问题进行生成，然后进行“残酷淘汰”：

硬筛选：只有最终答案正确且推理逻辑经过验证的样本才会被保留。
软优化：利用 DeepSeek-V3 作为“审稿人”，剔除掉那些虽然答案正确，但思维过程冗余、语调生硬或有明显逻辑漏洞的样本。
规模：最终沉淀了约 60 万条 顶尖质量的推理 SFT 样本。

2. 综合微调（Combined SFT）

将这 60 万条推理数据与 20 万条通用数据（写作、角色扮演、事实 QA 等）混合，重新对 Base 模型进行微调。这一步确保了模型在具备顶级推理内核的同时，拥有正常的对话能力和“人味儿”。

四、第四阶段：全场景 RL（最后的人格对齐）

这是最后一道工序，目标是将模型对齐到人类的真实偏好（Helpfulness & Harmlessness）。

1. 混合奖励机制

推理任务：继续维持“规则奖励”，保持逻辑精准度。
通用任务：引入偏好奖励模型（RM）。基于人类标注的对比数据，对回答的有用性和无害性进行打分。

2. 核心改进点

安全性增强：在思维过程（CoT）中加入自我审查，确保模型在复杂诱导下依然能识别风险。
提示词鲁棒性：通过对抗性 Prompt 训练，让模型在面对各种刁钻问法时依然稳健。

结语：DeepSeek 的工程美学

DeepSeek-R1 的成功证明了：AI 的智慧不一定来自更多的标注，而可以来自更严苛的规则和更自由的探索。

GRPO 的创新：用“组内竞争”代替了昂贵的“评论员”，让超大规模 RL 成为可能。
蒸馏的价值：R1 生成的数据甚至成功训练出了 1.5B 这种能“越级打怪”的小模型，改写了小模型的性能上限。

深度拆解 DeepSeek-R1：强化学习如何“催生”大模型的推理灵魂？

一、 总览：从 R1-Zero 到 R1 的演变

二、 面向推理的 RL：GRPO 的“群体进化论”