深度拆解 DeepSeek-R1:强化学习如何“催生”大模型的推理灵魂?

4 阅读4分钟

arxiv.org/abs/2501.12…

2025 年初,DeepSeek 发布了 R1 系列模型。其核心突破在于:通过**强化学习(RL)**而非单纯的模仿学习,让模型自发产生了自我反思、多步验证等高级推理行为。以下是 DeepSeek-R1 训练路径的完整拆解。


一、 总览:从 R1-Zero 到 R1 的演变

在进入细节前,我们需要明确 R1 的两个版本演进:

  • DeepSeek-R1-Zero:直接在 Base 模型上进行纯强化学习。它证明了推理能力可以“原生演化”,但也存在语言混杂、排版混乱等问题。
  • DeepSeek-R1:为了解决上述问题,引入了四阶段训练流程(冷启动 SFT → 面向推理的 RL → 拒绝采样 SFT → 全场景 RL)。

二、 面向推理的 RL:GRPO 的“群体进化论”

对PPO\GRPO不了解的可参考: juejin.cn/post/761170…

在第二阶段,DeepSeek 引入了其核心原创算法 GRPO (Group Relative Policy Optimization),这是其训练效率远超传统路径的关键。

1. GRPO 具体是怎么做的?

传统的 PPO 算法需要一个与策略模型(Policy)同样大的 Critic(评论家)模型 来预测状态价值。对于 671B 的模型,这会导致显存占用翻倍。

  • 群组比较机制:GRPO 弃用了 Critic 模型。对于每个问题(Prompt),模型生成一组(如 G=64G=64 个)候选答案。
  • 相对优势计算:它不再计算绝对分数,而是计算该回答在组内的“相对表现”。某个回答的“优势(Advantage)”取决于它比同组其他回答好多少。 Ai=rimean(rgroup)std(rgroup)A_i = \frac{r_i - \text{mean}(r_{group})}{\text{std}(r_{group})}

2. GRPO 的反向传播(核心数学逻辑)

对反向传播不了解的可参考:juejin.cn/post/761104…

反向传播的目标是最大化期望奖励。GRPO 的损失函数设计非常精巧,直接决定了梯度如何更新:

JGRPO(θ)1Gi=1G(min(πθ(oiq)πθold(oiq)Ai,clip(πθ(oiq)πθold(oiq),1ϵ,1+ϵ)Ai)βDKL(πθπref))J_{GRPO}(\theta) \approx \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\right) A_i \right) - \beta D_{KL}(\pi_\theta || \pi_{ref}) \right)

  • 梯度更新逻辑
    • 当一个回答的 Ai>0A_i > 0(高于组内平均水平)时,反向传播产生的梯度会增加生成该路径的概率。
    • Ai<0A_i < 0(低于组内平均水平)时,反向传播会抑制该路径。
  • KL 散度约束:公式末尾的 DKLD_{KL} 项在反向传播时作为一个“锚点”,防止模型为了拿高分而导致参数偏移过大(如产生模式崩溃),确保新策略不会偏离原始参考模型太远。
  • 效率优势:由于没有 Critic 网络,反向传播只作用于 Actor 网络(即模型本身),显著降低了显存消耗和计算设备间的通信开销。

3. 数据选择与奖励函数

  • 数据策略:专注于数学、代码、逻辑谜题。先用几千条人类标注的高质量 CoT(思维链)种子数据进行“冷启动”,引导模型学会基本的 <think> 格式。
  • 奖励函数(Rule-based)
    • 准确性奖励:利用编译器或答案匹配,结果正确即给分。
    • 格式奖励:强制要求思维过程包裹在 <think> 内,否则予以惩罚。
    • 语言一致性:惩罚在推理过程中无故切换语言的行为。

三、 第三阶段:拒绝采样与综合微调(数据的二次收割)

当第二阶段的 RL 模型练就了一身“逻辑神功”后,它被用作数据工厂来生产更高质量、更具通用性的训练集。

1. 拒绝采样(Rejection Sampling)

模型对海量推理问题进行生成,然后进行“残酷淘汰”:

  • 硬筛选:只有最终答案正确且推理逻辑经过验证的样本才会被保留。
  • 软优化:利用 DeepSeek-V3 作为“审稿人”,剔除掉那些虽然答案正确,但思维过程冗余、语调生硬或有明显逻辑漏洞的样本。
  • 规模:最终沉淀了约 60 万条 顶尖质量的推理 SFT 样本。

2. 综合微调(Combined SFT)

将这 60 万条推理数据与 20 万条通用数据(写作、角色扮演、事实 QA 等)混合,重新对 Base 模型进行微调。这一步确保了模型在具备顶级推理内核的同时,拥有正常的对话能力和“人味儿”。


四、 第四阶段:全场景 RL(最后的人格对齐)

这是最后一道工序,目标是将模型对齐到人类的真实偏好(Helpfulness & Harmlessness)。

1. 混合奖励机制

  • 推理任务:继续维持“规则奖励”,保持逻辑精准度。
  • 通用任务:引入偏好奖励模型(RM)。基于人类标注的对比数据,对回答的有用性和无害性进行打分。

2. 核心改进点

  • 安全性增强:在思维过程(CoT)中加入自我审查,确保模型在复杂诱导下依然能识别风险。
  • 提示词鲁棒性:通过对抗性 Prompt 训练,让模型在面对各种刁钻问法时依然稳健。

结语:DeepSeek 的工程美学

DeepSeek-R1 的成功证明了:AI 的智慧不一定来自更多的标注,而可以来自更严苛的规则和更自由的探索。

  • GRPO 的创新:用“组内竞争”代替了昂贵的“评论员”,让超大规模 RL 成为可能。
  • 蒸馏的价值:R1 生成的数据甚至成功训练出了 1.5B 这种能“越级打怪”的小模型,改写了小模型的性能上限。