DeepSeek-R1 Approach就是把 DeepSeek-R1: Incentivizing Reasoning

就是把 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 方法论部分梳理了一遍^_^

DeepSeek之前的工作大量依赖于监督数据来提高模型性能。然而在本研究中，我们展示了甚至在没有使用监督微调（SFT）作为冷启动的情况下，通过大规模强化学习（RL），推理能力也可以显著提高。此外，模型性能可以通过包含少量冷启动数据进一步增强。在接下来的章节中，我们介绍：

（1）DeepSeek-R1-Zero，它在没有任何SFT数据的情况下直接将RL应用于基础模型。

（2）DeepSeek-R1 从一个通过数千个长思维链（Chain-of-Thought, CoT）示例微调的checkpoint开始应用强化学习（RL）。

（3）将DeepSeek-R1的推理能力蒸馏到小型致密模型中。

DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

1. Reinforcement Learning Algorithm

Group Relative Policy Optimization 为了节省强化学习（RL）的训练成本，我们采用群组相对策略优化（GRPO），它省略了通常与策略模型大小相同的评价模型（critic model），而是直接从群组分数中估算基线。具体来说，对于每个问题 $q$ ，GRPO 从旧的策略 $\pi_{\theta_{old}}$ 中抽取一组输出 $\{o_1, o_2, \ldots, o_G\}$ ，然后通过最大化下述目标优化策略模型 $\pi_{\theta}$ ：

\mathcal{J}_{GRPO}(\theta) = \mathbb{E}[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O|q)]

\frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i, \text{clip} \left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta D_{KL}(\pi_{\theta} || \pi_{\text{ref}}) \right)

D_{KL}(\pi_{\theta} || \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\theta}(o_i|q)} - \log \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\theta}(o_i|q)} - 1,

其中 $\epsilon$ 和 $\beta$ 是超参数， $A_i$ 是优势，用一组对应于每个组内的输出的奖励 $\{r_1, r_2, \ldots, r_G\}$ 来计算：

A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \ldots, r_G\})}{\text{std}(\{r_1, r_2, \ldots, r_G\})}

2. Reward Modeling

奖励是训练信号的来源，它决定了强化学习（RL）的优化方向。为了训练 DeepSeek-R1-Zero，我们采用了一种基于规则的奖励系统，该系统主要由两种类型的奖励组成：

准确性奖励（Accuracy rewards）：准确性奖励模型用于评估响应是否正确。例如，在具有确定性结果的数学问题中，模型需要以指定的格式（例如，在框内）提供最终答案，从而实现可靠的基于规则的正确性验证。类似地，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。
格式奖励（Format rewards）：除了准确性奖励模型，我们还使用了格式奖励模型，该模型强制要求模型将其思考过程放置在 <think> 和 </think> 标签之间。

在开发 DeepSeek-R1-Zero 时，我们不应用结果或过程神经网络奖励模型，因为我们发现神经网络奖励模型可能在大规模强化学习过程中受到 reward hacking 的影响，并且重新训练奖励模型需要额外的训练资源，这使得整个训练流程复杂化。

3. Training Template

为了训练 DeepSeek-R1-Zero，我们首先设计了一个简单的模板，用以指导基础模型遵循我们指定的指令。正如 table 1 所示，该模板要求 DeepSeek-R1-Zero 首先生成一个推理过程，紧接着给出最终答案。我们有意将限制限定于此结构格式，避免任何内容特定的偏见，例如要求反思性推理或推广特定的问题解决策略，以确保我们可以准确地观察模型在强化学习过程中的自然进程。

4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

Performance of DeepSeek-R1-Zero

图2展示了在AIME 2024基准测试上DeepSeek-R1-Zero在整个强化学习训练过程中的性能轨迹。如图所示，随着强化学习训练的推进，DeepSeek-R1-Zero表现出稳定且一致的性能提升。值得注意的是，AIME 2024上的平均pass@1得分显著增加，从初始的15.6%跃升至令人印象深刻的71.0%，达到了与OpenAI-o1-0912相当的性能水平。这一显著的提升突显了我们的RL算法在优化模型性能方面的有效性。

表2提供了DeepSeek-R1-Zero和OpenAI的01-0912模型在各种与推理相关的基准测试中的对比分析。研究结果揭示，强化学习使得 DeepSeek-R1-Zero 能够在不需要任何监督微调数据的情况下获得强大的推理能力。这是一个值得关注的成就，因为它强调了模型仅通过强化学习就能有效地学习和泛化。此外，DeepSeek-R1-Zero 的性能可以通过多数投票的应用进一步提升。例如，当在 AIME 基准测试上采用多数投票时，DeepSeek-R1-Zero 的性能从 71.0% 提升到 86.7%，从而超越了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 在有或者无多数投票情况下都能实现如此竞争力的表现，突显了其强大的基础能力以及在推理任务中进一步发展的潜力。

Self-evolution Process of DeepSeek-R1-Zero DeepSeek-R1-Zero 的自我进化过程是强化学习如何能够自主驱动模型提升其推理能力的一个精彩示例。通过直接从基础模型启动强化学习，我们可以在不受监督微调阶段影响的情况下密切监测模型的进展。此方法清晰展示了模型随着时间的推移，特别是在处理复杂推理任务能力方面的演变过程。如图 3 所示，DeepSeek-R1-Zero 的思考时间在整个训练过程中表现出一致的改善。这种改善不是外部调整的结果，而是模型内在发展的结果。通过利用延长的test-time computation，DeepSeek-R1-Zero 自然地获得了解决越来越复杂的推理任务的能力。该计算范围从生成数百到数千个推理token，使得模型能够更深入地探索和完善其思维过程。这种自我进化最引人注目的方面之一是随着test-time computation的增加，涌现了复杂行为。诸如反思这样的行为——模型重新审视并重新评估其先前的步骤——以及自发地探索解决问题的替代方法。这些行为并不是被明确编程的，而是模型与强化学习环境交互的结果。这种自发发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够以更高的效率和准确性处理更具挑战性的任务。 Aha Moment of DeepSeek-R1-Zero

在训练 DeepSeek-R1-Zero 过程中观察到的一个特别有趣的现象是出现了“顿悟时刻”。如表 3 所示，这一时刻发生在模型的中间版本阶段。在这一阶段，DeepSeek-R1-Zero 学会通过重新评估最初的方法来分配更多的思考时间给一个问题。这种行为不仅证明了模型日益增强的推理能力，还生动地展示了强化学习如何导致意想不到且复杂的结果。这一时刻不仅是模型的“顿悟时刻”，也是观察其行为的研究人员的“顿悟时刻”。它凸显了强化学习的力量和美妙之处：不是明确教导模型如何解决问题，而是仅仅提供正确的激励，模型就能自主发展出先进的解决问题策略。这种“顿悟时刻”强有力地提醒我们，强化学习有潜力开启人工系统中新水平的智能，为未来更多自主和自适应模型铺平道路。

DeepSeek-R1: Reinforcement Learning with Cold Start

受到 DeepSeek-R1-Zero 可喜结果的启发，产生了两个自然问题：

引入少量高质量数据作为冷启动（cold start）能否进一步改善推理性能或加速收敛？
我们如何训练一种用户友好的模型，该模型不仅能生成清晰且连贯的思维链（Chain of Thought, CoT），还能够展示出强大的通用能力？

为了回答这些问题，我们设计了一个用于训练 DeepSeek-R1 的流程。该流程由以下四个阶段组成。

1. Cold Start

与 DeepSeek-R1-Zero 不同，为防止从基础模型进行强化学习训练的早期不稳定冷启动阶段，对于 DeepSeek-R1，我们构建并收集了一小部分长思维链数据以微调模型作为初始的强化学习actor。为了收集这些数据，我们探索了几种方法：例如使用带有长思维链的few-shot prompting作为例子，直接提示模型生成带有反思和验证的详细答案，收集 DeepSeek-R1-Zero 的输出以易读格式呈现，并通过人工标注者进行后处理来优化结果。

在这项工作中，我们收集了数千条冷启动数据来微调 DeepSeek-V3-Base 作为强化学习的起点。与 DeepSeek-R1-Zero 相比，冷启动数据的优势包括：

可读性：DeepSeek-R1-Zero 的一个主要限制是其内容通常不适合阅读。其回复可能混合多种语言或缺乏 Markdown 格式来为用户突出显示答案。相比之下，在为 DeepSeek-R1 创建冷启动数据时，我们设计了一种可读的模式，其中包括每个response末尾的摘要，并过滤掉不易阅读的response。在此，我们定义输出格式为 |special_token| reasoning_process |special_token| summary，其中reasoning_process 是查询的思维链，摘要用于总结推理结果。
潜力：通过精心设计具有人工先验知识的冷启动数据模式，我们观察到 DeepSeek-R1 相较于 DeepSeek-R1-Zero 具有更好的性能。我们相信，迭代训练是为推理模型提供更好路径的方法。

2. Reasoning-oriented Reinforcement Learning

在对冷启动数据上的 DeepSeek-V3-Base 进行微调后，我们应用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。此阶段专注于提升模型的推理能力，尤其是在像编码、数学、科学和逻辑推理这类推理密集型任务中，这些任务涉及具有明确解决方案的问题。在训练过程中，我们观察到思维链（CoT）经常出现语言混合现象，特别是在强化学习提示涉及多种语言时。为减少语言混合问题，我们在强化学习训练期间引入了语言一致性奖励，该奖励根据思维链中目标语言词汇的比例来计算。尽管消融实验显示这种对齐会导致模型性能略有下降，但这种奖励符合人类偏好，使结果更加易读。最后，我们通过直接将推理任务的准确性和语言一致性奖励相加来形成最终奖励。然后，我们对微调后的模型应用强化学习训练，直到其在推理任务上达到收敛。

3. Rejection Sampling and Supervised Fine-Tuning

当 reasoning-oriented RL收敛时，我们利用生成的 checkpoint 来收集后续轮次的监督微调（SFT）数据。checkpoint 指的是在训练过程中保存的模型的特定状态或快照，包含模型的权重和偏置，允许在训练时保存模型的中间结果。 与最初的冷启动数据主要专注于推理不同，本阶段结合来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说，我们生成数据并按照如下所述对模型进行微调。

Reasoning data 推理数据 - Rejection Sampling + RL 我们精心设计推理提示，并通过从以上强化学习训练中得出的checkpoint 执行拒绝采样来生成推理轨迹。在前一阶段中，我们仅包括可以通过基于规则的奖励进行评估的数据。然而，在此阶段，我们通过加入额外数据来扩充数据集，其中一些数据使用generative reward model，通过把 ground-truth 和 model predictions 喂给 DeepSeek-V3 进行评估。此外，由于模型输出有时会混乱且难以阅读，我们已过滤掉混合语言、长段落和代码块的思维链。对于每个提示，我们采样多个回答并仅保留正确的回答。总共，我们收集了约 60 万个与推理相关的训练样本。

Non-Reasoning data 非推理数据 - SFT 对于写作、事实问答、自我认知和翻译等非推理数据，我们采用 DeepSeek-V3 pipeline 并重用部分 DeepSeek-V3 的 SFT 数据集。对于某些非推理任务，我们调用 DeepSeek-V3 来在提示回答问题之前生成潜在的思维链。然而，对于更简单的查询，例如“hello”，我们不提供思维链作为回应。最终，我们收集了总计约 20 万个与推理无关的训练样本。

我们使用上述策划的数据集约 80 万个样本对 DeepSeek-V3-Base 进行2个 epoch 的微调。

4. Reinforcement Learning for all Scenarios

为了进一步使模型与人类偏好保持一致，我们实施了一个secondary强化学习阶段，旨在提高模型的有用性和无害性，同时优化其推理能力。具体来说，我们使用奖励信号和多样化的提示分布相结合来训练模型。对于推理数据，我们遵循 DeepSeek-R1-Zero 中概述的方法，利用基于规则的奖励来引导数学、编程和逻辑推理领域的学习过程。对于一般数据，我们依靠reward model在复杂和微妙的场景中捕捉人类偏好。我们基于 DeepSeek-V3 pipeline并采用类似的 preference pairs 和 training prompts分布。对于有用性，我们专注于最终summary，确保评估强调对用户有用和相关的响应，同时尽量减少对基础推理过程的干扰。对于无害性，我们评估模型的整个响应过程，包括推理过程和摘要，识别和缓解任何可能出现的潜在风险、偏见或有害内容。最终，奖励信号和多样化数据分布的整合使我们能够培训出在推理上表现优异的模型，同时优先考虑有用性和无害性。

Distillation: Empower Small Models with Reasoning Capability

为了装备更高效的小型模型使其具备像 DeepSeek-R1 一样的推理能力，我们直接对开源模型如 Qwen （Qwen, 2024b）和 Llama （AI@Meta, 2024）进行微调，使用和 DeepSeek-R1 所策划的 80 万个样本。我们的研究结果表明，这种简单的蒸馏方法显著增强了小型模型的推理能力。我们在此使用的基础模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为它的推理能力略优于 Llama-3.1。

对于蒸馏模型，我们仅应用监督微调（SFT）并不包括强化学习阶段，虽然加入强化学习可能会显著提升模型性能。我们这里的主要目标是展示蒸馏技术的有效性，将强化学习阶段的探索留给更广泛的研究社区。