DeepSeek R1 —— 用 RL 点燃推理引擎的新纪元DeepSeek 推理大模型 R1 一出，瞬间在 AI 领域

DeepSeek 推理大模型 R1 一出，瞬间在 AI 领域掀起了“核爆”级别的轰动。谁能想到，要实现尖端 AI 表现竟然可以跳过传统的监督微调（SFT）？DeepSeek 却甩手一挥，直接依靠强化学习（RL）来搞定这一切，简直就像是在高速公路上开越野车——既刺激又高效！

更夸张的是，相比 OpenAI 的 o1，DeepSeek 的成本仅仅是 3% 到 5%。这么划算的操作，接下来会直接干倒闭国内 AI 大模型六小龙，同时也迫使各大企业重新思考自己的 AI 战略？

在一系列第三方基准测试中，无论是面对复杂问题、数学计算还是代码挑战，DeepSeek 模型都轻松碾压 Meta Llama 3.1、OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5，好比在 AI 竞技场上“一展身手”，让对手只能羡慕地在一旁打酱油

微软 CEO 萨蒂亚·纳德拉在瑞士达沃斯的世界经济论坛上也忍不住赞叹：“看到 DeepSeek 的新模型，不仅推理计算和效率都让人眼前一亮，还真得让我们好好反思一下自己的步伐。”看来，连大佬也被这股 RL 风潮折服了。

简介
论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》于 2025 年 1 月发布。借助 DeepSeek-V3-Base，通过纯 RL 训练（完全不靠 SFT）来强化推理能力，这种大胆创新堪比给大脑装上了“火箭推进器”！

发布时间：2025 年 1 月
论文地址：arxiv.org/pdf/2501.12…
Github 地址：github.com/deepseek-ai…

摘要
DeepSeek-R1-Zero 是纯 RL 训练出来的“原始版” ，虽然有时会因为可读性不佳和语言混用而闹点小乌龙，但在推理任务上展现了惊人潜力。为了让模型既聪明又好“聊天”，团队引入了冷启动数据和多阶段训练，造就了更为稳健的 DeepSeek-R1，表现甚至与 OpenAI 的 o1-1217 不相上下。更妙的是，通过蒸馏技术，还能把这股推理“劲风”传递到 15 亿、70 亿、80 亿……直到 700 亿参数的小模型上，真是“以大带小”的典范。

结论
DeepSeek-R1 的成功不仅展示了 RL 在提升推理能力上的无限可能，也为未来无监督数据训练开辟了新路径。虽然在函数调用、多轮对话等任务上仍有进步空间，但团队已经在不断探索中，比如利用链式思维（CoT）和更精细的提示工程来进一步优化。未来，DeepSeek 将不断攻克语言混用和提示敏感性等难题，目标是让 AI 在更多场景下都能“机智幽默、才华横溢”。

下载与使用
无论你是喜欢用浏览器聊天，还是倾向于 OpenAI 兼容 API，DeepSeek 都为你准备好了丰富的资源：

浏览器聊天入口：chat.deepseek.com
OpenAI 兼容 API：platform.deepseek.com
各版本模型下载（DeepSeek-R1-Zero、DeepSeek-R1 以及蒸馏模型）均已开源

同系列

论文详情如下

摘要

我们介绍了第一代推理模型——DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是一款通过大规模强化学习（RL）训练而成的模型，在训练过程中未采用监督微调（SFT）作为预备步骤，其推理能力表现尤为出色。在强化学习过程中，DeepSeek-R1-Zero 自然地展现出许多强大且引人注目的推理行为。然而，该模型也面临着诸如可读性较差以及语言混杂等问题。
为了解决这些问题并进一步提升推理性能，我们推出了 DeepSeek-R1，该模型在进行强化学习之前融合了多阶段训练以及冷启动数据。
DeepSeek-R1 在推理任务上的表现可与 OpenAI-o1-1217 媲美。
为了支持研究社区，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的六个稠密模型（分别为 1.5B、7B、8B、14B、32B 和 70B）

1. 引言

近年来，大型语言模型（LLMs）经历了迅速的迭代和进化（Anthropic, 2024；Google, 2024；OpenAI, 2024a），逐步缩小了与通用人工智能（AGI）之间的差距。

最近，后训练（post-training）作为完整训练流程中的一个重要环节逐渐显现其价值。研究表明，这一阶段能够提升模型在推理任务上的准确性、使其更好地符合社会价值观，并适应用户偏好，同时所需的计算资源远低于预训练阶段。在推理能力方面，OpenAI 的 o1 系列模型（OpenAI, 2024b）率先通过延长思维链（Chain-of-Thought）的推理过程来引入推理时的扩展策略，并在数学、编程以及科学推理等多项任务上取得了显著的提升。然而，如何在测试时实现有效的扩展仍然是研究界面临的一个开放性问题。此前的一些工作探索了多种方法，包括基于过程的奖励模型（Lightman et al., 2023；Uesato et al., 2022；Wang et al., 2023）、强化学习（Kumar et al., 2024），以及蒙特卡罗树搜索和束搜索等搜索算法（Feng et al., 2024；Trinh et al., 2024；Xin et al., 2024），但这些方法均未能达到与 OpenAI o1 系列模型相媲美的通用推理性能。

本文迈出了利用纯强化学习（RL）提升语言模型推理能力的第一步。我们的目标是探索大型语言模型在不依赖任何监督数据的情况下，通过纯 RL 过程实现自我演化以培养推理能力的潜力。具体而言，我们以 DeepSeek-V3-Base 作为基础模型，并采用 GRPO（Shao et al., 2024）作为 RL 框架来提升模型的推理性能。在训练过程中，DeepSeek-R1-Zero 自然展现出众多强大且有趣的推理行为。经过数千次 RL 训练步骤后，DeepSeek-R1-Zero 在各类推理基准测试中表现出色。例如，其在 AIME 2024 上的 pass@1 得分从 15.6% 提升至 71.0%，并在采用多数投票后进一步提高至 86.7%，达到了与 OpenAI-o1-0912 相当的水平。

然而，DeepSeek-R1-Zero 也面临着可读性差和语言混杂等挑战。为了解决这些问题并进一步增强推理性能，我们推出了 DeepSeek-R1，该模型在 RL 之前融合了少量冷启动数据以及多阶段训练流程。具体来说，我们首先收集了数千条冷启动数据，用于微调 DeepSeek-V3-Base 模型；随后，采用与 DeepSeek-R1-Zero 类似的面向推理的 RL 进行训练；在 RL 接近收敛时，我们通过对 RL 检查点进行拒绝采样，结合来自 DeepSeek-V3 在写作、事实问答以及自我认知等领域的监督数据，生成新的监督微调（SFT）数据，并对 DeepSeek-V3-Base 模型进行再训练；经过新的数据微调后，再次进行一次考虑各种场景提示的 RL 过程。经过这些步骤，我们获得了一个名为 DeepSeek-R1 的检查点，其性能与 OpenAI-o1-1217 相当。

此外，我们还探索了将 DeepSeek-R1 的推理能力蒸馏到更小的稠密模型中。以 Qwen2.5-32B（Qwen, 2024b）为基础模型，直接从 DeepSeek-R1 进行蒸馏的效果优于在其上应用 RL。这表明，大型基础模型所发现的推理模式对于提升推理能力至关重要。我们开源了基于 Qwen 和 Llama（Dubey et al., 2024）系列的蒸馏模型。值得注意的是，我们的 14B 蒸馏模型大幅超越了目前最先进的开源 QwQ-32B-Preview（Qwen, 2024a），而蒸馏出的 32B 和 70B 模型在稠密模型中的推理基准测试上创下了新纪录。

1.1 贡献

后训练：在基础模型上进行大规模强化学习

• 我们直接对基础模型应用强化学习（RL），而不依赖于监督微调（SFT）作为预备步骤。此方法使模型能够在解决复杂问题时主动探索思维链（Chain-of-Thought），从而催生了 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现出自我验证、反思以及生成长思维链等能力，为研究界标志性地证明了，通过纯 RL 激励，LLMs 的推理能力能够被有效激发，而无需 SFT。此突破为未来在这一领域的进一步进展铺平了道路。

• 我们提出了开发 DeepSeek-R1 的训练流程。该流程包括两个 RL 阶段，旨在发掘更优的推理模式并使其符合人类偏好，同时包含两个监督微调（SFT）阶段，作为模型推理及非推理能力的种子。我们相信这一流程将有助于业界打造更优的模型。

蒸馏：小模型同样可以强大

• 我们证明了，大型模型的推理模式可以被蒸馏到更小的模型中，其表现优于仅通过 RL 在小模型上发现的推理模式。开源的 DeepSeek-R1 及其 API 将为研究社区未来蒸馏出更优秀的小模型带来益处。

• 利用 DeepSeek-R1 生成的推理数据，我们对社区广泛使用的多个稠密模型进行了微调。评测结果表明，蒸馏后的小型稠密模型在各项基准测试中表现异常出色。其中，DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得 55.5%，超越了 QwQ-32B-Preview；另外，DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%，在 MATH-500 上为 94.3%，在 LiveCodeBench 上为 57.2%。这些结果不仅显著超越了以往的开源模型，而且与 o1-mini 表现相当。我们还将基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 蒸馏检查点开源，惠及整个社区。

总结归纳：

本节介绍了两大方面的主要贡献：

-   **后训练部分：** 通过纯 RL 直接训练基础模型，开发了 DeepSeek-R1-Zero，该模型展现出自我验证、反思和长思维链生成等能力，并通过纯 RL 激发推理能力；同时提出了一个包含两个 RL 阶段和两个 SFT 阶段的训练流程，进而开发出性能更优的 DeepSeek-R1。
-   **蒸馏部分：** 证明了将大型模型的推理模式蒸馏到小模型中能够获得更佳性能，并通过对多个小模型的微调验证了这一点，同时开源了多个规模的蒸馏模型，为研究社区提供了强有力的工具

1.2. 评测结果综述

• 推理任务：
(1) DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1 得分，略微超越了 OpenAI-o1-1217；在 MATH-500 上则取得了令人瞩目的 97.3% 得分，与 OpenAI-o1-1217 表现相当，并显著超越其他模型。
(2) 在与编程相关的任务中，DeepSeek-R1 展现出专家级别的代码竞赛能力，其在 Codeforces 上获得了 2029 的 Elo 等级，超越了 96.3% 的参赛人群；而在工程类任务中，DeepSeek-R1 的表现略优于 DeepSeek-V3，这将有助于开发者在实际应用中更好地完成任务。

• 知识类任务：
在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中，DeepSeek-R1 表现卓越，其在 MMLU 上达到 90.8%、在 MMLU-Pro 上为 84.0%、在 GPQA Diamond 上为 71.5%，显著优于 DeepSeek-V3。尽管在这些基准测试中的表现略低于 OpenAI-o1-1217，但 DeepSeek-R1 已超越其他闭源模型，展示出其在教育类任务中的竞争优势。在事实性基准测试 SimpleQA 上，DeepSeek-R1 也优于 DeepSeek-V3，证明了其处理基于事实查询的能力。同样的趋势也体现在 OpenAI-o1 在该基准上的超越表现中。

• 其他任务：
DeepSeek-R1 同样在创意写作、通用问答、编辑、摘要等多种任务中表现出色。其在 AlpacaEval 2.0 上实现了 87.6% 的长度控制胜率，在 ArenaHard 上达到了 92.3% 的胜率，充分展示了其在处理非考试型问题时的智能表现。此外，DeepSeek-R1 在需要长文本理解的任务中也表现突出，在长文本基准测试中大幅超越 DeepSeek-V3。

总结归纳：

在推理任务方面，DeepSeek-R1 不仅在数学与编程任务上取得了优异成绩，还在工程类任务上表现出轻微优势；
在知识型任务上，DeepSeek-R1 的表现不仅显著优于其前代 DeepSeek-V3，也在某些指标上与 OpenAI-o1-1217 持平或略低，但整体超越了其他闭源模型；
在创意写作、编辑、摘要等其他多种任务中，DeepSeek-R1 同样展现出极高的能力，尤其在长文本理解上优势明显。

2. 方法

2.1 概述

以往的研究在提升模型性能方面大量依赖监督数据。在本研究中，我们证明即便不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也能显著提升模型的推理能力。此外，加入少量的冷启动数据还可进一步提高模型表现。在接下来的部分中，我们将介绍：(1) DeepSeek-R1-Zero——一种直接在基础模型上应用RL而无需任何监督数据的方法；(2) DeepSeek-R1——一种从经过数千个长思维链（Chain-of-Thought, CoT）示例微调的检查点开始进行RL的方法；(3) 将DeepSeek-R1的推理能力蒸馏到小型稠密模型中的技术。

2.2 DeepSeek-R1-Zero：基于基础模型的强化学习

强化学习在推理任务中的显著效果已在我们之前的工作中得到证明（Shao et al., 2024；Wang et al., 2023）。然而，那些工作都严重依赖于监督数据，而监督数据的采集往往耗时费力。在本节中，我们探讨了大型语言模型在完全不依赖任何监督数据的情况下，通过纯强化学习过程实现自我演化并培养推理能力的潜力。我们首先简要介绍了我们的强化学习算法，然后展示了一些令人振奋的实验结果，希望能为研究社区提供宝贵的见解。

2.2.1 强化学习算法

群体相对策略优化
为了降低强化学习的训练成本，我们采用了群体相对策略优化（GRPO）（Shao et al., 2024）。该方法舍弃了通常与策略模型同等规模的评判模型，而是通过群体得分来估计基准值。具体来说，对于每个问题 𝑞，GRPO 会从旧策略 𝜋_θ_old 中采样一组输出 {𝑜₁, 𝑜₂, …, 𝑜_G}，然后通过最大化如下目标函数来优化策略模型 𝜋_θ：

𝜀 与 β 为超参数，而 Aᵢ（优势）则根据对应于该组输出的奖励集合 {r₁, r₂, …, r_G} 计算得到，其公式为：

2.2.2 奖励建模

奖励是训练信号的来源，决定了强化学习优化的方向。为了训练 DeepSeek-R1-Zero，我们采用了一套基于规则的奖励系统，主要包括两类奖励：

• 准确性奖励：准确性奖励模型用于评估模型回答的正确性。例如，对于具有确定性结果的数学问题，要求模型以规定的格式（例如，答案框中）给出最终答案，从而便于进行可靠的规则验证。同理，对于 LeetCode 问题，也可以利用编译器基于预定义的测试用例生成反馈。

• 格式奖励：除了准确性奖励模型之外，我们还使用格式奖励模型，要求模型将其思考过程放置在 <think> 与 </think> 标签之间。

我们并未在 DeepSeek-R1-Zero 的开发中采用基于结果或过程的神经奖励模型，因为我们发现，在大规模强化学习过程中，神经奖励模型可能会遭遇奖励破解问题，并且重新训练奖励模型需要额外的训练资源，从而使整个训练流程更加复杂。

2.2.3 训练模板

为了训练 DeepSeek-R1-Zero，我们首先设计了一个简单明了的模板，用以引导基础模型遵循我们所规定的指令。如表 1 所示，该模板要求 DeepSeek-R1-Zero 首先生成推理过程，然后给出最终答案。我们有意将约束限定在这种结构性格式上，避免引入任何特定内容的偏向（例如，强制要求反思性推理或推广某种特定的问题解决策略），以确保我们能够准确观察到模型在强化学习过程中的自然演进。

2.2.4 性能、自我演化过程与“顿悟时刻”—— DeepSeek-R1-Zero

【DeepSeek-R1-Zero 的性能】
图 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试中，在整个强化学习训练过程中的性能轨迹。如图所示，随着强化学习训练的推进，DeepSeek-R1-Zero 的性能稳步且持续提升。值得注意的是，其在 AIME 2024 上的平均 Pass@1 得分显著上升，从最初的 15.6% 跃升至令人印象深刻的 71.0%，达到与 OpenAI-o1-0912 相当的水平。这一显著提升突显了我们所采用的强化学习算法在不断优化模型性能方面的高效性。

表 2 对 DeepSeek-R1-Zero 与 OpenAI 的 o1-0912 模型在多项推理相关基准测试中的表现进行了对比分析。结果显示，借助强化学习，DeepSeek-R1-Zero 能在无需任何监督微调数据的情况下，获得稳健的推理能力。这一成就值得关注，因为它证明了模型仅凭借 RL 就能有效学习并推广其推理能力。此外，通过采用多数投票机制，DeepSeek-R1-Zero 的性能还可进一步提升。例如，在 AIME 基准测试中，当采用多数投票时，其表现从 71.0% 提升至 86.7%，超过了 OpenAI-o1-0912 的表现。无论是否采用多数投票，DeepSeek-R1-Zero 都能达到如此竞争力的表现，彰显了其坚实的基础能力和进一步提升推理任务的潜力。

【DeepSeek-R1-Zero 的自我演化过程】
DeepSeek-R1-Zero 的自我演化过程生动地展示了强化学习如何驱动模型自主提升推理能力。通过直接从基础模型开始进行强化学习，我们能够在不受监督微调阶段影响的情况下，密切观察模型随时间的演进情况，特别是在处理复杂推理任务方面的能力如何逐步提升。

如图 3 所示， DeepSeek-R1-Zero 的思考时长在整个训练过程中持续增长。这种提升并非外部干预的结果，而是模型内在自我发展的体现。DeepSeek-R1-Zero 自然而然地学会利用延长的测试时计算（生成数百至数千个推理 token）来解决日益复杂的推理任务，从而使其能够更深入地探索和完善自己的思维过程。

这一自我演化过程中最为引人注目的一点是，随着测试时计算量的增加，模型会自发涌现出诸多复杂行为。例如，模型会进行反思——即重新审视并评估之前的步骤——以及探索问题解决的替代方案。这些行为并非经过显式编程，而是模型在与强化学习环境交互中自发产生的。此种自发发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够以更高的效率和准确性应对更具挑战性的任务。

【DeepSeek-R1-Zero 的“顿悟时刻”】

在 DeepSeek-R1-Zero 的训练过程中，一个特别引人关注的现象是所谓的“顿悟时刻”。如表 3 所示，这一时刻出现在模型的某个中间版本中。在这一阶段，DeepSeek-R1-Zero 学会了通过重新评估初始策略，为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的不断增长，也生动地展示了强化学习如何引导模型自发地发展出意想不到且复杂的解决策略。

这一“顿悟时刻”不仅是模型自身的一次飞跃，同时也给观察其行为的研究者带来了深刻的启示。它充分体现了强化学习的强大与优美：我们并不需要明确教会模型如何解决问题，只需提供合适的激励，模型便能自主发展出先进的问题解决策略。这一“顿悟时刻”有力地提醒我们，强化学习具备解锁人工系统新智能水平的潜力，为未来实现更自主、更适应环境的模型奠定了基础。

总结归纳：

本节详细介绍了 DeepSeek-R1-Zero 的强化学习训练流程，包括其采用的群体相对策略优化（GRPO）算法及其数学公式；
阐述了奖励建模中准确性奖励和格式奖励的设计思路，说明为何不采用神经奖励模型；
描述了训练模板的设计，确保模型按照预定格式生成思考过程和最终答案；
重点展示了 DeepSeek-R1-Zero 在 AIME 2024 等基准测试上的显著性能提升，以及模型在训练过程中自发出现的反思、探索及“顿悟时刻”，从而验证了纯 RL 训练在激发模型推理能力方面的有效性

2.3 DeepSeek-R1：带冷启动的强化学习

受到 DeepSeek-R1-Zero 取得的令人鼓舞成果的启发，两个自然的问题随之而来：
1）是否可以通过引入少量高质量数据作为冷启动，进一步提升推理性能或加速收敛？
2）如何训练出一个用户友好型的模型，该模型不仅能生成清晰连贯的思维链（Chain-of-Thought, CoT），还具备较强的通用能力？
为了解决这些问题，我们设计了一套训练 DeepSeek-R1 的流程，该流程共分为四个阶段，具体如下

2.3.1 冷启动

与 DeepSeek-R1-Zero 不同，为了避免从基础模型直接进行强化学习时出现初期不稳定的冷启动阶段，针对 DeepSeek-R1，我们构建并收集了少量长思维链数据，用于对模型进行微调，从而作为初始的 RL 执行者。为收集这些数据，我们探索了多种方法：包括采用少样本提示，以长思维链为示例；直接提示模型生成包含反思和验证的详细答案；收集以可读格式输出的 DeepSeek-R1-Zero 结果；以及通过人工标注进行后处理以优化结果。

在本工作中，我们收集了数千条冷启动数据，对 DeepSeek-V3-Base 进行微调，作为 RL 的起点。与 DeepSeek-R1-Zero 相比，冷启动数据具有以下优势：
• 可读性：DeepSeek-R1-Zero 的一个主要缺陷在于其输出内容常常不适合阅读，可能混杂多种语言或缺少用于突出显示答案的 Markdown 格式。相反，在为 DeepSeek-R1 生成冷启动数据时，我们设计了一种可读的模式——在每个回答末尾附加总结，并过滤掉那些不利于阅读的回答。具体来说，我们将输出格式定义为：|special_token|<推理过程>|special_token|<总结>，其中推理过程代表针对查询的思维链，而总结则用于概括推理结果。
• 潜力：通过结合人类先验仔细设计冷启动数据的格式，我们观察到模型在该阶段的表现较 DeepSeek-R1-Zero 有明显提升。我们相信，迭代式训练将为推理模型带来更优的效果。

2.3.2 面向推理的强化学习

在对 DeepSeek-V3-Base 使用冷启动数据进行微调后，我们采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练流程。此阶段的重点在于增强模型的推理能力，尤其是针对代码、数学、科学及逻辑推理等需要解决明确且有确定答案的问题。在训练过程中，我们发现思维链（CoT）往往会出现语言混杂的现象，特别是当强化学习提示涉及多种语言时。为缓解这一问题，我们在 RL 训练中引入了语言一致性奖励，该奖励按思维链中目标语言词汇所占比例计算。尽管消融实验表明，这种语言对齐可能会略微降低模型的部分性能，但该奖励更符合人类的阅读偏好，从而提升了输出的可读性。最后，我们将推理任务的准确性奖励与语言一致性奖励直接相加，构成最终奖励信号，并在微调后的模型上继续进行 RL 训练，直至模型在推理任务上达到收敛。

2.3.3 拒绝采样与监督微调

当面向推理的 RL 达到收敛后，我们利用该阶段得到的检查点来收集监督微调（SFT）数据，以便进行下一轮训练。与主要关注推理的初始冷启动数据不同，这一阶段融合了其他领域的数据，以增强模型在写作、角色扮演及其他通用任务方面的能力。具体来说，我们按照下述方法生成数据并对模型进行微调：

推理数据：我们整理推理提示，并通过对上述 RL 训练检查点进行拒绝采样来生成推理轨迹。在上一阶段中，我们仅纳入了可用基于规则奖励进行评估的数据；但在这一阶段，我们通过加入更多数据来扩展数据集，其中部分数据采用了生成式奖励模型——将真实答案和模型预测结果输入 DeepSeek-V3 进行判断。此外，由于模型输出有时较为混乱且难以阅读，我们对混杂语言、冗长段落和代码块的思维链进行了过滤。对于每个提示，我们采样多个回答，并仅保留正确答案。最终，我们共收集了约 60 万条与推理相关的训练样本。

非推理数据：对于非推理数据，如写作、事实问答、自我认知和翻译，我们采用了 DeepSeek-V3 的数据处理流程，并重复利用了部分 DeepSeek-V3 的 SFT 数据。对于某些非推理任务，我们会调用 DeepSeek-V3 在回答前生成一条可能的思维链；但对于简单查询（例如“hello”）则不生成思维链。最终，我们共收集了大约 20 万条与推理无关的训练样本。

我们使用上述约 80 万条数据对 DeepSeek-V3-Base 进行了两轮（epoch）的微调。

2.3.4 针对所有场景的强化学习

为进一步使模型更符合人类偏好，我们实施了第二阶段的强化学习，该阶段旨在提升模型的有用性与无害性，同时进一步优化其推理能力。具体来说，我们采用了多种奖励信号和多样化提示分布对模型进行训练。对于推理数据，我们依然沿用 DeepSeek-R1-Zero 中基于规则奖励的方法，以引导模型在数学、编程和逻辑推理等领域的学习；而对于通用数据，我们则依靠奖励模型来捕捉人类在复杂、细微场景下的偏好。我们在 DeepSeek-V3 数据处理流程的基础上，采用了类似的偏好对及训练提示分布。对于有用性，我们专注于模型输出的最终总结，确保评价时重点突显回答对用户的实用性和相关性，同时尽量不干扰底层的推理过程；对于无害性，我们则对模型的完整输出（包括推理过程和总结）进行评估，以识别并减轻可能出现的风险、偏见或有害内容。最终，奖励信号与多样化数据分布的结合，使我们能够训练出在推理任务上表现卓越，同时兼顾有用性和无害性的模型。

2.4 蒸馏：赋予小模型推理能力

为了让更高效的小型模型具备类似 DeepSeek-R1 的推理能力，我们直接利用在 DeepSeek-R1 训练流程中整理的 80 万样本，对 Qwen（Qwen, 2024b）和 Llama（AI@Meta, 2024）等开源模型进行微调。我们的研究表明，这种简单直接的蒸馏方法显著提升了小模型的推理能力。此处所采用的基础模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 以及 Llama-3.3-70B-Instruct。其中，我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。

对于蒸馏后的模型，我们仅采用监督微调（SFT），而未包含强化学习阶段，尽管引入 RL 本可以进一步显著提升模型表现。我们此处的主要目标是展示蒸馏技术的有效性，关于 RL 阶段的探索留待更广泛的研究社区继续深入。

总结归纳

冷启动阶段（2.3）
- 针对直接 RL 训练可能出现的不稳定冷启动问题，通过收集和构建少量长思维链数据对基础模型进行预微调，提升了数据可读性和模型潜力。
- 在面向推理的 RL 阶段，通过引入语言一致性奖励解决多语言混杂问题，并结合任务准确性奖励，持续训练直至收敛。
- 通过拒绝采样与监督微调，扩充数据集（包括推理数据和非推理数据），进一步丰富模型能力。
- 设立第二阶段 RL 以全面提升模型的有用性与无害性，确保在优化推理能力的同时输出质量和安全性均达标。
蒸馏阶段（2.4）
- 利用 DeepSeek-R1 生成的海量数据，对多个小型开源模型进行监督微调，证明了将大型模型的推理能力有效转移到小模型上是一种简便而高效的方法。
- 该方法不再包含 RL 阶段，但已在多个基础模型上取得了显著提升，展示了蒸馏技术在推理能力赋能方面的巨大潜力。

3.实验部分

实验部分详细介绍了评测所采用的基准、评测提示、对比基线和评测设置。
通过大量基准测试和开放式生成任务的评估，验证了 DeepSeek-R1 以及其蒸馏模型在推理、数学、编程、知识和其他任务上的优异性能。
尤其是在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 等多个关键基准上，DeepSeek-R1 展现出与 OpenAI-o1-1217 相媲美甚至更优的表现，而蒸馏模型则证明了小模型也能继承强大的推理能力

4. 讨论

4.1 蒸馏与强化学习的比较

在 3.2 节中，我们可以看到通过对 DeepSeek-R1 进行蒸馏，小型模型能够取得令人印象深刻的结果。然而，还有一个问题值得探讨：是否可以仅通过本文讨论的大规模强化学习（而不进行蒸馏）使模型达到相当的性能？

为了解答这一问题，我们在 Qwen-32B-Base 上利用数学、代码和 STEM 数据进行了大规模的强化学习训练，训练步数超过 10K，最终得到 DeepSeek-R1-Zero-Qwen-32B。实验结果（见表 6）显示，这个 32B 基础模型经过大规模强化学习训练后，其性能与 QwQ-32B-Preview 相当；但从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中均明显优于 DeepSeek-R1-Zero-Qwen-32B。

因此，我们可以得出两个结论：首先，将大型模型的推理能力蒸馏到小模型中能够取得优异效果，而仅依赖于本文所述的大规模强化学习来训练小模型，不仅需要巨大的计算资源，甚至可能无法达到蒸馏后的性能；其次，尽管蒸馏策略既经济又有效，但要实现超越当前智能边界的突破，仍然需要更强大的基础模型和更大规模的强化学习。

4.2 不成功的尝试

在开发 DeepSeek-R1 的早期阶段，我们也曾遇到过不少失败和挫折。这里分享这些失败经验，以提供一些启示，但这并不意味着这些方法完全无法用于开发有效的推理模型。

过程奖励模型（PRM）：
PRM 是一种合理的方法，旨在引导模型采用更优的策略来解决推理任务（Lightman et al., 2023；Uesato et al., 2022；Wang et al., 2023）。然而，在实际应用中，PRM 存在三个主要限制可能阻碍其最终成功：

在一般推理任务中，明确界定每个细粒度步骤非常具有挑战性。
判断当前中间步骤是否正确同样困难，自动化标注可能无法达到令人满意的效果，而手工标注又难以大规模推广。
一旦引入基于模型的 PRM，不可避免地会导致奖励破解问题（Gao et al., 2022），而且重新训练奖励模型需要额外的训练资源，使整个训练流程更加复杂。
总之，尽管 PRM 在对模型生成的前 N 个回答进行重排序或辅助引导搜索方面表现良好（Snell et al., 2024），但相比其在大规模强化学习过程中引入的额外计算开销，其优势显得有限。

蒙特卡罗树搜索（MCTS）：
受 AlphaGo（Silver et al., 2017b）和 AlphaZero（Silver et al., 2017a）的启发，我们探索了使用蒙特卡罗树搜索（MCTS）以提升推理时计算的扩展性。该方法将答案拆分为更小的部分，使模型能够系统地探索解空间。为此，我们提示模型生成多个标签，对应于搜索所需的具体推理步骤。训练过程中，我们首先利用收集到的提示，在预训练的价值模型指导下，通过 MCTS 找到答案；随后，我们使用得到的问答对对行为模型和价值模型进行训练，不断迭代优化整个过程。

然而，这种方法在训练规模扩大时遇到了一些挑战：
首先，与国际象棋那样搜索空间较为明确的任务不同，token 生成的搜索空间呈指数级增长。为此，我们为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优。
其次，价值模型直接影响生成质量，因为它指导着搜索过程的每一步。训练一个细粒度的价值模型本质上非常困难，这使得模型难以实现逐步改进。虽然 AlphaGo 的成功核心依赖于通过训练价值模型来逐步提升表现，但由于 token 生成的复杂性，这一原则在我们的设置中难以复制。

总之，尽管在与预训练价值模型配合下，MCTS 可以在推理阶段提升性能，但通过自搜索来迭代提升模型性能仍然是一项重大挑战。

总结归纳（4. Discussion 部分）：

4.1 节讨论了通过蒸馏和大规模强化学习获得推理能力的两种方法。实验表明，蒸馏方法在资源消耗和性能上均优于直接用大规模 RL 训练小模型，且要实现更高水平的智能突破仍需更强大的基础模型和更大规模的 RL。
4.2 节分享了在推理模型开发过程中一些不成功的尝试，主要包括过程奖励模型（PRM）和蒙特卡罗树搜索（MCTS）两种方法的局限性，为未来研究提供了宝贵的经验和反思。

5. 结论、局限性与未来工作

在本研究中，我们分享了通过强化学习提升模型推理能力的探索历程。DeepSeek-R1-Zero 代表了一种纯强化学习方法，在不依赖冷启动数据的情况下，在多项任务上均表现出色；而 DeepSeek-R1 则更为强大，它结合了冷启动数据和迭代式强化学习微调，最终在多项任务上达到了与 OpenAI-o1-1217 相当的水平。

此外，我们还探讨了将推理能力蒸馏到小型稠密模型中的方法。我们以 DeepSeek-R1 为教师模型生成了 80 万条训练样本，并对多个小型稠密模型进行了微调。实验结果令人鼓舞：DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中以 AIME 得分 28.9% 和 MATH 得分 83.9% 超越了 GPT-4o 和 Claude-3.5-Sonnet；其他稠密模型也均取得了令人印象深刻的表现，显著优于基于相同基础检查点进行指令微调的其他模型。

展望未来，我们计划在以下几个方向上加大对 DeepSeek-R1 的研究投入：

• 通用能力：目前，DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演以及 JSON 输出等任务上尚不及 DeepSeek-V3。未来，我们计划探索如何利用长思维链进一步提升这些领域的任务表现。

• 语言混杂：DeepSeek-R1 目前主要针对中文和英文进行了优化，这可能会导致在处理其他语言查询时出现语言混杂问题。例如，即使查询使用非中英文，DeepSeek-R1 仍可能采用英文进行推理和回答。我们计划在未来更新中解决这一局限。

• 提示工程：在评测 DeepSeek-R1 时，我们发现它对提示较为敏感，少样本提示会持续降低其性能。因此，我们建议用户直接描述问题，并采用零样本设置指定输出格式，以获得最佳效果。

• 软件工程任务：由于评测时间较长影响了强化学习过程的效率，大规模强化学习尚未在软件工程任务中广泛应用。因此，DeepSeek-R1 在软件工程基准测试上的改进不明显。未来版本将通过在软件工程数据上实施拒绝采样或在 RL 过程中引入异步评测来提高效率。

总结归纳（5. 结论、局限性与未来工作）：
本节总结了本文的主要工作和成果，指出纯强化学习方法（DeepSeek-R1-Zero）和结合冷启动数据及迭代 RL 微调的方法（DeepSeek-R1）均能显著提升模型推理能力，同时展示了利用蒸馏技术将大型模型推理能力迁移到小模型中的有效性。最后，针对通用能力、语言混杂、提示工程及软件工程任务等方面提出了未来的改进方向。

本文就像是一场关于如何训练超级“智慧小怪兽”的奇妙冒险。作者首先大胆提出：为何不让大型语言模型自己摸索、自己进化，而不依赖传统的监督微调？于是他们推出了 DeepSeek-R1-Zero，这款模型纯靠强化学习（RL）练就了一身“推理绝技”，就像一位在黑暗中摸索却总能灵光一现的天才少年。不过，这位天才少年也有个小毛病——他的思路有时候“语无伦次”，常常夹杂着多种语言，难以阅读。

为了让这位少年变得更“文雅”，研究人员又献上了冷启动数据的“营养餐”，经过多阶段训练，催生了 DeepSeek-R1。这款模型不仅能清晰、连贯地生成长思维链（CoT），而且在数学、编程等推理任务上表现得几乎不输给业界大腕 OpenAI-o1-1217。更妙的是，作者还把这份“智慧能量”通过蒸馏技术浓缩到一系列小巧玲珑的模型中，让体积更小的“小怪兽”也能拥有大智慧。

技术细节方面，论文中详细介绍了如何利用群体相对策略优化（GRPO）来降低训练成本，以及如何设计准确性和格式奖励确保模型既能正确回答，又能把“思考过程”条理清晰地展示出来。虽然在尝试过程中，过程奖励模型（PRM）和蒙特卡罗树搜索（MCTS）等方法也曾“翻车”，但这些失败的尝试反而为后续成功铺平了道路，成为科研历程中的一抹“滑稽插曲”。

总的来说，本文告诉我们：只要给模型来点“强化”（RL），再加点“冷启动”的滋补，它们就能自我进化，逐步培养出如人类般深邃的推理能力。而且，即便是小模型，也可以通过智慧的蒸馏工艺“承袭”大模型的脑洞，展现出惊人的推理水平。未来，他们还计划让这些模型在函数调用、多轮对话、以及软件工程任务中大显身手，让我们拭目以待这群“智慧怪兽”在人工智能领域的更多精彩表现。

同系列