原理篇| 推理模型DeepSeek-R1的诞生之路01 背景过年这几天，DeepSeek 算是彻底破圈了，火遍大江南北

01 背景

过年这几天，DeepSeek 算是彻底破圈了，火遍大江南北。他另辟蹊径，重新定义漂亮国的AI之路。

DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。

OpenAI o1和DeepSeek-R1都是推理模型，在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。

例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。去年OpenAI o1 相当于引爆了一颗原子弹，但选择闭源。DeepSeek-R1在后阶段大规模使用强化学习技术，在仅有极少数标注数据的情况下，在数学、代码、自然语言推理任务上，复现 OpenAI o1 能力（如下图）。他们通过开源并发布相对详细的介绍：在论文中DeepSeek给出了非常完整的技术实现路径，还包括了一些失败的尝试。这给其他模型厂商提供了完整的复现方式。

02 训练路径

DeepSeek-R1的训练路径是非常简洁的，这和DeepSeek-V2和V3模型积累的训练经验积累存在非常大的关系。主要分为2个阶段，强化阶段和泛化阶段。

强化阶段： DeepSeek-R1 创造性地基于 DeepSeek V3 基座模型，通过大规模强化学习技术，得到了一个纯粹通过强化学习增强的强推理模型，即 DeepSeek-R1-Zero。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则的方法，确保强化学习可以规模化，并实现面向强化学习的扩展。没有任何监督微调，仅仅单纯应用GRPO 算法进行强化学习，训练出拥有思维链用于解决复制问题的模型DeepSeek-R1-Zero模型。DeepSeek-R1-Zero 出现了“顿悟”现象，能够自发地学习到新的、更有效的推理策略。但是此时Zero模型会出现的语言混杂等问题。

泛化阶段：泛化能力的实现分为两个阶段。首先，基于 DeepSeek V3 基座模型，通过增强推理过程的可读性，生成了带有深度推理能力的 SFT（Supervised Fine-Tuning，监督微调）数据。这种数据结合了深度推理能力和传统通用 SFT 数据，用于微调大模型。随后，进一步通过强化学习训练，得到了具有强大泛化能力的强推理模型，即 DeepSeek-R1。

泛化阶段具体过程：

冷启动：在 DeepSeek-V3-Base 模型的基础上，先利用少量高质量的 “冷启动” （Cold Start）数据进行微调，然后再进行强化学习。这种方法结合了监督学习和强化学习的优势，既可以利用人类的先验知识引导模型，又可以发挥强化学习的自学习和自进化能力。在冷启动阶段，使用数千个高质量的人工标注样本对 DeepSeek-V3-Base 模型进行微调，作为强化学习训练的初始模型。

**面向推理的强化学习：**在冷启动阶段之后，R1 采用了与 R1-Zero 类似的强化学习训练流程，但针对推理任务进行了特别优化。为了解决训练过程中可能出现的语言混杂问题，R1 引入了一个语言一致性奖励（Language Consistency Reward），该奖励根据 CoT 中目标语言单词的比例来计算。

**拒绝采样与监督微调：**当面向推理的强化学习收敛后，R1 利用训练好的 RL 模型进行拒绝采样（Rejection Sampling），生成新的 SFT 数据。与之前的冷启动数据不同，这一阶段的 SFT 数据不仅包含推理任务，还涵盖了其他领域的数据，例如写作、角色扮演、问答等，以提升模型的通用能力。

**面向全场景的强化学习：**在收集了新的 SFT 数据后，R1 会进行第二阶段的强化学习训练，这一次，训练的目标不再局限于推理任务，而是涵盖了所有类型的任务。此外， R1 采用了不同的奖励信号和提示分布，针对不同的任务类型进行了优化。例如，对于数学、代码和逻辑推理等任务，采用基于规则的奖励；对于开放式问答、创意写作等任务，则采用基于模型的奖励。

总结DeepSeek-R1优秀之处：一是通过规则驱动的方法实现了大规模强化学习****；二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调，实现了推理能力的跨任务泛化。这使得 DeepSeek R1 能够成功复现 OpenAI o1 的推理水平。

03 局限

在公开的论文中指出了DeepSeek-R1的以下局限性：

通用能力：DeepSeek-R1 的通用能力（例如函数调用、多轮对话、复杂角色扮演和 json 输出）仍落后于 DeepSeek-V3。

语言混杂：R1 在处理非中英文问题时，可能会出现语言混杂现象。

提示词工程：R1 对提示词较为敏感，使用 few-shot 提示可能会降低其性能。

软件工程任务：由于 RL 训练的评估周期较长，R1 在软件工程任务上的性能提升有限。

04 意义

Anyway，DeepSeek-R1出现对于中国来说具有以下非凡的意义：

从行业开源角度来看，OpenAI 在 2024年 9月发布的 o1 率先实现的，OpenAI选择了闭源。而 DeepSeek-R1，它在历史上更像是 2023 年 Meta 的 LLaMA，丰富大模型开源的世界，很多互联网大厂纷纷部署DeepSeek相关模型，并提供API调用。

从国内算力视角来看，由于我国在算力领域处于被制裁局面，面对西方定义基础模型发展之路，我们苦于算力的局限，难以突破，就连ALL IN AI的百度CEO李彦宏称“中国不会出现下一个openAI”。而DeepSeek-R1出现破除了某些中国互联网大厂的固有思维。在非常有限的算力资源支持下，通过强大的算法创新，突破了算力“卡脖子”的限制，即使在有限的算力下，也能做出具有全球意义的领先成果。给予中国AI自主****发展信心。

从应用场景看，我国在技术应用上一直是遥遥领先，网络已经出现各种基于DeepSeek的应用落地，从而推动DeepSeek进一步走深走实，扩大DeepSeek的影响力。官方整理DeepSeek集成应用场景：github.com/deepseek-ai…