DeepSeek 最近火爆全球,互联网上出现了大量关于 DeepSeek 使用和部署指南的文章。
比如我昨天就写了一篇:DeepSeek 本地部署,体验丝滑浏览器对话!。
同时,DeepSeek 引出了很多“自来水”进行宣传,这也怪不得,因为 DeepSeek 确实非常优秀。
我在《小而精的AI学习圈》里上发了一段关于 DeepSeek 做的最重要的贡献的主题,内容如下:
排除技术方面的创新和成本的降低之外,DeepSeek 最重要的贡献,应该是把大模型推理技术以开源的形式公布出来。 整个社区包括西方第一次看到了可以实现的带推理思维链的大模型版本。 虽然 OpenAI 的 O1 模型率先实现了大模型的推理,但是它是闭源的,将推理过程给隐藏了,导致很多团队一直在尝试复现这个过程。 DeepSeek 独立发现了这个过程并且工程化出来,开源给社区,这是非常大的贡献。 另一个贡献就是,或许 DeepSeek 之后,预训练时代就要终结了,毕竟已经有 2 年没有下一代的预训练模型出来了,GPT5 也搁置了很久。 原因有大概三点:一是数据增量太少,二是预训练成本太高,三是下一代的训练效果不一定会遵循 scaling law。 所以,DeepSeek 后,大模型的发展可能会往“如何让模型更聪明(带推理思维)”发展,而不再是“如何给模型灌输更多知识”。
很明显,DeepSeek 是现象级的,技术也是领先的。
本文就以 DeepSeek 发布的技术报告为素材来源,拆解 DeepSeek 的技术创新关键点,让我们从底层原理上来看一看——
DeepSeek 为什么这么牛?
由于技术报告涉及到的内容过多,整个技术拆解我将分为 3 部分。
本文为第一部分,包含: Zero 和 R1 的简介、强化学习和冷启动相关背景知识。
1、R1 和 Zero 的区别
在解析DeepSeek 之前,需要先了解几款模型。
DeepSeek发布了两款模型,分别为 DeepSeek-R1 和 DeepSeek-R1-Zero。
构建这两个模型的目标是相似的,都是为了提升模型的推理能力。
特别是在数学、代码和复杂问题解决方面,但它们确实还是有一些不同。
简单来说,DeepSeek-R1 是一个更成熟、更实用的版本,而 DeepSeek-R1-Zero 是一个探索性的“纯强化学习”模型。
DeepSeek-R1-Zero 完全依靠强化学习(RL)进行训练,没有经过监督微调(SFT)。
也就是说,Zero 模型在训练时,是自己在探索可靠的推理方式。
“它在自己训练自己的思维”。
这样就带来了一些问题,比如 Zero 容易生成重复内容、可读性差、语言混杂。
为什么呢?
因为 Zero 只专注探索推理思维了,并没有给它喂足够的高质量知识,所以它虽然思维能力很好,但话却说不出来。
这就导致了它的回答效果很差。
而 DeepSeek-R1 在强化学习之前,先加入了冷启动数据进行微调(SFT),让模型从一开始就具备基础的语言和推理能力,之后再用强化学习优化推理能力。
这样可以减少 R1-Zero 版本的缺点,提高回答质量和可读性。
所以,可以认为 DeepSeek-R1 是在 R1-Zero 的基础上,通过额外的训练步骤优化了推理质量,避免了重复回答、提高了可读性,并且能更好地对齐人类偏好。
添加图片注释,不超过 140 字(可选)
如果你想研究强化学习如何影响大模型推理能力,可以看看 DeepSeek-R1-Zero。
但如果你想要一个更稳定、可用性更高的推理大模型,DeepSeek-R1 显然是更好的选择。
2、让 AI 自己“摸索”答案,而不是单纯“背答案”
过去 AI 大模型的训练方式主要依赖监督学习(Supervised Learning),也就是让 AI 通过大量人类标注的数据来学习。
换句话说,AI 只是一个“超级记忆机”,它能模仿人类的答案,但却不一定真正理解问题的本质。
而强化学习(Reinforcement Learning, RL)的出现,让 AI 不再是单纯的模仿者,而是能够主动探索、试错、优化自己推理方式的智能体。
这就像是在训练一个孩子解数学题。
监督学习相当于直接告诉他答案,而强化学习则是让他自己尝试解题,并根据最终的正确率进行调整。
接下来看一下强化学习的核心机制。
在 DeepSeek-R1-Zero 的训练过程中,研究人员直接使用强化学习,而没有先用人类标注数据进行微调(SFT)。
整个强化学习过程的核心可以拆解为以下几个部分:
策略更新(Policy Optimization)
这一过程让 AI 自己生成多个答案,并计算每个答案的得分(比如正确率),通过奖励机制(Reward Function),告诉 AI 哪种推理方式更有效。
AI 通过不断调整策略,学习到了更好的推理方式。
奖励建模(Reward Modeling)
这一步骤主要有两种奖励:准确性奖励和格式奖励。
准确性奖励(Accuracy Reward):如果 AI 生成的答案正确,就给它更高的分数。比如在数学推理任务中,可以直接用答案对错作为奖励标准。
格式奖励(Format Reward):如果 AI 以正确的逻辑方式表达推理过程,也会得到奖励。
例如 DeepSeek-R1-Zero 需要在 标签中写推理过程,在 标签中写最终答案,这样可以确保 AI 形成清晰的推理逻辑。
自我进化(Self-Evolution)
DeepSeek-R1-Zero 在强化学习的过程中,逐步学会了一些高阶推理能力,比如:
1、自我验证(Self-Verification):AI 在得出答案后,会自己检查逻辑是否合理。
2、反思能力(Reflection):如果推理过程中发现问题,AI 会重新审视自己的思路。
3、生成更长的推理链(Longer Chain-of-Thoughts):从最开始只可以进行 2-3 步的简单推理,到可以进行 10 步以上的复杂推理。
经过以上强化学习技术的加持,Zero 的训练结果如何呢?
答案是:经过数千步的强化学习训练,DeepSeek-R1-Zero 在多个推理任务上的表现都得到了显著提升。
例如:
在 AIME 2024 数学竞赛任务 中,DeepSeek-R1-Zero 的 Pass@1(即第一次生成答案的正确率)从 15.6% 提升到了 71.0%。
这些结果证明,即使完全不依赖人工标注数据,仅靠强化学习,AI 也能学会复杂的推理能力。
也就是说,Zero他这个模型证明了这件事:通过强化学习,让模型学会了复杂的推理能力,这是一大创新。
3、首个纯强化学习推理大模型
为什么 DeepSeek-R1-Zero 特别?
如第 2 部分所述,DeepSeek-R1-Zero 是首个完全基于强化学习训练的推理大模型。
它在训练过程中完全不依赖监督微调(Supervised Fine-Tuning, SFT),这在 AI 训练领域是一次大胆的尝试。
大多数 AI 训练方法都依赖人类提供的大量标注数据,但 DeepSeek-R1-Zero 选择了“让 AI 自己探索推理规律”。
在强化学习的过程中,DeepSeek-R1-Zero 自己学会了一些意想不到的能力,比如 DeepSeek-R1-Zero 出现了研究人员称之为“aha 时刻(Aha Moment)”的现象:
研究人员观察到 AI 在训练过程中会突然“顿悟”,自发地改变推理方式,让答案更加精准。
例如,在解数学方程时,AI 在某个训练阶段开始学会重新审视自己的答案,并进行修正。
这就很可怕了。
正式这种自我优化能力,让 DeepSeek-R1-Zero 在多个推理任务上取得了突破性的成绩。
4、冷启动:让 AI 训练不再“摸黑”前进
在 AI 训练中,“冷启动”(Cold Start) 这个概念类似于刚买了一部新手机,开机后发现什么都没有,必须先安装应用、下载数据,才能正常使用。
DeepSeek-R1 的训练过程也类似,如果直接用强化学习(RL)进行训练,那么 AI 一开始就会像一个“什么都不会的孩子”,不断犯错,生成一堆毫无逻辑的答案,甚至可能陷入无意义的循环。
为了解决这个问题,出现了“冷启动数据”的概念。
即在 AI 训练的早期阶段,先用一小批高质量的推理数据微调模型,相当于给 AI 提供一份“入门指南”。
看一下冷启动数据都有什么作用?
让 AI 训练更稳定——
避免 AI 训练初期陷入“胡乱生成答案”的混乱状态。
提升推理质量——
让 AI 在强化学习前就具备一定的推理能力,而不是完全从零开始。
改善语言表达——
减少 AI 生成的语言混杂和重复内容,让推理过程更清晰、可读性更高。
DeepSeek-R1 如何构建了“冷启动数据”?
DeepSeek-R1 采用了高质量、可读性强的冷启动数据,其数据来源包括:
从大型模型生成数据
通过使用 few-shot prompting(少样本提示)的方法,让更大的模型生成长链推理(Chain-of-Thought, CoT)数据。
例如,可以让 ChatGPT-4 或 DeepSeek-V3 生成详细的数学推理步骤,并筛选其中质量较高的部分。
从 DeepSeek-R1-Zero 生成数据
由于 DeepSeek-R1-Zero 具备一定的推理能力,可以从 Zero 的推理结果中挑选出可读性较好的结果,并重新整理后作为冷启动数据。
人工筛选和优化
还可以通过人工审查部分数据,确保格式规范,并优化表达方式,让 AI 生成的推理过程更加直观、清晰。
最终,DeepSeek-R1 使用了数千条冷启动数据来进行初步微调(Supervised Fine-Tuning, SFT),然后再进行强化学习训练。
冷启动数据如何改善了 AI 的推理能力?
答案是:显著提升!
研究人员对比了 DeepSeek-R1-Zero(无冷启动) 和 DeepSeek-R1(有冷启动) 的推理能力,发现:
DeepSeek-R1 语言表达更加流畅,不会出现大段重复或混杂语言。
DeepSeek-R1 的推理链条更完整、更清晰,避免了无意义的循环。
训练速度大幅提升,AI 能够更快学会高质量的推理模式。
添加图片注释,不超过 140 字(可选)
可以看出,DeepSeek-R1 通过冷启动数据显著提升了数学推理、代码推理等任务的准确率,并且在生成答案的可读性上远超 DeepSeek-R1-Zero。
冷启动数据 vs. 强化学习:哪种更重要?
冷启动数据和强化学习各有优劣,二者的结合才是最佳方案!
只有强化学习(RL)时,AI 可能会生成大量无意义的推理结果,难以理解。
只有冷启动数据(SFT)时,AI 只能模仿人类提供的答案,而不会自主探索新方法。
冷启动 + 强化学习 的结合, AI 既能学到基本推理规则,又能不断优化自己的推理策略。
DeepSeek-R1 采用 “先冷启动、后强化学习” 的策略,让 AI 既能学会基础知识,又能通过强化学习不断进化。
值得注意的是,DeepSeek-R1 的冷启动数据并不是一次性构建的,而是一个持续优化的过程:
研究人员会不断调整数据质量,筛选更有助于推理的样本。
AI 训练过程中产生的新数据也会被筛选出来,作为新的冷启动数据,不断改进模型。
好了,内容太多,第一部分就先肝到这,后面再继续~
码字不易,点个赞呗~~