DeepSeek-R1:从零开始,到超越人类

269 阅读17分钟

概述

DeepSeek-R1 是 DeepSeek 团队发布的首代开源推理大型语言模型 (LLM),包括两个主要模型:DeepSeek-R1-ZeroDeepSeek-R1

DeepSeek-R1-Zero 以纯强化学习 (RL) 训练而成,在无监督微调 (SFT) 预热的情况下直接通过大规模 RL 获得了强大的推理能力。

DeepSeek-R1 则在此基础上引入了多阶段训练流程和“冷启动”数据,以解决 R1-Zero 存在的可读性差、语言混杂等问题,并进一步提升推理性能。

其核心突破在于:证明了纯 RL 训练的可行性(DeepSeek-R1-Zero)以及结合冷启动数据的多阶段优化(DeepSeek-R1),在数学、编程等推理任务中达到与 OpenAI o1-1217 闭源模型相当的性能。

可以从下图中回顾一下 AI 领域中一些基础概念的关系

模型概述与架构

模型架构层面:R1 采用了深度 Transformer 架构,并以 DeepSeek-V3-Base 模型为基础。DeepSeek-V3 是一个拥有 6710 亿参数的混合专家模型,具备强大的通用能力。

R1 通过使用 V3 的 Base 子模型(一个数十亿参数的密集 Transformer)进行初始化,并通过强化学习训练,逐步演化出复杂的推理能力。

DeepSeek 团队利用他们自研的 “群组相对策略优化” (GRPO) 算法来进行强化学习,该算法能有效提升模型的推理表现。

此外,他们还发布了六个从 R1 蒸馏而来、参数规模从 15 亿到 700 亿不等的小型密集模型,这些模型基于 Qwen 和 Llama 架构,旨在方便下游应用部署。

这个模型的架构有点像是给它搭建了一个强大的思考框架。

就好比给一个孩子提供了丰富的学习资料和良好的学习环境,让它能够在这个基础上更好地发挥自己的聪明才智。DeepSeek-V3-Base 就像是这个 “孩子” 最初的知识宝库,而通过一系列的强化学习训练,这个 “孩子” 就能在这个宝库的基础上,学会更多复杂的思考方式,就像一个普通学生逐渐成长为一个能够解决高难度问题的学霸。

想象一个刚学数学的孩子:他最初面对复杂题目时手足无措,但通过不断尝试错误、总结经验,最终掌握解题方法。DeepSeek-R1正是通过类似的"强化学习"机制,让 AI 实现了从"死记硬背"到"逻辑推理"的跨越。

研究团队设计了一个独特的训练系统:

  • 初阶修炼(R1-Zero):让基础模型直接面对数学题、编程题等挑战,完全自主尝试解题。就像给 AI 一本没有答案的习题集,每次解题后系统自动批改,答对奖励"小红花",答错扣分。

  • 进阶指导(R1):当 AI 形成基本解题能力后,引入数千条人工标注的优质解题范例(冷启动数据),相当于给这个"自学成才"的学生请了私教,规范其解题步骤和语言表达。

  • 综合实战:最后让 AI 在包含数学、编程、常识问答的混合题库中反复训练,确保它能应对各类复杂问题。

这种"先放养后规范"的训练方式,使最终模型在保留自主推理能力的同时,输出更符合人类习惯的解题过程。例如面对几何证明题时,AI 会自动生成类似学霸的思考路径:

<思考> 已知三角形 ABC 是等边三角形,我需要证明三个内角都是 60 度。
第一步:回忆等边三角形的定义——三边长度相等。
第二步:联想到三角形内角和定理,总和为 180 度。
第三步:由于三边相等,三个角必然相等,故每个角为 180/3=60 度。
</思考>
<答案> 证明完成,每个内角均为 60 度。</答案>

训练方法与强化学习策略

训练流程采取多阶段逐步增强策略,通过交替进行监督微调(SFT)和强化学习(RL)来激发模型的推理潜能。

  1. 冷启动监督微调(Cold-Start SFT) :首先,在 DeepSeek-V3-Base 上进行初步的有监督微调。作者收集了数千条 “冷启动” 数据,对 Base 模型进行微调。这些冷启动数据旨在提升模型基础的语言表达和可读性,避免模型直接 RL 训练时出现输出混乱、难以阅读的问题。经过冷启动 SFT 后,模型具备基本的指令跟随和清晰表达能力,为后续强化学习奠定基础。

  2. 第一阶段强化学习(推理能力强化) :接下来,对经过 SFT 的模型执行大规模强化学习训练,专注于复杂推理任务。这一阶段类似于 DeepSeek-R1-Zero 的训练过程,即仅通过 RL 不断试错来提升推理正确率。具体而言,设计了奖励函数来鼓励模型产生正确且有逻辑的推理链。模型通过生成解题过程(Chain-of-Thought)和最终答案,由程序或判题模型自动判定答案正误,给予奖励信号。例如,在数学问题上,若模型最终答案正确则获得高奖励,同时过程中语言流畅度也会影响奖励。这一阶段采用 GRPO 算法不断优化模型策略,使模型的推理自我进化能力显著提高。随着数千步的 RL 训练,DeepSeek-R1-Zero 在推理基准上的表现大幅提升:如 AIME 数学竞赛题 Pass@1 准确率从 15.6% 飙升至 71.0%,并通过多答案投票提升至 86.7%,已接近 OpenAI o1-0912 模型。训练过程中模型还自然涌现出反思(reflection)和探索替代方案等复杂推理行为。然而,纯 RL 训练的模型出现了输出可读性差、掺杂中英等问题。

  3. 拒绝采样与二次监督微调 :为弥补 RL 模型在语言表达上的不足,在 RL 收敛后引入拒绝采样(rejection sampling)策略生成新的高质量 SFT 数据。具体做法是:从 RL 阶段的模型中采样大量回答,对每个问题保留最优解(例如正确且表述好的答案),配合 DeepSeek-V3 已有的监督数据(涵盖写作、问答、Self-cognition 等非推理领域)共同组成扩充的微调数据集。对这些数据进行清洗筛选,例如过滤掉混杂多语言、段落冗长或包含代码块的链式思维内容,确保数据质量。最终得到约 80 万条多样化高质量样本。随后,对 DeepSeek-V3-Base 模型进行第二次有监督微调(训练约 2 个 epoch)。这一步相当于将模型在 RL 中学到的优秀推理策略 “蒸馏” 回模型,并结合外部监督数据,使模型在保持推理能力的同时,显著改善语言流畅度、一致性和多领域能力。

  4. 第二阶段强化学习(全场景强化) :最后,对二次微调后的模型执行附加的 RL 微调,融合所有类型场景的提示进行训练。这一阶段的 RL 不再仅限于数学或编码等推理任务,而是引入多种场景,同时关注对齐人类偏好和有害内容规避等目标。为此,构建了综合的奖励信号:一方面沿用推理准确性的奖励,另一方面增加偏好模型对回答有帮助性、无害性的评分作为辅助奖励。偏好模型和偏好数据的构建借鉴了 DeepSeek-V3RLHF 中的做法,使用了类似比例的人工偏好对数据和提示分布。通过将多种奖励加权求和,模型在 RL 中同时优化推理正确性和回应的友好度。训练一直持续到各类任务的性能收敛。经过这一多信号、多场景的 RL 微调后,得到最终的 DeepSeek-R1 模型。这种 “SFT+RL+SFT+RL” 的多阶段训练策略有效结合了监督学习保证基本表现和 RL 挖掘推理潜力的优点,使模型在推理能力和语言质量上达到较佳平衡。

我们可以把训练 DeepSeek-R1 的过程想象成培养一个学生的过程。

  1. 预热训练(冷启动监督微调) :就像老师先给学生一些基础的教材和简单的题目,让学生先学会基本的表达和答题规范。这些 “冷启动” 数据就像是给模型喂了一些容易消化的知识点,让它先知道怎么用通顺的语言来回答问题,为后面更复杂的训练打下基础。

  2. 自我尝试(第一阶段强化学习) :接下来,就像把这个学生放到一个充满各种难题的环境中,让它自己去尝试解答。在这个过程中,它会不断地犯错,但也会因为答对一些题目而得到奖励。比如在解数学题时,如果它算出了正确答案,就会得到一个高分奖励,同时如果它的解题过程写得很清楚,也会得到额外的鼓励。通过这样的反复尝试和奖励机制,这个 “学生” 的解题能力逐渐提高,就像 DeepSeek-R1-Zero 在这个阶段通过强化学习不断提升自己的推理能力一样。不过,这个阶段的 “学生” 有时候说话还不太清楚,可能会出现一些混乱的表达。

  3. 优例精炼(拒绝采样与二次监督微调) :当 “学生” 自己摸索了一段时间后,老师会从它之前做过的题目中挑选出一些优秀的解答,再结合一些新的知识资料,重新给它进行一次强化训练。这就像是对它的思考方式进行一次整理和优化,让它学会用更好的方式来表达自己的想法,同时也能更好地运用各种知识。经过这一步,模型的回答变得更加流畅和准确了。

  4. 综合考核(第二阶段强化学习) :最后,就像让学生参加一场综合性的考试,面对各种类型的题目,不仅要看它能不能解出难题,还要看它的回答是不是符合人们的要求,比如有没有礼貌、会不会说一些不合适的话等。通过这样的综合训练,最终得到的 DeepSeek-R1 就像一个经过全面培养的优秀学生,既能解决复杂的问题,又能用清晰、得体的语言来回答各种问题。

核心技术突破

传统 AI 训练依赖大量人工标注数据,而 DeepSeek-R1 的核心创新在于:

  • 智能评分系统(GRPO 算法)
  • 双重奖励机制

GRPO 算法

全称:群体相对策略优化(Group Relative Policy Optimization)

核心思想:通过比较 AI 模型生成的多个答案,选出最优秀的那部分来改进模型,而不是像传统方法那样依赖人工标注的参考答案。

举个🌰: 假设让全班同学做同一道数学题,老师会先收齐所有答案,选出得分最高的前几名,然后让其他同学以这些优秀答案为标准改进自己的解题思路。GRPO 就是用这种方式训练 AI 模型。

这种技术路径大幅降低了训练成本(据估算比传统方法节省 60%以上资源),使得高水平 AI 模型的门槛进一步降低。

双重奖励机制

  • 准确性奖励:通过代码编译器验证程序正确性,用数学符号引擎验证计算步骤
  • 格式奖励:要求答案必须包含 <思考><答案> 结构化标签,确保可读性

这种设计让 AI 在训练中自然涌现出人类般的解题策略。例如在测试中观察到,当首次解答错误时,AI 会自动生成修正版:

初次尝试:设 x 为未知数。..(计算错误)
反思:第二步的方程建立有误,应改用二次函数求根公式
修正解:重新设定变量关系。..(正确答案)

双重奖励机制可以用一个生动的比喻来理解:它就像一位既严格又贴心的老师,用 “答案对”“步骤好” 两把尺子 同时训练 AI 模型

与传统方法的对比

模型蒸馏在 DeepSeek‐R1 上的应用

模型蒸馏(Knowledge Distillation)是一种模型压缩技术,其核心思想是利用一个大模型(通常被称为“教师模型”)中蕴含的知识,来指导训练一个较小的模型(通常称为“学生模型”),使得这个小模型在推理任务上能够达到与大模型相近的性能,但计算资源消耗更低、部署更为便捷。

在 DeepSeek‐R1 的场景中,DeepSeek 团队使用了大规模强化学习训练得到的 R1 模型作为教师,通过 R1 模型生成大量高质量的推理数据(例如完整的思维链、解题过程、代码实现等)。然后利用这些数据对基于 Qwen、Llama 等开源基础模型进行监督微调,也就是模型蒸馏。这样做的好处在于:

高效利用教师知识:教师模型经过大量强化学习训练,已经掌握了复杂推理任务的能力。通过蒸馏,学生模型可以“继承”这种能力,而无需重新进行大规模的 RL 训练。

降低计算和部署成本:相比直接训练一个大模型,学生模型的参数量更小(例如从 1.5B 到 70B 参数),在实际应用中所需的计算资源更低,便于在边缘设备或移动设备上部署。

实现竞争性性能:尽管参数量较少,通过教师模型提供的软标签和指导,蒸馏后的学生模型在推理任务(如数学、编程、逻辑推理)上也能达到竞争性水平,部分情况下甚至能接近大模型的表现。

实验结果与性能评估

经过一系列的训练和测试,DeepSeek-R1 展现出了非常出色的能力。

  • 数学考试 “学霸” :在一些高难度的数学考试中,比如美国的数学邀请赛,DeepSeek-R1 的成绩和目前顶尖的 AI 模型差不多,就像一个数学学霸一样,能够解决很多让普通学生头疼的难题。在一份包含 500 道很难的数学题的测试中,它的准确率也非常高,达到了 97.3%,这说明它在数学推理方面已经达到了一个很高的水平,甚至超过了很多人类选手。此外,DeepSeek 团队还构建了名为 DeepSeek-Math 的数学推理数据集来检验模型极限,结果显示 R1 在包括 MATH-500 和 AIME 在内的数学基准上已达到当前开源模型顶尖水准。

  • 编程高手 :在编程方面,DeepSeek-R1 也表现得非常出色。它参加了一个编程竞赛平台的挑战,成绩超过了 96% 的人类选手,就像一个资深的编程高手。这意味着它不仅可以写一些简单的代码,还能解决一些竞赛级别的复杂算法问题,可以作为编程助手来帮助开发者提高效率。

  • 知识问答达人 :在涉及各种领域知识的问答测试中,DeepSeek-R1 的表现也非常亮眼。它能够回答很多历史、文学、科学等方面的问题,准确率接近 91%,几乎和顶尖的闭源 AI 模型差不多。这就像一个知识问答达人,拥有广博的知识和很强的理解能力,可以为人们提供准确的信息。

  • 精准回答问题 :在一些简单的事实性问答测试中,DeepSeek-R1 不仅能给出正确的答案,而且回答更加简洁精准。比如在 OpenAI 推出的一个测试中,它比之前的模型回答得更好,就像一个经过专业训练的答题能手,能够快速准确地回答问题,让人们更容易理解和获取信息。

应用价值

DeepSeek-R1 的成功带来了多方面的应用价值。在教育领域,它可以作为智能教师或辅导工具,详细解答复杂问题,提供证明思路,帮助学生更好地理解知识。对于科研人员来说,它可以作为一个 “头脑风暴” 助手,提供新的解题思路和答案,辅助科学研究。在代码开发方面,它可以作为编程助手 AI 部署在开发者工具中,帮助自动生成代码片段、优化算法,或者根据错误信息提示调试方向。此外,DeepSeek-R1 的开源性为整个 AI 领域的研究提供了宝贵的参考模型和开源代码,有助于推动通用人工智能的发展。

思考:当 AI 开始定义智能边界

DeepSeek-R1 带来的不仅是技术突破,更引发深层次思考:

  • 在 AI 能够完成大多数认知任务的时代,教育的核心目的是什么?(也许不是传授知识,而是培养人性中最独特的那些品质:创造力、同理心、批判性思维)
  • AI 时代,教育的评估体系、课程结构和师生关系将如何重构?(传统的学科划分将被打破,未来的课程可能会围绕“问题域”而不是“知识域”来组织,教师将从知识的权威转变为学习的协作者。)
  • 当 AI 能够协助科学家进行复杂的科研工作,如何确保科研的伦理性和责任感?
  • AI 在科研中的应用是否会限制人类科学家的创新思维?(如何在利用 AI 的同时,保持人类科学家的独立思考和创新能力?)
  • 在 AI 能够处理复杂任务的同时,如何确保其决策过程的可解释性?(特别是在关键领域,如医疗、金融、司法等,如何防止 AI 成为不可理解的“黑箱先知”?)
  • AI 的广泛应用会对社会产生哪些深远的影响?(例如,AI 是否会导致大规模的失业问题,如何确保 AI 的发展惠及全人类?)
  • 如何制定 AI 的伦理准则,确保其在发展过程中符合人类的价值观和道德标准?(例如,在 AI 进行决策时,如何确保其遵循公平、公正、透明的原则?)
  • AI 的未来发展方向是什么?是继续深化现有的技术,还是探索全新的技术路径?(例如,AI 是否会向更加智能化、人性化的方向发展?)
  • 随着 AI 的不断发展,人类与 AI 之间的关系将如何演变?(是合作还是竞争,是互补还是替代?如何确保人类与 AI 的和谐共处?)
  • AI 进化是否必然导致“人机合一”? (硅基+碳基,硅碳合一)