过年啥也没干,就是学习和研究了一下DeepSeek R1

698 阅读4分钟

DeepSeek家族树: 从V3到R1

DeepSeek不仅仅是一个单一的模型; 它是一个日益复杂的AI系统家族。进化是这样的:

DeepSeek V2:

这是利用专家混合架构的基础模型,其中在推理时仅使用专家的子集,从而大大改善了每个令牌的处理时间。它还具有多头潜在注意力,以减少内存占用。

DeepSeek V3:

该模型引入了FP8训练技术,与之前的迭代相比,帮助降低了超过42.5% 的训练成本。FP8是在llm内存储权重的不太精确的方法,但可以大大提高内存占用。然而,使用FP8的训练通常是不稳定的,并且难以获得期望的训练结果。尽管如此,DeepSeek使用了多种技巧,并实现了非常稳定的FP8训练。V3将舞台设置为已经具有成本效益的高效模型 (声称比某些闭源替代方案便宜90%)。

DeepSeek R1-Zero:

以V3为基础,团队随后引入了R1-Zero,这是第一个以推理为重点的迭代。在这里,重点是教授模型不仅要生成答案,还要在回答之前 “思考”。使用纯强化学习,该模型被鼓励生成中间推理步骤,例如,花费额外的时间 (通常是17秒以上) 来处理像 “1 + 1” 这样的简单问题。

这里的关键创新是使用组相对策略优化 (GROP)。而不是依赖于传统的过程奖励模型 (这将需要注释推理的每个步骤),GROP比较来自模型的多个输出。通过对几个潜在答案进行采样并对其进行评分 (使用基于规则的度量,例如数学精确匹配或验证代码输出),系统学会支持推理,从而得出正确的结果,而无需对每个中间思想进行明确的监督。

DeepSeek R1:

认识到R1-Zero的无监督方法产生的推理输出可能难以阅读甚至混合语言,开发人员回到了绘图板。他们使用R1-Zero的原始输出来生成 “冷启动” 数据,然后手动整理这些示例以过滤和提高推理质量。然后,这种人工后处理被用于进一步微调原始的DeepSeek V3模型-结合面向推理的强化学习和监督微调。结果是DeepSeek R1: 该模型现在可以产生可读,连贯和可靠的推理,同时仍保持其前身的效率和成本效益。

R1系列有何特别之处?

R1 (零) 最吸引人的方面是它如何在没有对推理过程进行明确监督的情况下发展推理能力。它可以通过使用冷启动数据和监督强化学习来进一步改进,以在一般任务上产生可读的推理。以下是它的不同之处:

开源与效率:

R1是开源的,允许研究人员和开发人员检查和构建其创新。它的成本效率是一个主要卖点,特别是与需要大量计算预算的闭源模型 (声称比OpenAI便宜90%) 相比。

新颖的训练方法:

该模型不是仅仅依靠注释推理 (既昂贵又耗时),而是使用基于结果的方法进行训练。它从易于验证的任务开始,例如数学问题和编码练习,可以轻松地衡量最终答案的正确性。

通过使用组相对策略优化,训练过程比较多个生成的答案以确定哪些答案满足期望的输出。这种相对评分机制允许模型学习 “如何思考”,即使中间推理是以自由式方式生成的。

过度思考?

一个有趣的观察是,DeepSeek R1有时会 “过度思考” 简单的问题。例如,当被问及 “什么是1 + 1?” 时,它可能会花费近17秒来评估不同的场景-甚至考虑二进制表示-然后得出正确的答案。这种自我质疑和验证过程,虽然乍一看似乎效率低下,但在需要更深入推理的复杂任务中可能会被证明是有利的。

工程提示:

传统的少镜头提示技术在许多基于聊天的模型中都很有效,实际上会降低r1的性能。开发人员建议使用直接问题语句和零射方法,明确指定输出格式。这确保了模型不会被可能干扰其内部推理过程的无关示例或提示引入歧途。

开始使用R1

对于那些想要实验的人:

  • 较小的变体 (7B-8B) 可以在消费者gpu上运行,甚至只能在cpu上运行
  • 较大的版本 (600B) 需要大量的计算资源
  • 通过主要云提供商提供
  • 可以通过Ollama或vLLM本地部署