DeepSeek-R1全解析系列(1)- 概览

755 阅读3分钟

image.png

一.前言

春节期间DeepSeek给全国人民来一场科技春晚,DeepSeek能力强,成本低的特点直接让大洋彼岸科技股狂跌不止,DeepSeek究竟有什么魔力,如何做到这么厉害的,接下来我将出一个系列专栏,深度剖析DeepSeek。 AI时代,学习不止,一起进步~

二. DeepSeek R1介绍

  • DeepSeek-R1 和 DeepSeek-R1-Zero 代表了具有推理能力的的大型语言模型(LLM)的一个里程碑。该模型在 MIT 许可证下发布,与 OpenAI 的 o1 和 o3 系列等闭源巨头相媲美,同时开创了用于推理任务的强化学习(RL)驱动框架。

  • 两个模型都利用了在DeepSeekMath中引入的组相对策略优化(GRPO),取代了传统的PPO方法,使训练既高效又可扩展。它们还利用了在DeepSeek-V2中引入的多头潜在注意力(MLA),通过将键-查询-值(KQV)矩阵投影到低维潜空间,减少了计算和内存的低效性,特别是对于长上下文处理。

  • DeepSeek-R1-Zero展示了通过纯粹的强化学习(RL)自然涌现推理能力,而无需任何监督微调(SFT)。通过仅依靠强化学习进行自我进化,DeepSeek-R1-Zero自然发展出了强大的推理行为,但也表现出诸如可读性差和语言混合等挑战。DeepSeek-R1在此基础上进行了扩展,通过引入多阶段训练和少量冷启动数据,解决了上述问题,从而提高了推理性能和可用性。

  • 通过GRPO、FP8量化以及新兴的CoT推理等创新,这两个模型在与闭源模型竞争的同时,也促进了透明度和可访问性。随着研究社区在这些创新的基础上不断前进,DeepSeek-R1标志着向高效、推理驱动的AI转变,这种开源的AI模型对所有人都是可访问的。

三. 架构基础

  • DeepSeek-R1 建立在 DeepSeek-V2 引入的基础性进展之上——特别是专家混合(MoE)和多头潜在注意力(MLA)——以及 DeepSeek-V3 引入的基础性进展之上——特别是多令牌预测(MTP)——整合了前沿的架构创新,优化了训练效率和推理性能。
  • 本节详细介绍了从DeepSeek-V2和DeepSeek-V3到DeepSeek-R1演变的架构组件,突出了使其成为领先的开源模型的关键改进,这些改进使其在推理效率和性能方面能够与闭源模型相媲美。

四. 概览

  • DeepSeek-R1 结合了多种先进技术,实现了显著的效率提升:
    • 专家混合(MoE)架构: DeepSeek-R1 采用专家混合模型,将大型模型分解为更小、更专业的子模型。这种架构允许在特定任务中仅激活相关的子模型,从而使系统能够在消费级 GPU 上高效运行。
    • 通过多头潜在注意力(MLA)实现键值存储压缩: 通过实施复杂的压缩算法,DeepSeek-R1将键值索引的存储需求减少了93%,而这些索引通常需要消耗大量的VRAM。
    • 多Token预测: DeepSeek-R1的设计旨在同时预测多个 Token,而不是一次预测一个。这种策略有效地将推理速度提高了一倍,从而提升了整体性能。
    • 低精度计算: DeepSeek-R1 采用混合精度计算,使用 8 位浮点数而不是标准的 32 位浮点数进行大量计算。这种方法大大减少了内存消耗并加快了处理速度。

总体而言,这些创新为DeepSeek-R1在训练效率方面的显著提升做出了贡献,据报道,其性能比之前的模型提高了45倍。