构建一个 DeepSeek 模型——DeepSeek 简介本章内容为什么 DeepSeek 是开源 AI 的转折点我

本章内容

为什么 DeepSeek 是开源 AI 的转折点
我们将在本书中逐步实现的关键创新的高层路线图
本书的结构、范围与先修要求

近几年，大型语言模型（LLM）重塑了技术版图。我们已身处这样一个世界：AI 系统能进行对话、写代码、撰写文章，甚至以近似人类的方式解决复杂问题。但如果你是一个对技术充满好奇的读者，是否可以从零开始构建这样一个强大的 AI 模型？

如果你能在代码与理论的并行推进中，以“搭建”的方式理解最前沿 LLM 的内部机理，会怎样？这正是本书希望带你完成的事。

我们将剖析一款前沿开源 LLM——DeepSeek——的各层组件，并从底层实现它的关键创新。到本书结尾，你不仅会理解 DeepSeek 的独特之处，还能亲手实现这些创新，在此过程中收获对现代 AI 开发至关重要的洞见。

我们会先解释 DeepSeek 的重要性：它如何成为开源 AI 的转折点，以及我们为何选择它作为全书的核心示例。随后，我们会给出 DeepSeek 核心创新的路线图——诸如多头潜在注意力（Multi-Head Latent Attention） 、专家混合（Mixture-of-Experts, MoE） 、多 Token 预测（Multi-Token Prediction） 、**FP8 量化（8 位浮点）**等名词或许现在看上去有些陌生，但我们会用平易近人的方式介绍它们，并解释它们为何重要。

接着，我们会明确本书的结构、你将学到什么（以及哪些内容不在本书范围内），以确保你的目标与本书一致。然后，我们会列出你需要的准备工作：背景知识、软硬件环境等。别担心——你并不需要一台超算！

在正式出发前，简单交代一下背景：本书灵感源自 Vizuara 在 YouTube 上的系列视频《从零构建 DeepSeek》。成千上万的学习者跟随视频，一起动手实现 DeepSeek 风格 LLM 的各个组件。我们将把在学术与工业中的经验、以及该系列实践中的一线心得，凝练为一本系统化的教程。

1.1 为什么选择 DeepSeek？开源 AI 的转折点

模型如此之多，你或许会问：为什么偏偏是 DeepSeek？它有什么特别之处，值得我们写一本书来“从零实现”？简短答案：DeepSeek 标志着开源 AI 的拐点——它首次让一个公开可得的模型在性能上直逼甚至匹敌顶级的闭源模型。

图 1.1 展示了与 DeepSeek 聊天界面的一次简单交互。

（图 1.1 与 DeepSeek 聊天界面的简单交互）

回望 DeepSeek 之前的 AI 生态：2020 年代初期，LLM 领域基本由少数科技巨头与研究机构把持。OpenAI 的 GPT 系列、Google 的 PaLM 等闭源模型能力领先，但通常只能通过付费 API 访问。开源社区也有 BERT、一些较小的 GPT 风格模型等成果，但与闭源旗舰之间始终存在代差。到了 2023–2024 年，格局开始松动：Meta 以较开放的方式向研究者发布 LLaMA、LLaMA-2，更多组织也强调 AI 的开放科学。

DeepSeek 诞生于这样的背景，却将“开放”推向新高度：不仅真正放权开放权重，还在技术边界上不断突破。DeepSeek 成立于 2023 年（总部在中国，由研究者梁文峰领导），并在很短时间内以开源巨型 LLM 引起轰动，其性能直追最强闭源模型。

DeepSeek 的里程碑是首个重要发布——通常称作 DeepSeek-R1。图 1.2 为介绍 R1 的论文题目与摘要的截图（arxiv.org/pdf/2501.12…）。

（图 1.2 DeepSeek-R1 研究论文的题目与摘要）

这一模型立即令 AI 社区震惊。尽管完全开放，R1 的智能水平已可与 OpenAI、Google 等巨头的顶级模型比肩。在 2025 年初发布时，它在多项高难度推理基准上与 OpenAI 的 o1-1217 旗鼓相当、甚至超出，包括数学问题求解（AIME 2024）与竞技编程（Codeforces）等。

这意味着开源与闭源 AI 的性能差距被压缩到了历史新低。

更令人震撼的是：据称 DeepSeek 的训练成本仅为 OpenAI 顶级模型的一小部分。对于我们这些学习与构建者而言，R1 是绝佳的案例，因为它的成功来源于可理解的技术突破。这就引出了本书将逐一回答的关键问题：

DeepSeek-R1 如何以更低的训练成本达到 SOTA（最先进）水平？
R1 的架构有哪些新颖之处？
R1 的预训练与后训练有哪些创新？

本书后续章节会逐一解析这些问题。DeepSeek 团队公开了大量方法论，我们将充分利用这些一手信息。通过复现 DeepSeek 的关键元素，我们可以在实践中体验最前沿技术——包括前述的新型注意力机制、新训练目标、极限规模化策略与创新压缩手段。

从历史视角看，DeepSeek 标志着开源 AI 与科技巨头正面交锋并站稳脚跟的时刻。复现 DeepSeek 的部分能力，等于沿着当下最先进 AI 研究的路径再走一遍。若你立志于 AI 研究，这种实践价值非同小可。

还有一个更“哲学”的理由：DeepSeek 体现了 AI 民主化 的精神。昔日封闭的知识，如今被分享。DeepSeek 的作者发布了详尽的技术报告，而我们更进一步，把它们转化为人人可学、可动手的教程。

当你亲手构建过某个系统，你对其掌握的深度，是单纯读论文或调用 API 无法替代的。我们的愿景是：让更多人理解并能亲手实现先进模型，从而扩大 AI 创新的参与面与速度。今天你学习 DeepSeek；明天，也许你就能基于这些经验提出下一代伟大点子。

1.2 我们将要构建的关键创新

现在，让我们给出从零实现 DeepSeek 的体系结构路线图，明确那些使 DeepSeek 有别于标准 Transformer 语言模型的关键创新。理解这些特定组件至关重要，因为它们正是针对扩展语言模型时的基础瓶颈所提出的定向解决方案。无论是多头潜在注意力（Multi-Head Latent Attention）还是专家混合（Mixture-of-Experts），每一项创新都分别瞄准了计算复杂度、内存带宽或参数规模化等不同挑战。通过将这些系统拆解并实现，我们能够从第一性原理出发，理解当代 LLM 设计所涉及的工程权衡。本书的做法是把每一项创新都当作一个案例研究：先分析标准方法的局限，再从零搭建其高级替代方案。

1.2.1 架构（Architecture）

DeepSeek 的架构建立在支撑 GPT-3 与 ChatGPT 等模型的成熟 Transformer 基座之上，但它引入了若干关键创新以突破性能瓶颈。要理解 DeepSeek 的独特之处，首先需要回看标准的 Transformer 基本构件。

多数现代 LLM 的核心是若干个“相同结构”的堆叠层。每一层包含两个主要子组件：多头自注意力（multi-head self-attention），用于衡量输入中不同 token 的重要性；以及前馈神经网络（feed-forward neural network），对信息进一步加工。图 1.3 展示了这种标准架构的细节视图。

图 1.3 标准 Transformer 块的细节视图，这是 LLaMA 与 GPT 系列等模型所采用的基础架构。它由“多头注意力模块”和“前馈网络（NN）”组成。

DeepSeek 的关键架构创新在于，用更高效且更强大的替代件分别取代了这两个标准子组件。如图 1.4 所示，标准多头注意力被“多头潜在注意力（MLA, Multi-Head Latent Attention）”替换，而前馈网络被“DeepSeek-Mixture-of-Experts（MoE）”结构替换。

图 1.4 DeepSeek 模型架构的简化视图。它在标准 Transformer 基础上，将核心组件替换为 MLA 与 MoE；同时使用 RMS Norm（均方根归一化）与一种特殊的“解耦 RoPE（Decoupled RoPE，旋转位置编码）”。

这两项架构性变更（MLA 与 DeepSeek-MoE）分别针对 LLM 扩展中的主要挑战提供定向解法。

在上述架构更替之外，DeepSeek 还引入了先进的训练与效率技术：名为“多 Token 预测（MTP, Multi-Token Prediction）”的新训练目标可提升学习与推理速度；而 FP8 量化（8 位浮点格式）则面向计算效率与资源利用进行优化。

综合来看，MLA、MoE、MTP 与 FP8 量化构成了 DeepSeek 技术进步的四大支柱。它们分别面向 LLM 扩展中的不同基础难题：通过更高效的注意力、可扩展的模型容量、更快的学习/推理目标、以及（含推理端）极致效率的量化方案，来推动整体效能上限。

各自对应的痛点如下：

MLA：缓解长序列注意力中的速度与内存瓶颈。
MoE：解决模型容量与可扩展性问题。
MTP：通过一次预测多个 token 来提升学习与推理速度。
FP8 量化：提升计算效率与资源利用率。

1.2.2 训练（Training）

除了核心架构，DeepSeek 在训练与模型精炼流程上也有创新。其训练流水线被精心设计以在大规模训练中尽可能提高效率。例如，DeepSeek 采用了内部昵称为 DualPipe 的优化调度策略，将不同训练任务重叠执行，从而保持硬件高利用率。实际做法是：数据加载、预处理与神经网络计算彼此协同，当一个 batch 正在被模型计算时，下一批数据已并行准备就绪，尽可能避免 GPU 空闲。

图 1.5 单设备上的 DualPipe 训练流水线示意。通过重叠前向传播（实心块）、反向传播（斜线块）与综合计算，此调度策略在大规模训练中最大化硬件利用率并最小化 GPU 空转。

图 1.5 展示了设备 1 在双流水线中的时间线：先进行前向，再进行反向。关键在于进入“稳态”后，新 batch 的前向会与上一个 batch 的反向并行（用斜线块表示）。这种重叠确保设备在训练过程中始终保持高占用。

1.2.3 后训练（Post-training）

DeepSeek 训练得到的基础模型称为 DeepSeek-v3。在其之上，DeepSeek-v3 经过多个后训练步骤，最终得到 DeepSeek-R1。流程如图 1.6 所示。

图 1.6 将 DeepSeek-V3 基座演化为 DeepSeek-R1 的多阶段后训练流水线。该流程结合了强化学习（纯 RL）、数据生成（拒绝采样）与微调，以灌注更强的推理能力。

下面是 DeepSeek-R1 后训练五个步骤的极简说明：

基础起步（Foundation） ：以轻度微调后的基座（DeepSeek-V3）作为起点，使用相对小规模的“冷启动”数据集。
纯 RL（Pure RL） ：引入强化学习算法，让模型通过试错探索并形成推理模式。这种“无人监督”的策略，使模型在无显式人类指引下也能发现有效解题策略。
自标注（Self-Labeling） ：采用拒绝采样技术。模型生成多个候选回答，并挑选质量最高者，形成自有的合成训练数据。
数据融合（Blending Data） ：将这些合成数据与有监督样本融合，以在质量与领域广度之间取得平衡。
最终 RL（Final RL） ：在多样化提示分布上进行一次全面的强化学习阶段，以增强模型在不同任务类别与输入形式上的稳健性与泛化能力。

图 1.7 引自 2025 年 1 月发布的 DeepSeek-R1 论文：在多个基准上，DeepSeek-R1 与其他领先模型（包括 OpenAI 的推理模型）旗鼓相当甚至更优。

另一项重要的后训练技术是知识蒸馏与模型压缩：把大型“教师模型”（如完整的 DeepSeek）中的知识压缩进一个或数个更小、更实用的“学生模型”。如图 1.8 所示。

图 1.8 知识蒸馏概念示意。大型而强劲的“教师”模型（如 DeepSeek-R1）用于生成训练数据，从而教授更小、更高效的“学生”模型，在保留能力的同时避免高昂算力成本。

DeepSeek-R1 基于约 6710 亿参数 的 DeepSeek-v3。在论文发布时，团队同时开源了体量更小的蒸馏模型，规模低至 1.5B 参数。具体而言，DeepSeek 向社区开放了基于 Qwen2.5 与 Llama3 系列的 1.5B、7B、8B、14B、32B、70B 等检查点，这些小模型依然具备很强的性能与效率。

小结

DeepSeek 的路线图在多个层面同步发力：

新颖的架构组件：MLA 与 MoE
更聪明的训练目标：MTP，并配合前沿的 FP8 精度/量化
高效的大规模训练流水：计算与通信/数据准备的重叠等
后训练：以 RL 驱动的推理能力 + 知识蒸馏与压缩

在接下来的章节中，我们将逐一构建这些组件，并展示它们如何拼接成一个完整的“迷你 DeepSeek”模型。

1.3 书籍结构与范围（Book structure and scope）

我们将全书组织为清晰的“四阶段路线图”。该结构循序渐进，每一阶段都直接建立在上一阶段的知识与代码之上。我们将从现代 LLM 推理的基础构件出发，逐步走过 DeepSeek 的核心架构创新，最后到赋予模型强大能力的高级训练与后训练技术。

图 1.9 给出了整个过程的高层概览。它可视化了四个明确阶段，并列出我们将在每个阶段实现的关键技术概念。你可以把它看作本项目的总蓝图，也是你学习旅程的目录。

图 1.9 本书中构建“迷你 DeepSeek”模型的四阶段路线图。我们将从基础概念（阶段 1）与核心架构（阶段 2）推进到高级训练（阶段 3）与后训练技术（阶段 4），并在过程中实现每个关键创新。

阶段 1 与阶段 2 对应 DeepSeek 的架构创新；阶段 3 对应训练流水线；阶段 4 对应后训练流水线。

阶段 1：理解“键值缓存（KV Cache）”的含义，以及它为何是理解多头潜在注意力（MLA，DeepSeek 的关键创新之一）的基石。
阶段 2：学习多头潜在注意力（MLA）与专家混合（MoE）。我们将以可视化方式理解 MLA/MoE 的工作原理，并进行实作编码。
阶段 3：实现 DeepSeek 的训练流水线，涵盖：
- 多 Token 预测（MTP，Multi-token Prediction）
- FP8 量化
- 双管道并行（Dual Pipe Parallelism）
阶段 4：实现 DeepSeek 采用的后训练技术：
- 监督式微调（SFT）
- 强化学习（RL）
- 模型蒸馏（Distillation）

1.4 本书会教你什么、不会教你什么

本书以动手实践的方式带你走过促成 DeepSeek 的架构创新。我们相信理解这些复杂系统的最好方式，就是亲手把它们构建出来。

你将获得的内容兼具理论理解与实践实现：

理解多头潜在注意力（MLA）如何在保持模型质量的同时大幅降低内存需求，并实现使 DeepSeek 能在传统 Transformer 难以承受的硬件上高效运行的机制。
掌握 Mixture-of-Experts（MoE） 架构的要点，理解如何将不同的 token 路由到专门的子网络（专家），以及如何在专家之间平衡计算负载。
通过 多 Token 预测（MTP） ，理解“同时预测多个未来 token”如何加速训练与推理。
学会使用 FP8 量化将权重与激活压缩到8 位，同时尽可能保留模型能力。
了解 DeepSeek 的预训练方式。
熟悉 DeepSeek 的后训练细节，包括强化学习（RL）与蒸馏（Distillation） 。

本书不会做的事情：不会复刻 DeepSeek 的专有训练数据，也不会尝试复制其精确的模型权重；我们也不会深入讲解数百亿至千亿级参数模型所需的大规模分布式训练基础设施——那超出了大多数读者的可用资源。此外，我们也不覆盖生产部署中的工程议题，如面向百万级用户的在线服务、安全过滤与内容审核系统等。

我们的聚焦点是清晰与可理解性。每一概念都在尽量少的先验假设下，从第一性原理逐步搭建。例如在实现 MLA 时，我们会从标准注意力开始，先理解其瓶颈，再逐步转化到“潜在版”注意力。这样不仅教你如何实现，还能让你理解得足够深入，以便日后进行修改与改进。

1.5 跟随本书所需的准备

跟随本书需要一定的机器学习基础，但不要求专家水平。若你熟悉 Python，并学过入门级深度学习材料，就可以开始。具体来说，你应理解神经网络如何通过反向传播学习，对 PyTorch（或类似框架）的基本操作有概念，并对 Transformer 架构有所接触（即便没亲手实现过也可）。

硬件方面，我们将实现设计为尽量可及。尽管训练超大语言模型通常需要巨量算力，我们会使用缩小版实现来呈现核心思想，使之可在消费级硬件上运行。

一台拥有不错 CPU 的笔记本即可运行大多数示例（训练会较慢）。
一块8–12GB VRAM 的消费级 GPU 会显著提升体验（更自由地试验并更快看到结果）。
若你计划更有野心的实验，尤其是涉及 MoE，拥有 24–48GB VRAM 会带来更多可能（但并非必需）。

我们会为每章提供完整的环境规格，以确保可精确复现。同时提供 Google Colab 等平台的配置，让你无需本地环境也能跟进。尽管 DeepSeek 的训练规模以万亿级 token计，我们会使用更小的数据集来呈现关键现象，并控制训练时间在合理范围。

让我们一起把这件了不起的事情搭起来吧！

1.6 小结（Summary）

大语言模型（LLM）已成为技术领域的重要力量，但其构建知识长期集中在少数大型实验室手中。
DeepSeek 通过开源并达到与顶级商用系统相当的性能，标志着一个关键时刻：最前沿 AI 也可以被开放开发与共享。
本书将以动手方式引导你构建一个“迷你 DeepSeek”，聚焦其关键技术创新，帮助你深入且实践性地理解现代 LLM 的架构与训练。
我们将实现的核心创新分为四个阶段：
1. KV Cache 基础；
2. 核心架构（MLA & MoE） ；
3. 高级训练技术（MTP & FP8） ；
4. 后训练（RL & 蒸馏） 。
通过亲手实现这些组件，你不仅获得理论，还将具备实现与改造最前沿 AI 技术的实战能力。