论文标题:DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 作者:DeepSeek-AI
一、论文概览
DeepSeek-AI 发布了 DeepSeek-V4 系列的预览版,包含两个 Mixture-of-Experts (MoE) 大语言模型,均支持 100万 token 的上下文长度:
| 模型 | 总参数 | 激活参数 | 训练数据 | 上下文长度 |
|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 33T tokens | 1M |
| DeepSeek-V4-Flash | 284B | 13B | 32T tokens | 1M |
核心价值主张:在100万 token 上下文场景下,DeepSeek-V4-Pro 仅需 DeepSeek-V3.2 27% 的推理 FLOPs 和 10% 的 KV cache;DeepSeek-V4-Flash 更极致,仅需 10% FLOPs 和 7% KV cache。这使得百万级上下文从理论可行变为实际可用。
图 1:模型规模与效率对比(1M Token Context)
graph LR
subgraph V3["DeepSeek-V3.2<br/>671B / 37B Active"]
V3F["FLOPs: 100%"]
V3K["KV Cache: 100%"]
end
subgraph V4P["DeepSeek-V4-Pro<br/>1.6T / 49B Active"]
V4PF["FLOPs: 27%"]
V4PK["KV Cache: 10%"]
end
subgraph V4FL["DeepSeek-V4-Flash<br/>284B / 13B Active"]
V4FLF["FLOPs: 10%"]
V4FLK["KV Cache: 7%"]
end
V3 -.->|"3.7x lower"| V4P
V3 -.->|"9.8x lower"| V4FL
classDef old fill:#ffc9c9,stroke:#c92a2a,color:#1a1a1a
classDef new fill:#b2f2bb,stroke:#2f9e44,color:#1a1a1a
classDef flash fill:#d0bfff,stroke:#5f3dc4,color:#1a1a1a
class V3F,V3K old
class V4PF,V4PK new
class V4FLF,V4FLK flash
二、架构创新
2.1 混合注意力架构:CSA + HCA
这是本文最核心的设计创新,旨在解决超长上下文下注意力机制的二次复杂度瓶颈。
CSA(Compressed Sparse Attention,压缩稀疏注意力)
- KV 压缩:将每 m=4 个 token 的 KV cache 压缩为 1 个条目。采用重叠压缩策略,每个压缩条目实际来自 2m=8 个 token(当前块和前一个块重叠),但序列长度压缩到 1/m
- 稀疏选择:压缩后应用 DeepSeek Sparse Attention (DSA),使用 Lightning Indexer(轻量索引器)快速选择 top-k 个最相关的压缩 KV 条目
- V4-Pro: k=1024
- V4-Flash: k=512
- 滑动窗口分支:额外引入窗口大小为 128 的滑动窗口注意力,保留局部细粒度依赖
HCA(Heavily Compressed Attention,重度压缩注意力)
- 更激进的压缩:每 m'=128 个 token 压缩为 1 个条目(比 CSA 的 4 倍压缩激进 32 倍)
- 密集注意力:不使用稀疏选择,对所有压缩后的 KV 条目做全密集注意力
- 同样配有滑动窗口分支
图 2:CSA + HCA 混合注意力架构
graph TB
INPUT["Input Hidden States H"]
subgraph CSA["CSA: Compressed Sparse Attention"]
direction TB
C1["KV Compress 4:1<br/>Overlapped Compression"]
C2["Lightning Indexer<br/>FP4 Precision"]
C3["Top-k Sparse Attention<br/>k=512~1024"]
C4["Sliding Window<br/>n_win=128"]
C1 --> C2 --> C3
C4 -.->|"Concat"| C3
end
subgraph HCA["HCA: Heavily Compressed Attention"]
direction TB
H1["KV Compress 128:1<br/>Single Block Compression"]
H2["Dense Attention on All<br/>Compressed KV Entries"]
H3["Sliding Window<br/>n_win=128"]
H1 --> H2
H3 -.->|"Concat"| H2
end
INPUT --> CSA
INPUT --> HCA
MQA["Shared KV MQA + Grouped Output Projection"]
CSA --> MQA
HCA --> MQA
OUTPUT["Output with mHC Residual"]
MQA --> OUTPUT
classDef input fill:#d3f9d8,stroke:#2f9e44,color:#1a1a1a
classDef process fill:#e5dbff,stroke:#5f3dc4,color:#1a1a1a
classDef action fill:#ffe8cc,stroke:#d9480f,color:#1a1a1a
classDef output fill:#c5f6fa,stroke:#0c8599,color:#1a1a1a
class INPUT input
class C1,C2,C3,H1,H2 process
class C4,H3 action
class MQA,OUTPUT output
混合配置
CSA 和 HCA 在 Transformer 层中交替排列(前 2 层使用纯滑动窗口或 HCA)。这种分层设计实现了:
- 长距离依赖 → HCA 的 128 倍压缩高效捕获
- 中距离依赖 → CSA 的 4 倍压缩 + 稀疏选择精确捕获
- 局部依赖 → 滑动窗口保留
其他注意力技术细节
- Shared Key-Value MQA:压缩后的 KV 条目同时作为 key 和 value,减少存储
- Grouped Output Projection:将注意力头分组后分两阶段投影,降低输出计算量
- Partial RoPE:仅对 query/KV 向量的最后 64 维应用旋转位置编码,并对注意力输出做反向 RoPE 以获得相对位置编码
- Attention Sink:可学习的 sink logits,允许注意力得分总和不等于 1(甚至接近 0)
- 混合精度存储:RoPE 维度 BF16,其余 FP8;Lightning Indexer 计算使用 FP4
2.2 Manifold-Constrained Hyper-Connections (mHC)
取代传统残差连接的新型信息传播机制:
- 标准 Hyper-Connections (HC):将残差流宽度扩展 n_hc=4 倍(从 d 维扩展到 4d 维),通过可学习的输入变换 A、残差映射 B、输出变换 C 增强层间信息传播
- mHC 的核心改进:将残差映射矩阵 B 约束在**双随机矩阵的流形(Birkhoff 多面体)**上
- 确保谱范数 ≤ 1,使残差变换具有非扩张性
- 双随机矩阵集对乘法封闭,保证深层堆叠的数值稳定性
- Sinkhorn-Knopp 算法:20 次迭代将 B 投射到双随机矩阵流形上
- 动态参数化:参数分解为输入依赖的动态分量 + 静态偏置
- 实际开销:仅增加 6.7% 的 wall-time
2.3 Muon 优化器
取代 AdamW 用于大多数模块(embedding、prediction head、RMSNorm 仍用 AdamW):
- Hybrid Newton-Schulz 正交化:10 次迭代,前 8 步用 (a,b,c)=(3.4445, -4.7750, 2.0315) 快速收敛,后 2 步用 (2, -1.5, 0.5) 精确稳定
- Nesterov 动量技巧
- RMS rescale 因子 γ=0.18 以复用 AdamW 超参数
- 注意力的 RMSNorm 设计天然避免了注意力 logit 爆炸,无需 QK-Clip
三、基础设施创新
图 3:基础设施全景
graph TB
subgraph TRAIN["Training Framework"]
A["Muon Optimizer<br/>Hybrid Newton-Schulz"]
B["mHC Implementation<br/>6.7% overhead"]
C["Context Parallelism<br/>for 1M Attention"]
D["Auto Differentiation<br/>Flexible Checkpointing"]
end
subgraph KERNEL["Kernel Libraries"]
E["TileLang DSL<br/>Host Codegen"]
F["Batch-Invariant<br/>Deterministic Kernels"]
G["FP4 QAT<br/>MXFP4 Quantization"]
end
subgraph INFER["Inference Framework"]
H["MegaMoE EP<br/>1.5-1.96x speedup"]
I["Hybrid KV Cache<br/>State + Classical"]
J["On-Disk KV Cache<br/>3 Strategies"]
end
subgraph SANDBOX["DSec Sandbox"]
K["Rust Components<br/>Apiserver+Edge+Watcher"]
L["Container + microVM<br/>Layered Storage on 3FS"]
end
A --> E
B --> E
C --> F
G --> H
H --> I
I --> J
K --> L
classDef process fill:#e5dbff,stroke:#5f3dc4,color:#1a1a1a
classDef action fill:#ffe8cc,stroke:#d9480f,color:#1a1a1a
classDef output fill:#c5f6fa,stroke:#0c8599,color:#1a1a1a
classDef storage fill:#fff4e6,stroke:#e67700,color:#1a1a1a
class A,B,C,D process
class E,F,G action
class H,I,J output
class K,L storage
3.1 细粒度通信-计算重叠的专家并行 (EP)
- 核心洞察:MoE 层中通信总时间小于计算总时间,因此可被完全隐藏
- Wave 调度:将专家分成多个 wave,每个 wave 完成通信后立即开始计算,形成细粒度流水线
- 相比非融合基线实现 1.50-1.96x 加速
- 已开源为 DeepGEMM 的 MegaMoE 组件
- 关键工程建议:
- 对 DeepSeek-V4-Pro,当 C/B ≤ 6144 FLOPs/Byte 时通信可被完全隐藏
- 建议硬件厂商平衡计算-通信比,避免无条件堆带宽
- 建议用低成本逐元素激活函数替代 SwiGLU
3.2 TileLang 内核开发
- 使用 TileLang DSL 替代大量细粒度 ATen 算子
- Host Codegen:将 host 端逻辑从 Python 移到生成的 host 代码,调用开销从数十微秒降至 <1 微秒
- Z3 SMT Solver 集成:为张量索引算术提供形式化整数分析能力
- 支持 IEEE 精确舍入和 bit-wise 可复现性
3.3 Batch-Invariant 和确定性内核
- Batch Invariance:确保任何 token 的输出与其在 batch 中的位置 bit-wise 相同
- 注意力:双内核策略(单 SM 高吞吐 + 多 SM 低延迟,通过分布式共享内存保证一致)
- GEMM:放弃 split-k,通过其他优化补偿性能
- MoE:Token 顺序预处理 + buffer 隔离
- 确定性训练:避免 atomicAdd 引入的非确定性,三个关键点(注意力反向、MoE 反向、mHC 矩阵乘)全部实现确定性
3.4 FP4 量化感知训练 (QAT)
- 对 MoE 专家权重和 CSA 的 QK 路径应用 MXFP4 量化
- 训练时前向用 FP8 模拟量化(STE),推理和 RL rollout 时直接用真实 FP4 权重
- 索引得分从 FP32 量化到 BF16,top-k 选择器加速 2x,KV 条目召回率 99.7%
3.5 KV Cache 管理
针对混合注意力的异构 KV cache 设计了定制化分层布局:
- State Cache:固定大小,管理 SWA KV 条目 + 未压缩尾部 token
- Classical KV Cache:分块管理 CSA/HCA 压缩后的 KV 条目,块大小为 lcm(m, m')
- On-Disk KV Cache:三种策略平衡存储和计算
- Full SWA Caching:零冗余但写密集
- Periodic Checkpointing:可调参数 p 平衡存储和计算
- Zero SWA Caching:仅需重算最后 n_win × L 个 token
四、训练策略
4.1 预训练
- 数据:在 DeepSeek-V3 基础上构建更多样、更高质量、更长有效上下文的训练语料
- 序列长度扩展:4K → 16K → 64K → 1M 逐步扩展
- 稀疏注意力引入:两阶段策略——先用密集注意力 warmup(V4-Flash 1T tokens),在 64K 序列长度时引入稀疏注意力,先 warmup Lightning Indexer,再全面启用
- 训练稳定性技术:
- Anticipatory Routing(预判路由):解耦骨干网络和路由网络更新,在 step t-Δt 提前计算 step t 的路由索引,额外开销约 20%,带自动触发机制
- SwiGLU Clamping:线性分量 [-10, 10],门控上界 10
4.2 后训练
采用创新的两阶段范式:
图 4:后训练两阶段流程
graph LR
subgraph STAGE1["Stage 1: Specialist Training"]
direction TB
BASE["V4 Base Model"]
SFT["SFT on Domain Data"]
GRPO["GRPO RL"]
BASE --> SFT --> GRPO
subgraph EX["Domain Experts"]
direction LR
MATH["Math"]
CODE["Code"]
AGT["Agent"]
INST["Instruct"]
end
GRPO --> MATH
GRPO --> CODE
GRPO --> AGT
GRPO --> INST
end
subgraph STAGE2["Stage 2: On-Policy Distillation"]
direction TB
STU["Student Model"]
OPD["Full-Vocab OPD<br/>Reverse KL Loss"]
FIN["Unified V4"]
STU --> OPD --> FIN
end
MATH -->|"Teacher"| OPD
CODE -->|"Teacher"| OPD
AGT -->|"Teacher"| OPD
INST -->|"Teacher"| OPD
subgraph MODES["3 Reasoning Modes"]
direction TB
NT["Non-think"]
TH["Think High"]
TM["Think Max"]
end
FIN --> NT
FIN --> TH
FIN --> TM
classDef input fill:#d3f9d8,stroke:#2f9e44,color:#1a1a1a
classDef process fill:#e5dbff,stroke:#5f3dc4,color:#1a1a1a
classDef decision fill:#ffe3e3,stroke:#c92a2a,color:#1a1a1a
classDef action fill:#ffe8cc,stroke:#d9480f,color:#1a1a1a
classDef output fill:#c5f6fa,stroke:#0c8599,color:#1a1a1a
class BASE,SFT,GRPO input
class MATH,CODE,AGT,INST process
class STU,OPD action
class FIN output
class NT,TH,TM decision
阶段一:领域专家独立训练
- 为数学、代码、Agent、指令遵循等各领域独立训练专家模型
- 流程:SFT → GRPO 强化学习
- 三种推理模式:Non-think(快速直觉)、Think High(逻辑分析)、Think Max(极限推理,注入特殊系统提示)
- Generative Reward Model (GRM):用模型自身推理能力评估策略轨迹,替代传统标量奖励模型
- Interleaved Thinking 改进:工具调用场景完整保留推理历史(V3.2 会在新用户消息时丢弃)
- Quick Instruction:用特殊 token 复用 KV cache 执行辅助任务(搜索判断、标题生成、领域识别等),避免额外模型 prefill,降低 TTFT
- DSML Tool-Call Schema:新的 XML 格式工具调用,减少 escaping 错误
阶段二:On-Policy Distillation (OPD)
- 多教师到单学生的知识蒸馏,10+ 个领域教师模型
- 使用全词表 logit 蒸馏(而非 token 级 KL 估计),梯度估计更稳定
- 关键工程优化:
- 教师权重按需从分布式存储加载
- 仅缓存最后一层 hidden states,按需重建 logits
- 按教师索引排序训练样本,最小化 GPU 内存占用
- TileLang 加速 KL 散度计算
沙箱基础设施:DeepSeek Elastic Compute (DSec)
- Rust 编写的三组件架构(Apiserver + Edge + Watcher)
- 管理数十万并发沙箱实例
- 支持容器和 microVM 两种隔离模式
- layered storage + 3FS 后端实现快速镜像加载
- Trajectory Logging 支持抢占安全恢复
五、评测结果
5.1 预训练阶段评测
| 维度 | V4-Flash-Base (13B active) vs V3.2-Base (37B active) | V4-Pro-Base (49B active) vs V3.2-Base (37B active) |
|---|---|---|
| 世界知识 | 以更少参数全面超越 | 大幅领先 (SimpleQA: 55.2 vs 28.3) |
| 语言推理 | 基本持平 | 全面超越 |
| 代码数学 | 部分指标落后 (BigCodeBench) | 全面领先 (HumanEval: 76.8 vs 62.8) |
| 长上下文 | 显著更优 (LongBench-V2: 44.7 vs 40.2) | 大幅领先 (51.5 vs 40.2) |
5.2 后训练阶段评测
V4-Pro-Max vs 闭源模型(关键指标)
| 类别 | 指标 | V4-Pro-Max | Claude Opus 4.6 | GPT-5.4 | Gemini-3.1-Pro |
|---|---|---|---|---|---|
| 知识 | SimpleQA-Verified | 57.9 | 46.2 | 45.3 | 75.6 |
| 知识 | Chinese-SimpleQA | 84.4 | 76.4 | 76.8 | 85.9 |
| 推理 | LiveCodeBench | 93.5 | 88.8 | - | 91.7 |
| 推理 | Codeforces Rating | 3206 | - | 3168 | 3052 |
| 推理 | IMOAnswerBench | 89.8 | 75.3 | 91.4 | 81.0 |
| 推理 | Apex Shortlist | 90.2 | 85.9 | 78.1 | 89.1 |
| 长上下文 | MRCR 1M | 83.5 | 92.9 | - | 76.3 |
| Agent | SWE-Verified | 80.6 | 80.8 | - | 80.6 |
| Agent | Terminal Bench 2.0 | 67.9 | 65.4 | 75.1 | 68.5 |
| 形式数学 | Putnam-2025 | 120/120 | - | - | - |
关键发现
- 知识:开源 SOTA,SimpleQA 比此前开源模型高 20 个百分点,但仍落后 Gemini-3.1-Pro
- 代码竞赛:Codeforces Rating 3206,人类排名第 23,首次开源模型追平闭源
- 形式化数学:Putnam-2025 达到 120/120 完美证明
- 长上下文:超过 Gemini-3.1-Pro,128K 内高度稳定,但落后 Claude Opus 4.6
- Agent:与 Kimi K2.6、GLM-5.1 持平,仍落后闭源模型
- 中文写作:功能写作对 Gemini-3.1-Pro 胜率 62.7%,创意写作质量胜率 77.5%
- 代码Agent:内部 R&D 基准通过率 67%,接近 Claude Opus 4.5 的 70%
5.3 内部开发者调查
85 名使用 V4-Pro 进行日常编码的开发者中:
- 52% 认为已可作为默认主力编码模型
- 39% 倾向于是
- <9% 认为不行
- 主要不足:偶尔犯低级错误、对模糊提示的误解、偶尔过度思考
六、关键设计洞察与权衡
- 效率 vs 复杂度:为追求极致长上下文效率,保留了大量已验证组件,导致架构相对复杂(论文坦承此点)
- 压缩率的分层设计:CSA (4x) 负责精确的中程注意力,HCA (128x) 负责粗粒度的远程注意力——分层比单一压缩率更优
- 稀疏性的渐进引入:不从头训练稀疏注意力,先用密集注意力 warmup,避免早期不稳定
- OPD 取代混合 RL:全词表 On-Policy Distillation 替代 V3.2 的混合 RL,训练更稳定
- 基础设施即竞争力:MegaMoE、确定性内核、DSec 沙箱、On-Disk KV Cache 等工程创新是百万上下文实际可用的关键
七、局限性与未来方向
论文明确提及的方向:
- 架构简化:当前设计过于复杂,未来会精简
- 更多维度的稀疏性:如稀疏 embedding 模块
- 低延迟架构:让长上下文交互更响应
- 多模态能力:正在开发中
- 更好的数据策略:持续提升智能和鲁棒性
八、总结
DeepSeek-V4 是一篇在架构创新和工程系统两个维度都展现了深度积累的论文。最核心的贡献是通过 CSA+HCA 混合注意力使百万 token 上下文从理论可行变为实际可用,同时在推理能力上首次让开源模型在代码竞赛等任务上追平闭源模型。这标志着开源 LLM 进入了百万级上下文的新时代。