DeepSeek-V4 技术解读报告
基于论文《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》及官方公众号文章整理
一、总览
DeepSeek-V4 是深度求索推出的全新大语言模型系列,包含两个 MoE(混合专家)模型,均原生支持 1M(一百万)token 上下文长度。核心目标:打破超长上下文的效率壁垒,使百万 token 上下文从"技术上可行"变为"经济上标配"。
| 模型 | 总参数 | 激活参数 | 训练数据 | 定位 |
|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 33T tokens | 旗舰级,性能比肩顶级闭源模型 |
| DeepSeek-V4-Flash | 284B | 13B | 32T tokens | 高效经济型,推理能力接近 Pro |
三大核心升级:
- 混合注意力架构(CSA + HCA),大幅提升长上下文效率
- 流形约束超连接(mHC),增强残差连接的信号传播稳定性
- Muon 优化器,更快的收敛速度和训练稳定性
二、架构创新详解
2.1 继承自 V3 的设计
- DeepSeekMoE 框架:细粒度路由专家 + 共享专家
- V4 变化:路由亲和度函数从 改为
- 移除路由目标节点数限制,重新设计并行策略
- 前几层 Dense FFN 替换为 Hash 路由的 MoE 层
- 辅助损失无关的负载均衡 + 轻量序列级平衡损失
- 多 Token 预测(MTP):与 V3 完全一致
2.2 流形约束超连接(Manifold-Constrained Hyper-Connections, mHC)
问题:传统残差连接在深层堆叠时信号传播不稳定;标准超连接(HC)虽扩展了残差流宽度,但训练中频繁出现数值不稳定。
2.2.1 标准超连接(HC)
HC 将残差流的宽度扩展 倍,残差状态形状从 扩展为 。设第 层之前的残差状态为:
HC 引入三个线性映射——输入映射 、残差变换 、输出映射 ,残差状态更新为:
其中 表示第 层(如 MoE 层),输入输出形状均为 。注意实际层输入 也是 维的,因此扩展残差宽度不影响内层设计。
2.2.2 流形约束残差映射
mHC 的核心创新是将残差映射矩阵 约束到双随机矩阵流形(Birkhoff 多面体):
该约束确保 ,残差变换为非扩展映射,增强前向和反向传播的数值稳定性。此外, 在矩阵乘法下封闭,保证深层堆叠的稳定性。
2.2.3 动态参数化
三个映射的参数由静态分量(可学习偏置)和动态分量(输入相关)组合生成。给定输入 ,先展平并归一化:
然后生成无约束的原始参数:
其中 , 为动态分量的可学习参数; 将长度为 的向量重塑为 矩阵;,, 为可学习静态偏置; 为初始化为小值的可学习门控因子。
2.2.4 参数约束应用
对原始参数施加前述约束。输入映射和输出映射通过 Sigmoid 函数确保非负有界性:
对残差映射 ,通过 Sinkhorn-Knopp 算法投影到双随机矩阵流形。先取指数保证正性:
然后迭代执行行列归一化:
其中 、 分别为行、列归一化。迭代收敛到约束双随机矩阵 ,取 。
效果:mHC 的 wall-time 开销仅占 pipeline stage 的 6.7%,用极小的计算代价换来了深层网络训练的数值稳定性。
2.3 混合注意力架构(CSA + HCA)—— 最核心创新
这是 V4 实现百万 token 上下文的关键。设计了两类高效注意力层,交替使用:
2.3.1 压缩稀疏注意力(CSA)
三步流程:
原始 KV → 压缩(m 倍) → 闪电索引器稀疏选择(top-k) → 核心 MQA 注意力
(a)压缩 KV 条目
设输入隐状态序列为 ,CSA 先计算两系列 KV 条目及其压缩权重:
其中 为可学习参数, 为头维度。
每 个 KV 条目通过加权求和压缩为一个条目,权重由 Softmax 归一化确定:
其中 为 Hadamard 积; 为可学习位置偏置; 沿行维度归一化,对 和 共 个元素进行归一化。当 时, 填充负无穷、 填充零。注意每个 来自 个 KV 条目,但 的索引与相邻压缩块重叠,因此 CSA 实际将序列长度压缩为 倍。
(b)闪电索引器(Lightning Indexer)稀疏选择
对压缩后的 KV 条目 ,CSA 使用 DSA 策略选择 top-k 压缩块。首先以同样的压缩操作得到索引器键 ,然后以低秩方式生成索引器查询和权重:
其中 为查询 token 的输入隐状态; 为查询压缩潜向量; 为查询压缩维度; 为索引器查询头数; 为索引器头维度;、、 分别为下投影、上投影和权重矩阵。
查询 token 与压缩块 ()的索引分数为:
其中 为第 个索引器头的动态权重(由输入隐状态生成,非静态参数)。最终选择 top-k 压缩 KV 条目:
(c)共享 KV 多查询注意力(MQA)
CSA 以 MQA 方式执行核心注意力,每个压缩 KV 条目同时充当 Key 和 Value。从共享的压缩潜向量生成注意力查询:
其中 为查询头数, 为上投影矩阵。注意 与索引器查询共享。
然后执行 MQA:
其中 为第 个头在第 个 token 的核心注意力输出。
(d)分组输出投影
由于 维度很大,直接投影到 维计算代价高。CSA 将 个头分为 组,每组输出 ,先投影到 维中间输出(),再合并投影到最终 维输出 。
CSA 参数配置:
| 参数 | 符号 | V4-Flash | V4-Pro |
|---|---|---|---|
| 压缩率 | 4 | 4 | |
| 索引器头数 | 64 | 64 | |
| 索引器头维度 | 128 | 128 | |
| 注意力 top-k | 512 | 1024 | |
| 查询头数 | 64 | 128 | |
| 头维度 | 512 | 512 | |
| 查询压缩维度 | 1024 | 1536 | |
| 输出投影组数 | 8 | 16 | |
| 每组中间维度 | 1024 | 1024 | |
| 滑动窗口大小 | 128 | 128 |
2.3.2 重压缩注意力(HCA)
- 更激进的压缩:每 ()个 token 压缩为 1 个 KV 条目
- HCA 只有一个系列的 KV 条目,不使用重叠压缩:
其中 为可学习参数。
- 压缩权重由 Softmax 归一化确定:
其中 为可学习位置偏置。HCA 将序列长度压缩为 倍。
- 不做稀疏选择,在压缩后的 KV 上做全量密集注意力
- 同样使用共享 KV MQA + 分组输出投影
- 压缩率 (V4-Flash 与 V4-Pro 一致)
2.3.3 辅助设计
- QK 归一化:核心注意力前对每个查询头和唯一的压缩 KV 头做 RMSNorm,防止注意力 logit 爆炸
- 部分 RoPE:仅对查询、KV 条目、注意力输出的最后 64 维施加旋转位置编码。由于 KV 条目同时充当 Key 和 Value,核心注意力输出 将携带绝对位置编码(来自 KV 条位的加权和)。作为对策,对 的最后 64 维施加位置 的反向 RoPE,使核心注意力输出携带相对位置信息——每个 KV 条目对输出的贡献与查询到 KV 条目的距离相关
- 滑动窗口注意力:附加一个小窗口()的未压缩 KV 条目,与压缩 KV 条目一起参与核心注意力,保留局部精细依赖;同时严格保证因果性(每个查询只关注前面的压缩块)
- Attention Sink:可学习的 sink logits ,第 个注意力头的注意力分数为:
其中 分别为第 个注意力头在第 个查询 token 与第 个前驱 token/压缩块之间的注意力分数和 logit。该技巧允许每个查询头的总注意力分数不严格等于 1,甚至可接近 0。
2.3.4 效率对比
以 BF16 GQA8(头维度128)为基线,V4 在 1M 上下文场景下的 KV cache 仅为基线的 约 2%。
与 DeepSeek-V3.2 对比:
| 指标 | V4-Pro(1M ctx) | V4-Flash(1M ctx) |
|---|---|---|
| 单 token 推理 FLOPs(等效 FP8) | 27% of V3.2 | 10% of V3.2 |
| KV Cache 大小 | 10% of V3.2 | 7% of V3.2 |
关键效率技术:
- KV 存储采用混合精度:RoPE 维度 BF16 + 其余维度 FP8,KV cache 近乎减半
- 闪电索引器计算使用 FP4 精度
- 比 V3.2 更小的注意力 top-k
- V4 路由专家参数使用 FP4 精度,虽然当前硬件 FP4×FP8 峰值算力与 FP8×FP8 相同,但在未来硬件上理论上可提升 效率
三、优化器:Muon
DeepSeek-V4 大量使用 Muon 优化器(替代 AdamW),这是首个在大规模 MoE 模型上成功应用 Muon 的工作。
3.1 Muon 核心算法
Algorithm 1:Muon Optimizer for DeepSeek-V4
Require: 学习率 ,动量 ,权重衰减 ,更新重缩放因子
for 每个训练步骤 do
for 每个逻辑独立权重矩阵 do
1. 计算梯度:
2. 累积动量:
3. 混合 Newton-Schulz 迭代(Nesterov 技巧):
4. 重缩放更新 RMS:
5. 权重衰减与更新:
end for
end for
3.2 混合 Newton-Schulz 迭代
对矩阵 做近似正交化()。先归一化 ,每次迭代执行:
两阶段策略:
- 前 8 步:——快速收敛,将奇异值逼近 1
- 后 2 步:——精确稳定,将奇异值精确固定在 1
3.3 关键设计决策
- 分区使用:Embedding、预测头、RMSNorm、mHC 静态偏置/门控仍用 AdamW;其余全部用 Muon
- 无需 QK-Clip:V4 注意力架构允许直接对 QK 做 RMSNorm,天然防止 logit 爆炸
- 与 ZeRO 的混合策略:Dense 参数限制最大 ZeRO 并行度,用背包算法分配;MoE 参数按专家独立优化;同形状连续参数自动合并以批量执行 Newton-Schulz 迭代
3.4 通信优化
- MoE 梯度用 BF16 随机舍入同步,通信量减半
- 用 all-to-all + 本地 FP32 求和替代传统 reduce-scatter,保证数值稳健
四、基础设施创新
4.1 专家并行的细粒度通信-计算重叠
- MegaMoE 超级内核:将 MoE 层的 Dispatch → Linear-1 → Linear-2 → Combine 四阶段融合为单一流水线内核
- 波次调度:专家分组为 wave,当前 wave 计算、下一 wave 令牌传输、已完成专家结果发送三者并行
- 效果:通用推理加速 ,RL rollout 等延迟敏感场景可达
- 关键洞察:通信可被计算完全隐藏的条件为:
即每 GBps 带宽可隐藏 6.1 TFLOP/s 的计算。一旦带宽满足此阈值,便不再是瓶颈。
4.2 TileLang:高效算子开发 DSL
- 平衡开发效率与运行性能
- Host Codegen:将 Python 端固定开销降至 /调用
- 集成 Z3 SMT 求解器进行形式化整数分析(QF_NIA)
- 支持 IEEE-754 严格语义和位级可复现性
4.3 批次不变性与确定性内核
- 批次不变性:同一 token 无论在 batch 中何位置,输出逐位一致
- 注意力:双内核策略(大 batch 用单 SM 内核,小 batch 用多 SM 内核 + distributed shared memory)
- 矩阵乘法:用 DeepGEMM 替代 cuBLAS,不用 split-k
- 确定性训练:消除所有
atomicAdd,使用独立累积缓冲区 + 确定性规约- 注意力反向:为每个 SM 分配独立累积缓冲区 + 全局确定性求和
- MoE 反向:token 顺序预处理 + 跨 rank 缓冲隔离
- mHC 矩阵乘:输出各 split 部分 + 后续确定性规约
4.4 FP4 量化感知训练(QAT)
- MoE 专家权重:FP32 主权重 → FP4 量化 → FP8 反量化(无损)→ FP8 计算
- FP4(E2M1)→ FP8(E4M3)反量化是无损的:FP8 多 2 个指数位,更大动态范围可吸收 FP4 子块(1×32 tiles)的细粒度缩放因子
- 前向使用 FP8 权重,梯度直接回传到 FP32 主权重(等效 STE),避免重新量化转置权重
- 推理和 RL rollout 阶段直接使用真实 FP4 量化权重
- CSA 索引器 QK 路径:QK 激活在 FP4 下缓存、加载和相乘
- 效果:索引分数从 FP32 量化到 BF16,top-k 选择器加速 ,KV 条目召回率保持 99.7%
4.5 训练框架扩展
- Muon 高效实现:混合 ZeRO 策略 + BF16 梯度通信
- mHC 低开销实现:融合内核 + 选择性重计算(重计算大部分层间隐状态和归一化层输入,避免重计算计算密集型操作)+ DualPipe 1F1B 调整
- 长上下文上下文并行:两阶段通信解决压缩 KV 跨 rank 边界问题
- 张量级激活检查点:基于 TorchFX 追踪计算图,自动推断最小重计算子图
4.6 推理框架
- 异构 KV Cache 布局:
- 状态缓存(State Cache):SWA + 未压缩尾部 token,预分配固定大小
- 经典 KV Cache:CSA/HCA 压缩 KV,按 原始 token 为单位分配
- 磁盘 KV Cache 存储:共享前缀复用,三种策略:
- 全量 SWA 缓存(零冗余,存储大——仅访问少量缓存导致写密集型访问模式低效)
- 周期性检查点(每 个 token 检查点一次,可调 trade-off)
- 零 SWA 缓存(最小存储,需重计算最后 个 token 恢复 SWA KV 条目)
五、预训练
5.1 数据构建
- 在 V3 数据基础上,构建更多样、更高质量的训练语料
- 过滤批量自动生成和模板内容,避免模型坍缩
- 数学与编程仍是核心;中期训练加入 agentic 数据
- 强化长文档数据(科学论文、技术报告)
- 扩大多语言语料,提升跨文化长尾知识
- 总计 超过 32T tokens,词表 128K
- 新增特殊 token 用于上下文构建;采用 sample-level attention masking
5.2 训练配置
| 配置项 | 符号 | V4-Flash | V4-Pro |
|---|---|---|---|
| 层数 | 43 | 61 | |
| 隐藏维度 | 4096 | 7168 | |
| 路由专家数 | - | 256 | 384 |
| 每专家中间维度 | - | 2048 | 3072 |
| 每 token 激活专家 | - | 6 | 6 |
| mHC 扩展因子 | 4 | 4 | |
| 最大 batch size | - | 75.5M tokens | 94.4M tokens |
| 峰值学习率 | |||
| 终止学习率 | - | ||
| 序列长度阶段 | - | 4K → 16K → 64K → 1M | 4K → 16K → 64K → 1M |
| AdamW 超参 | 0.9, 0.95, | 0.9, 0.95, | |
| AdamW 权重衰减 | 0.1 | 0.1 | |
| Muon 动量 | 0.95 | 0.95 | |
| Muon 权重衰减 | - | 0.1 | 0.1 |
| Muon 更新重缩放目标 | 0.18 | 0.18 | |
| 负载均衡偏置更新速率 | - | 0.001 | 0.001 |
| 平衡损失权重 | - | 0.0001 | 0.0001 |
| MTP 损失权重 | - | 0.3 → 0.1 | 0.3 → 0.1 |
| 稀疏注意力引入 | - | 64K 阶段引入 | 更长 dense 阶段后引入 |
5.3 训练稳定性
训练万亿参数 MoE 模型面临严重稳定性挑战,V4 发现两个关键技术:
1. 预期路由(Anticipatory Routing)
在步骤 ,使用当前网络参数 计算特征,但路由索引使用历史参数 计算。为避免加载两份参数的开销,在步骤 提前获取数据并"预期性"计算缓存路由索引。
- 自动检测 loss spike 触发,正常训练后自动恢复
- 额外开销约 20%,但动态应用使整体开销可忽略
2. SwiGLU 钳位(SwiGLU Clamping)
有效消除离群值,不损害模型性能。
5.4 Base 模型评测亮点
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU-Pro | 65.5 | 68.3 | 73.5 |
| SimpleQA | 28.3 | 30.1 | 55.2 |
| FACTS Parametric | 27.1 | 33.9 | 62.6 |
| MMLU | 87.8 | 88.7 | 90.1 |
| C-Eval | 90.4 | 92.1 | 93.1 |
| MATH | 60.5 | 57.4 | 64.5 |
| HumanEval | 62.8 | 69.5 | 76.8 |
| LongBench-V2 | 40.2 | 44.7 | 51.5 |
| BigCodeBench | 63.9 | 56.8 | 59.2 |
V4-Flash-Base 虽参数远小于 V3.2-Base,却在多数 benchmark 上超越之;V4-Pro-Base 在推理和知识任务上全面领先。BigCodeBench 是少数 V3.2-Base 仍领先的指标。
六、后训练
6.1 训练流水线
采用 "先分训专家 → 再统一蒸馏" 的两阶段范式:
Base Model → 各领域 SFT → 各领域 GRPO 强化学习 → 多领域专家模型
↓
On-Policy Distillation (OPD)
↓
统一模型
与 V3.2 的关键区别:混合 RL 阶段被 On-Policy Distillation (OPD) 完全替代。
6.2 三种推理模式
| 模式 | 特点 | 适用场景 | 评测上下文窗口 |
|---|---|---|---|
| Non-think | 快速直觉回答,无思考链 | 日常任务、低风险决策 | 8K |
| Think High | 有意识逻辑分析 | 复杂问题、规划 | 128K |
| Think Max | 推理推到极限 | 探索模型推理能力边界 | 384K |
- 使用
<![CDATA[<|thinking|>]]>和/summarytoken 分隔思考与回答 - Think Max 模式在系统提示前注入特殊指令
- 不同模式通过不同的 RL 长度惩罚和上下文窗口训练获得
6.3 生成式奖励模型(GRM)
- 摒弃传统标量奖励模型,用生成式奖励模型评估策略轨迹
- Actor 网络本身即作为 GRM,同时优化评估能力和生成能力
- RL 优化直接应用于 GRM 本身——Actor 天然具备评判能力
- 仅需最少多样化人工标注即可获得优异性能
6.4 On-Policy Distillation(OPD)
给定 个专家模型 ,OPD 目标函数为:
其中 为每个专家的权重(由领域重要性决定), 为反向 KL 散度。计算反向 KL 需要从学生 采样训练轨迹以保持 on-policy 学习——确保统一策略 选择性地从当前任务相关的专家学习(如数学推理对齐数学专家,编程对齐编程专家)。
- 全词表 logit 蒸馏(非 token 级 KL 估计),梯度估计更稳定
- 先前工作通常将全词表 KL 损失简化为 token 级 KL 估计(用 作为 per-token 优势估计),但方差大、训练不稳定
- V4 保留完整 logit 分布,忠实蒸馏教师知识
- 10+ 个教师模型蒸馏到单一学生模型
- 教师权重量化到 FP4 离线存储,ZeRO 式分片按需加载
- 仅缓存教师最后一层隐状态(非全词表 logit),训练时即时通过对应预测头重建 logit
- 按教师索引排序训练样本,确保每个 mini-batch 内每种教师预测头仅加载一次
- 用 TileLang 专用内核计算精确 KL 散度
6.5 其他后训练创新
- 新工具调用 Schema:XML 格式 +
|DSML|特殊 token,减少转义失败和工具调用错误 - 交错思考(Interleaved Thinking):
- 工具调用场景:跨所有轮次保留完整推理链(与 V3.2 不同,不再丢弃跨用户消息的思考内容)
- 普通对话场景:保持原有策略,新用户消息到达时丢弃先前推理内容
- 快速指令(Quick Instruction):附加特殊 token 复用已有 KV cache,并行执行辅助任务(搜索/意图识别/标题生成等),显著降低 TTFT
6.6 Agent 基础设施
- DSec(DeepSeek Elastic Compute):生产级沙箱平台
- 四种执行基底:函数调用 → 容器 → microVM → fullVM(统一 Python SDK
libdsec) - 基于 3FS + EROFS/overlaybd 分层存储的快速镜像加载
- 支持 10 万+ 并发沙箱实例
- 全局有序轨迹日志:客户端快进、细粒度溯源、确定性回放
- 四种执行基底:函数调用 → 容器 → microVM → fullVM(统一 Python SDK
- 可抢占容错 Rollout 服务:token 粒度 WAL,抢占后可精确恢复(避免长度偏差)
- 百万 token 上下文 RL 扩展:支持超长上下文的 RL 训练与 OPD 合并
七、评测结果
7.1 知识
| Benchmark | Opus-4.6 | GPT-5.4 | Gemini-3.1-Pro | DS-V4-Pro-Max |
|---|---|---|---|---|
| MMLU-Pro | 89.1 | 87.5 | 91.0 | 87.5 |
| SimpleQA | 46.2 | 45.3 | 75.6 | 57.9 |
| Chinese-SimpleQA | 76.4 | 76.8 | 85.9 | 84.4 |
| GPQA Diamond | 91.3 | 93.0 | 94.3 | 90.1 |
| HLE | 40.0 | 39.8 | 44.4 | 37.7 |
V4-Pro-Max 在开源模型中大幅领先(SimpleQA 超越其他开源 20 个百分点),但与顶尖闭源 Gemini-3.1-Pro 仍有差距。
7.2 推理
| Benchmark | Opus-4.6 | GPT-5.4 | Gemini-3.1-Pro | DS-V4-Pro-Max |
|---|---|---|---|---|
| LiveCodeBench | 88.8 | - | 91.7 | 93.5 |
| Codeforces (Rating) | - | 3168 | 3052 | 3206 |
| HMMT 2026 Feb | 96.2 | 97.7 | 94.7 | 95.2 |
| Apex Shortlist | 85.9 | 78.1 | 89.1 | 90.2 |
V4-Pro-Max 在代码竞赛上首次追平闭源模型(Codeforces 3206 rating,人类选手中排第 23 名),在开源模型中全面领先。
7.3 Agent
| Benchmark | Opus-4.6 | Gemini-3.1-Pro | DS-V4-Pro-Max |
|---|---|---|---|
| Terminal Bench 2.0 | 65.4 | 68.5 | 67.9 |
| SWE Verified | 80.8 | 80.6 | 80.6 |
| MCPAtlas Public | 73.8 | 69.2 | 73.6 |
| BrowseComp | 83.7 | 85.9 | 83.4 |
V4-Pro 与开源对手(K2.6、GLM-5.1)持平,略逊于顶尖闭源模型。MCPAtlas 和 Toolathlon 上表现优秀,表明工具泛化能力强。
7.4 百万 Token 上下文
| Benchmark | Opus-4.6 | Gemini-3.1-Pro | DS-V4-Pro-Max |
|---|---|---|---|
| MRCR 1M (MMR) | 92.9 | 76.3 | 83.5 |
| CorpusQA 1M | 71.7 | 53.8 | 62.0 |
V4-Pro 在学术 benchmark 上超越 Gemini-3.1-Pro,但仍落后于 Claude Opus 4.6。128K 内性能极其稳定,128K 以上性能可见衰减但 1M 仍显著强于其他开源模型。
7.5 形式化数学
- Practical Regime:Putnam-200 Pass@8,V4-Flash-Max 达到 81.00(Seed-1.5-Prover 26.50,Gemini-3-Pro 26.50)
- Frontier Regime:Putnam-2025,V4 达到 120/120 满分(Axiom 120/120,Seed-1.5-Prover 110/120)
7.6 真实世界任务
- 中文写作:V4-Pro vs Gemini-3.1-Pro 胜率 62.7% vs 34.1%
- 白领任务:V4-Pro-Max vs Opus-4.6-Max,63% 非败率
- 代码 Agent:V4-Pro-Max(67%)超越 Sonnet 4.5(47%),接近 Opus 4.5(70%)
八、关键创新点总结
| # | 创新 | 核心价值 |
|---|---|---|
| 1 | CSA + HCA 混合注意力 | 百万 token 上下文的计算和存储效率飞跃(FLOPs 降至 27%,KV cache 降至 10%) |
| 2 | 流形约束超连接 mHC | 双随机矩阵约束残差映射,深层网络数值稳定,开销仅 6.7% |
| 3 | Muon 优化器 | 首次在万亿参数 MoE 上成功应用,混合 Newton-Schulz 迭代正交化 |
| 4 | MegaMoE 超级内核 | 通信-计算完全重叠,推理加速高达 |
| 5 | FP4 量化感知训练 | MoE 专家 + 索引器 QK 双重 FP4 量化,无损 FP4→FP8 反量化 |
| 6 | Anticipatory Routing | 解耦路由与骨干更新,打破恶性循环,稳定训练 |
| 7 | On-Policy Distillation | 替代混合 RL,全词表 logit 蒸馏更稳定 |
| 8 | 生成式奖励模型 GRM | Actor 即 Judge,最少标注获得最强评估能力 |
| 9 | 1M 上下文成为标配 | 从 V3.2 的 128K 跃升到 1M,且效率更高 |
九、API 与开源信息
- API 调用:
model参数改为deepseek-v4-pro或deepseek-v4-flash - 最大上下文:1M tokens
- 推理模式:非思考模式 + 思考模式(
reasoning_effort:high/max) - 旧模型名:
deepseek-chat→ V4-Flash 非思考模式,deepseek-reasoner→ V4-Flash 思考模式(2026-07-24 停用) - 开源地址:huggingface.co/collections…
- 国内镜像:modelscope.cn/collections…
- 技术报告:huggingface.co/deepseek-ai…
- 推理实现:huggingface.co/deepseek-ai…
- MegaMoE 内核:github.com/deepseek-ai…
附录 A:V4-Pro 与 V4-Flash 详细参数对比
| 参数 | 符号 | V4-Flash | V4-Pro | ||
|---|---|---|---|---|---|
| Transformer 层数 | 43 | 61 | |||
| 隐藏维度 | 4096 | 7168 | |||
| 前 2 层注意力 | - | 纯 SWA | HCA | ||
| 后续层注意力 | - | CSA/HCA 交替 | CSA/HCA 交替 | ||
| CSA 压缩率 | 4 | 4 | |||
| HCA 压缩率 | 128 | 128 | |||
| 查询头数 | 64 | 128 | |||
| 头维度 | 512 | 512 | |||
| 查询压缩维度 | 1024 | 1536 | |||
| 输出投影组数 | 8 | 16 | |||
| 每组中间维度 | 1024 | 1024 | |||
| SWA 窗口 | 128 | 128 | |||
| 共享专家 | - | 1 | 1 | ||
| 路由专家 | - | 256 | 384 | ||
| 专家中间维度 | - | 2048 | 3072 | ||
| 每 token 激活专家 | - | 6 | 6 | ||
| 前 3 层 MoE 路由 | - | Hash 路由 | Hash 路由 | ||
| mHC 扩展因子 | 4 | 4 | |||
| Sinkhorn 迭代 | 20 | 20 | |||
| 总参数 | - | 284B | 1.6T | ||
| 激活参数 | - | 13B | 49B | ||
| 训练 tokens | - | 32T | 33T | ||
| 峰值学习率 | |||||
| 终止学习率 | - | ||||
| MTP 深度 | - | 1 | 1 | ||
| 词表大小 | $ | V | $ | 128K | 128K |
附录 B:公式编号与论文对应关系
| 报告编号 | 论文编号 | 内容 |
|---|---|---|
| (1) | Eq(1) | HC 残差状态更新 |
| (2) | Eq(2) | Birkhoff 多面体定义 |
| (3)-(5) | Eq(3)-(5) | mHC 动态参数化 |
| (6)-(7) | Eq(6)-(7) | Sigmoid 约束 |
| (8) | Eq(8) | Sinkhorn-Knopp 迭代 |
| (9)-(10) | Eq(9)-(10) | CSA KV 条目与压缩权重 |
| (11)-(12) | Eq(11)-(12) | CSA 压缩操作 |
| (13)-(14) | Eq(13)-(14) | 索引器查询 |
| (15) | Eq(15) | 索引器权重 |
| (16) | Eq(16) | 索引分数 |
| (17) | Eq(17) | Top-k 选择 |
| (18) | Eq(18) | 注意力查询 |
| (19) | Eq(19) | 核心 MQA 注意力 |
| (20, 21) | Eq(20, 21) | HCA KV 条目与权重 |
| (22)-(23) | Eq(22)-(23) | HCA 压缩操作 |
| (27) | Eq(27) | Attention Sink |
| (28) | Eq(28) | Newton-Schulz 迭代 |
| (29) | Eq(29) | OPD 目标函数 |
注:论文 Eq(24)-(26) 为 HCA 的查询生成和 MQA 公式(与 CSA 的 Eq(13)-(14) 和 Eq(18)-(19) 结构类似),报告中未单独列出。
基于 DeepSeek-V4 论文及官方公众号文章整理,论文地址见上方开源信息。