一、项目概览
DeepSeek-V4 是 DeepSeek 团队推出的新一代开源混合专家(MoE)大语言模型系列。该系列包含两款模型:
- DeepSeek-V4-Pro:总参数量 1.6T,激活参数 49B
- DeepSeek-V4-Flash:总参数量 284B,激活参数 13B
两款模型都原生支持 100 万 token 的上下文长度,采用 MIT 协议开源,这意味着商业使用没有任何束缚。本文聚焦于旗舰款 DeepSeek-V4-Pro,从架构、训练、性能三个维度展开分析。
值得一提的是,V4-Pro 的权重以 FP4 + FP8 混合精度发布——MoE 专家参数使用 FP4,其余大部分参数使用 FP8。这种混合精度方案让一个 1.6T 参数的模型在 Hugging Face 上的实际存储仅约 862B 参数大小,显著降低了部署门槛。
二、三大架构升级
DeepSeek-V4 在架构层面相比 V3.2 做了三项核心改动,目的明确:把"长上下文"做得既能用、又便宜。
1. 混合注意力架构 (Hybrid Attention)
V4 采用了 Compressed Sparse Attention (CSA) 与 Heavily Compressed Attention (HCA) 相结合的混合注意力机制。这套机制带来的直接收益非常可观:在 1M token 的上下文场景下,DeepSeek-V4-Pro 相较 V3.2,单 token 推理 FLOPs 仅需 27%,KV Cache 仅需 10%。
KV Cache 是长上下文推理的最大成本来源——它随着上下文长度线性增长,直接吃掉显存。把它压到原来的十分之一,这是从"能跑 1M 上下文"到"能在合理硬件上跑 1M 上下文"的关键差别。
2. Manifold-Constrained Hyper-Connections (mHC)
为了让超深网络在百万级上下文中依然保持稳定的信号传播,V4 引入了流形约束超连接(mHC)。它在传统残差连接的基础上做了增强,同时不损害模型的表达能力。这是大模型"训得起来 + 训得稳"的工程性贡献,虽然不是聚光灯下的特性,但对实际收敛质量影响很大。
3. Muon 优化器
V4 采用 Muon 优化器替代了此前训练中常用的 AdamW 类方案,目标是更快的收敛速度和更稳定的训练过程。Muon 在去年开始被多个团队验证有效,DeepSeek 把它用在 32T token 规模的预训练上,本身就是一次大规模工业验证。
三、训练流程:专家先培养,再统一蒸馏
V4 系列在 32T+ 高质量、多样化 token 上进行预训练,后训练阶段采用了一套有别于以往的"两段式范式":
- 领域专家独立培养:对每个目标领域(代码、数学、推理、Agentic 任务等)分别进行 SFT 和基于 GRPO 的 RL,得到一组各自精通的领域专家模型。
- 统一模型整合:通过 on-policy distillation(在线策略蒸馏),把不同领域专家的能力合并到一个统一的模型中。
这种"先分而治之、再合而为一"的范式,本质是在解决 RL 阶段任务相互干扰的问题——不同任务的最优策略往往会互相拉扯,直接混合训练容易出现某些维度的退化。先各自练好再蒸馏,是一种更可控的工程路线。
此外,V4 的 Instruct 模型支持三种推理强度:Non-think、Think High、Think Max。Think Max 模式需要配合特定 system prompt,并建议把上下文窗口设到至少 384K——这是为长链路深度推理预留空间。
四、性能表现
下面这张图来自官方仓库,展示了 DeepSeek-V4-Pro-Max 与主流前沿模型的综合表现对比:
从官方公布的 benchmark 数据来看,DeepSeek-V4-Pro-Max 在几个关键维度上确实站住了:
编程能力:全面领先
- LiveCodeBench Pass@1:93.5(对比 GPT-5.4 xHigh 未公布、Gemini-3.1-Pro 91.7)
- Codeforces Rating:3206(对比 GPT-5.4 的 3168、Gemini-3.1-Pro 的 3052)
- Apex Shortlist:90.2(全场最高)
在代码竞技场维度,V4-Pro-Max 几乎是把闭源前沿模型摁住打,这是开源模型第一次在 Codeforces 这种纯算法 benchmark 上超过 GPT 系列旗舰。
知识与推理:第一梯队但非最强
- MMLU-Pro:87.5(Gemini-3.1-Pro 91.0 领先)
- GPQA Diamond:90.1(Gemini-3.1-Pro 94.3 领先)
- HLE:37.7(Gemini-3.1-Pro 44.4 领先)
在最硬核的人类专家级推理 benchmark 上,V4-Pro-Max 与最强闭源模型仍有差距,但已是开源阵营的最高水位。
Agentic 任务:接近闭源旗舰
- SWE Verified Resolved:80.6(对比 Opus-4.6 Max 的 80.8)
- SWE Multilingual:76.2
- Terminal Bench 2.0:67.9
- BrowseComp:83.4
特别是 SWE Verified 这种真实代码仓库修 bug 的任务,80.6 的分数已经基本贴住了 Opus-4.6 Max,这是一个非常具有实用意义的指标。
长上下文:优于多数,但未称王
- MRCR 1M:83.5(对比 Opus-4.6 Max 的 92.9)
- CorpusQA 1M:62.0(对比 Opus-4.6 Max 的 71.7)
这里 Opus-4.6 Max 仍然显著领先。坦率讲,1M 上下文里能稳定召回信息,Anthropic 这一代做得依然最扎实。但 V4-Pro 的成绩在"用 27% FLOPs"的代价下取得,性价比意义不可忽略。
五、推理模式之间的差距
V4-Pro 的三档推理模式可以非常直观地说明"思考预算"对能力的放大效应:
| Benchmark | V4-Pro Non-Think | V4-Pro High | V4-Pro Max |
|---|---|---|---|
| HLE | 7.7 | 34.5 | 37.7 |
| Apex | 0.4 | 27.4 | 38.3 |
| HMMT 2026 | 31.7 | 94.0 | 95.2 |
| LiveCodeBench | 56.8 | 89.8 | 93.5 |
可以看到,从 Non-Think 切到 High,在硬核推理任务上的提升是几十分级别的——例如 HMMT 数学竞赛从 31.7 跳到 94.0。这印证了一个趋势:当代大模型的能力上限,越来越多取决于推理时算力(test-time compute),而非纯粹的参数规模。Non-Think 模式则保留了快速响应路径,适合日常低风险任务。
六、部署与使用
值得注意的几个工程细节:
- 没有 Jinja chat template:V4 没有沿用 Hugging Face 标准的 Jinja 模板,而是提供了一个独立的
encoding文件夹,内含 Python 脚本和测试用例,负责把 OpenAI 兼容格式的消息编码为模型输入字符串、以及解析模型输出。这意味着接入现有推理框架时需要额外适配,不能简单复用tokenizer.apply_chat_template()。 - 采样参数建议:官方推荐
temperature = 1.0, top_p = 1.0。Think Max 模式下建议上下文窗口至少 384K。 - 本地部署:仓库提供了
inference文件夹,包含权重转换脚本和交互式 Demo,但 1.6T 总参数(即便是 FP4 + FP8 混合)对硬件的要求依然不低,普通用户跑起来仍然不现实,主要面向云厂商和研究机构。
七、总结与思考
DeepSeek-V4-Pro 这次发布,有几个信号值得重点关注:
第一,开源阵营在编程能力上已经追上甚至反超闭源旗舰。 Codeforces 3206 和 LiveCodeBench 93.5 不是数字游戏——这意味着真实代码任务上,你用 V4-Pro 不会比用 GPT 或 Gemini 系列差,甚至可能更好。
第二,长上下文的成本结构被改写了。 27% FLOPs、10% KV Cache 是非常激进的数字。如果工程实测能贴近这个理论值,DeepSeek-V4-Pro 可能成为长文档处理、代码仓库分析等场景的默认选择,因为同样的硬件能跑更长的上下文,或者同样的上下文能服务更多并发。
第三,在最硬的推理 benchmark 上,差距依然存在。 GPQA Diamond、HLE、Apex 这几个评测,V4-Pro 与 Gemini-3.1-Pro 之间还有几个百分点到十几个百分点的差距。开源模型要在这些维度上完全追平闭源旗舰,可能还需要一两代迭代。
第四,MIT 协议+完整开源是这次发布最重要的部分。 1.6T 参数 MoE、原生 1M 上下文、可商用——这套组合在任何商业闭源模型上都拿不到。对于需要私有化部署、对数据出域有顾虑、或者想做深度二次开发的团队,V4-Pro 的吸引力是独一份的。
DeepSeek-V4 不是一次"震惊业界"式的跳跃,但它把开源模型在工程效率、长上下文、编程能力这三条线上的水位,实打实地往上推了一截。这可能比单点指标的炸场更有意义。