DeepSeek-V4-Pro 深度解析:一次面向百万级上下文的开源大模型迭代DeepSeek-V4-Pro 是 1.6

在这里插入图片描述

一、项目概览

DeepSeek-V4 是 DeepSeek 团队推出的新一代开源混合专家(MoE)大语言模型系列。该系列包含两款模型:

DeepSeek-V4-Pro:总参数量 1.6T,激活参数 49B
DeepSeek-V4-Flash:总参数量 284B,激活参数 13B

两款模型都原生支持 100 万 token 的上下文长度,采用 MIT 协议开源,这意味着商业使用没有任何束缚。本文聚焦于旗舰款 DeepSeek-V4-Pro,从架构、训练、性能三个维度展开分析。

值得一提的是,V4-Pro 的权重以 FP4 + FP8 混合精度发布——MoE 专家参数使用 FP4,其余大部分参数使用 FP8。这种混合精度方案让一个 1.6T 参数的模型在 Hugging Face 上的实际存储仅约 862B 参数大小,显著降低了部署门槛。

二、三大架构升级

DeepSeek-V4 在架构层面相比 V3.2 做了三项核心改动,目的明确:把"长上下文"做得既能用、又便宜。

1. 混合注意力架构 (Hybrid Attention)

V4 采用了 Compressed Sparse Attention (CSA) 与 Heavily Compressed Attention (HCA) 相结合的混合注意力机制。这套机制带来的直接收益非常可观:在 1M token 的上下文场景下,DeepSeek-V4-Pro 相较 V3.2,单 token 推理 FLOPs 仅需 27%,KV Cache 仅需 10%。

KV Cache 是长上下文推理的最大成本来源——它随着上下文长度线性增长,直接吃掉显存。把它压到原来的十分之一,这是从"能跑 1M 上下文"到"能在合理硬件上跑 1M 上下文"的关键差别。

2. Manifold-Constrained Hyper-Connections (mHC)

为了让超深网络在百万级上下文中依然保持稳定的信号传播,V4 引入了流形约束超连接(mHC)。它在传统残差连接的基础上做了增强,同时不损害模型的表达能力。这是大模型"训得起来 + 训得稳"的工程性贡献,虽然不是聚光灯下的特性,但对实际收敛质量影响很大。

3. Muon 优化器

V4 采用 Muon 优化器替代了此前训练中常用的 AdamW 类方案,目标是更快的收敛速度和更稳定的训练过程。Muon 在去年开始被多个团队验证有效,DeepSeek 把它用在 32T token 规模的预训练上,本身就是一次大规模工业验证。

三、训练流程:专家先培养,再统一蒸馏

V4 系列在 32T+ 高质量、多样化 token 上进行预训练,后训练阶段采用了一套有别于以往的"两段式范式":

领域专家独立培养:对每个目标领域(代码、数学、推理、Agentic 任务等)分别进行 SFT 和基于 GRPO 的 RL,得到一组各自精通的领域专家模型。
统一模型整合:通过 on-policy distillation(在线策略蒸馏),把不同领域专家的能力合并到一个统一的模型中。

这种"先分而治之、再合而为一"的范式,本质是在解决 RL 阶段任务相互干扰的问题——不同任务的最优策略往往会互相拉扯,直接混合训练容易出现某些维度的退化。先各自练好再蒸馏,是一种更可控的工程路线。

此外,V4 的 Instruct 模型支持三种推理强度:Non-think、Think High、Think Max。Think Max 模式需要配合特定 system prompt,并建议把上下文窗口设到至少 384K——这是为长链路深度推理预留空间。

四、性能表现

下面这张图来自官方仓库,展示了 DeepSeek-V4-Pro-Max 与主流前沿模型的综合表现对比:

在这里插入图片描述

从官方公布的 benchmark 数据来看,DeepSeek-V4-Pro-Max 在几个关键维度上确实站住了:

编程能力:全面领先

LiveCodeBench Pass@1:93.5(对比 GPT-5.4 xHigh 未公布、Gemini-3.1-Pro 91.7)
Codeforces Rating:3206(对比 GPT-5.4 的 3168、Gemini-3.1-Pro 的 3052)
Apex Shortlist:90.2(全场最高)

在代码竞技场维度,V4-Pro-Max 几乎是把闭源前沿模型摁住打,这是开源模型第一次在 Codeforces 这种纯算法 benchmark 上超过 GPT 系列旗舰。

知识与推理:第一梯队但非最强

MMLU-Pro:87.5(Gemini-3.1-Pro 91.0 领先)
GPQA Diamond:90.1(Gemini-3.1-Pro 94.3 领先)
HLE:37.7(Gemini-3.1-Pro 44.4 领先)

在最硬核的人类专家级推理 benchmark 上,V4-Pro-Max 与最强闭源模型仍有差距,但已是开源阵营的最高水位。

Agentic 任务:接近闭源旗舰

SWE Verified Resolved:80.6(对比 Opus-4.6 Max 的 80.8)
SWE Multilingual:76.2
Terminal Bench 2.0:67.9
BrowseComp:83.4

特别是 SWE Verified 这种真实代码仓库修 bug 的任务,80.6 的分数已经基本贴住了 Opus-4.6 Max,这是一个非常具有实用意义的指标。

长上下文:优于多数,但未称王

MRCR 1M:83.5(对比 Opus-4.6 Max 的 92.9)
CorpusQA 1M:62.0(对比 Opus-4.6 Max 的 71.7)

这里 Opus-4.6 Max 仍然显著领先。坦率讲,1M 上下文里能稳定召回信息,Anthropic 这一代做得依然最扎实。但 V4-Pro 的成绩在"用 27% FLOPs"的代价下取得,性价比意义不可忽略。

五、推理模式之间的差距

V4-Pro 的三档推理模式可以非常直观地说明"思考预算"对能力的放大效应:

Benchmark	V4-Pro Non-Think	V4-Pro High	V4-Pro Max
HLE	7.7	34.5	37.7
Apex	0.4	27.4	38.3
HMMT 2026	31.7	94.0	95.2
LiveCodeBench	56.8	89.8	93.5

可以看到,从 Non-Think 切到 High,在硬核推理任务上的提升是几十分级别的——例如 HMMT 数学竞赛从 31.7 跳到 94.0。这印证了一个趋势:当代大模型的能力上限,越来越多取决于推理时算力(test-time compute),而非纯粹的参数规模。Non-Think 模式则保留了快速响应路径,适合日常低风险任务。

六、部署与使用

值得注意的几个工程细节:

没有 Jinja chat template:V4 没有沿用 Hugging Face 标准的 Jinja 模板,而是提供了一个独立的 encoding 文件夹,内含 Python 脚本和测试用例,负责把 OpenAI 兼容格式的消息编码为模型输入字符串、以及解析模型输出。这意味着接入现有推理框架时需要额外适配,不能简单复用 tokenizer.apply_chat_template()。
采样参数建议:官方推荐 temperature = 1.0, top_p = 1.0。Think Max 模式下建议上下文窗口至少 384K。
本地部署:仓库提供了 inference 文件夹,包含权重转换脚本和交互式 Demo,但 1.6T 总参数(即便是 FP4 + FP8 混合)对硬件的要求依然不低,普通用户跑起来仍然不现实,主要面向云厂商和研究机构。

七、总结与思考

DeepSeek-V4-Pro 这次发布,有几个信号值得重点关注:

第一,开源阵营在编程能力上已经追上甚至反超闭源旗舰。 Codeforces 3206 和 LiveCodeBench 93.5 不是数字游戏——这意味着真实代码任务上,你用 V4-Pro 不会比用 GPT 或 Gemini 系列差,甚至可能更好。

第二,长上下文的成本结构被改写了。 27% FLOPs、10% KV Cache 是非常激进的数字。如果工程实测能贴近这个理论值,DeepSeek-V4-Pro 可能成为长文档处理、代码仓库分析等场景的默认选择,因为同样的硬件能跑更长的上下文,或者同样的上下文能服务更多并发。

第三,在最硬的推理 benchmark 上,差距依然存在。 GPQA Diamond、HLE、Apex 这几个评测,V4-Pro 与 Gemini-3.1-Pro 之间还有几个百分点到十几个百分点的差距。开源模型要在这些维度上完全追平闭源旗舰,可能还需要一两代迭代。

第四,MIT 协议+完整开源是这次发布最重要的部分。 1.6T 参数 MoE、原生 1M 上下文、可商用——这套组合在任何商业闭源模型上都拿不到。对于需要私有化部署、对数据出域有顾虑、或者想做深度二次开发的团队,V4-Pro 的吸引力是独一份的。

DeepSeek-V4 不是一次"震惊业界"式的跳跃,但它把开源模型在工程效率、长上下文、编程能力这三条线上的水位,实打实地往上推了一截。这可能比单点指标的炸场更有意义。

原项目地址:huggingface.co/deepseek-ai…