4月24日,DeepSeek V4预览版正式上线并同步开源。至此,关于 V4 跳票的传言在中文和英文AI圈里来回奔走数轮后,终于落地。
双版本齐发:总参数1.6万亿、MoE架构、100万上下文从今天起成为 DeepSeek 所有官方服务的标配。
下面用几张表,把 V4 的底牌彻底摊开。
一、Pro vs Flash:顶配性能 vs 入门普惠
DeepSeek-V4-Pro面向尖端任务,DeepSeek-V4-Flash主打性价比,两款均原生支持1M上下文,一起把长上下文的门槛砸穿了。
| 维度 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 模型规格 | 总参数1.6万亿(MoE) / 激活490亿 | 总参数2840亿(MoE) / 激活130亿 |
| 预训练数据 | 33万亿 tokens | 32万亿 tokens |
| 核心定位 | 对标顶级闭源模型,旗舰性能 | 经济优先,主打快和便宜 |
| 上下文 | 1M token(标配) | 1M token(标配) |
| 最大输出 | 384K tokens | 384K tokens |
| 核心能力定位 | Agent能力/世界知识/推理性能 | 快速、经济、接近Pro的推理能力 |
🔑 两款模型均同时支持非思考模式与思考模式,思考模式下通过
reasoning_effort参数可调节深度推理强度(high / max)。复杂Agent场景建议直接开启思考模式,强度拉到 max。
二、API:按量计费,输出是成本的核心
DeepSeek 给 V4 的定价延续了价格屠夫的标签——API 输入最低 0.2 元每百万token,输出价格才是拉开使用成本的真正分水岭。
| 价格维度 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| 输入(缓存命中) | 0.2 元 / 百万 tokens | 1 元 / 百万 tokens |
| 输入(缓存未命中) | 1 元 / 百万 tokens | 12 元 / 百万 tokens |
| 输出 | 2 元 / 百万 tokens | 24 元 / 百万 tokens |
⚠️ Flash的输出价仅 2 元/百万 token,Claude Opus 4.5 的输出价约 15 美元(约 100 多块人民币)。输出是规模化任务真正的成本核心,这一块的差距远大于输入段——V4-Flash 输出成本约为 Claude 的 2%,Pro 约为 20%。
API 接入细节:
- 兼容 OpenAI ChatCompletions 与 Anthropic 两套接口。base_url 不变,model 参数改为
deepseek-v4-pro或deepseek-v4-flash即可调用。
三、性能与推理:开源代码、编程与长文本基准
编程与代码生成
- Codeforces Rating:Pro-Max 得分 3206,GPT-5.4(3168)、Gemini 3.1 Pro(3052),直接压过两巨头一头。
- SWE Verified:Pro 达 80.6%,与 Claude Opus 4.6(80.8%)基本持平。
- HumanEval:Pro 达 90%,Opus 4.5 为 88%,GPT-4 为 82%。
Agent 能力
- Agentic Coding 评测已达开源模型最佳水平。
- 内部实测反馈:Pro 使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。
- Flash 在简单 Agent 任务上与 Pro 旗鼓相当,高难度任务仍有差距。
长文本与知识
- MMLU-Pro 表现与 GPT-5.4 相当,略逊于 Gemini-3.1-Pro 与 Opus 4.6。
- 世界知识领先其他开源模型,仅稍逊于 Gemini-Pro-3.1。
一句话总结性能分层:
- 编程攻坚、复杂 Agent、重度推理 → Pro
- 日常对话、轻量 Agent、高频调用 → Flash
四、推理计算与显存效率:压到 V3.2 的 27% 与 10%
在 1M 上下文下,V4 的算力效率产生了断崖式改变。
- V4-Pro:单 token 推理 FLOPs 只有 V3.2 的 27%,KV Cache(长上下文关键内存)用量仅为 10%。
- V4-Flash:单 token 推理 FLOPs 压到 V3.2 的 10%,KV Cache 用量仅为 7%。
DSA2 融合了 V3/R1 中的 DSA 机制与今年初论文提出的 NSA 稀疏注意力方案,再搭配 MoE 的 Mega 内核融合:每层 384 个专家,每次推理激活 6 个。Mega 内核加上 HCA 与 CSA 的混合注意力架构,让万亿参数模型在 100 万 token 级长文本上的并发吞吐能力实现了代际提升。
五、价格与算力:下半年将有大动作
算力与价格方面,V4 留了一个明显可预期的下降空间。
- Pro 服务吞吐目前十分有限,官方已在定价页用小字标注:受限于高端算力,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。
- V4 已与华为昇腾芯片深度融合,工程师重构了数千万行核心代码,完成了从英伟达 CUDA 生态向华为 CANN 架构的迁移。这是全球首个在国产算力底座上完成训练与推理的万亿参数级模型。
六、旧模型下线预警
| 旧模型名 | 停用时间 | 当前指向 |
|---|---|---|
deepseek-chat | 2026年7月24日 | V4-Flash(非思考模式) |
deepseek-reasoner | 2026年7月24日 | V4-Flash(思考模式) |
三个月过渡期,当前阶段这两个旧名字分别指向 V4-Flash 的非思考和思考模式。参考价:Flash 输入 1 元/百万 token,输出 2 元/百万 token。在产线中使用上述两个模型名称的用户,近期应尽快迁移。
最后说两句
DeepSeek V4 把 1M 上下文从“高端选配”砸成了“水电煤”,并用单 token 推理 FLOPs 降到 V3.2 的 10% 来证明:长文本算力也可以不贵。Pro 的价格只是暂时的,昇腾 950 大规模铺开后,它还会更便宜。
无论在文本、编程还是 Agent 任务上,DeepSeek V4 都已站在开源第一梯队。API 价格信息和技术规规格已在官网同步上线。
现在就去官网试一下,别光等着看别人用。
后台回复「V4」领资料包。