DeepSeek V4 正式发布:1M 上下文成标配,万亿参数 MoE,价格打到对手的 1/5

0 阅读5分钟

4月24日,DeepSeek V4预览版正式上线并同步开源。至此,关于 V4 跳票的传言在中文和英文AI圈里来回奔走数轮后,终于落地。

双版本齐发:总参数1.6万亿、MoE架构、100万上下文从今天起成为 DeepSeek 所有官方服务的标配。

下面用几张表,把 V4 的底牌彻底摊开。

一、Pro vs Flash:顶配性能 vs 入门普惠

DeepSeek-V4-Pro面向尖端任务,DeepSeek-V4-Flash主打性价比,两款均原生支持1M上下文,一起把长上下文的门槛砸穿了。

维度DeepSeek-V4-ProDeepSeek-V4-Flash
模型规格总参数1.6万亿(MoE) / 激活490亿总参数2840亿(MoE) / 激活130亿
预训练数据33万亿 tokens32万亿 tokens
核心定位对标顶级闭源模型,旗舰性能经济优先,主打快和便宜
上下文1M token(标配)1M token(标配)
最大输出384K tokens384K tokens
核心能力定位Agent能力/世界知识/推理性能快速、经济、接近Pro的推理能力

🔑 两款模型均同时支持非思考模式与思考模式,思考模式下通过 reasoning_effort 参数可调节深度推理强度(high / max)。复杂Agent场景建议直接开启思考模式,强度拉到 max。

二、API:按量计费,输出是成本的核心

DeepSeek 给 V4 的定价延续了价格屠夫的标签——API 输入最低 0.2 元每百万token,输出价格才是拉开使用成本的真正分水岭。

价格维度DeepSeek-V4-FlashDeepSeek-V4-Pro
输入(缓存命中)0.2 元 / 百万 tokens1 元 / 百万 tokens
输入(缓存未命中)1 元 / 百万 tokens12 元 / 百万 tokens
输出2 元 / 百万 tokens24 元 / 百万 tokens

⚠️ Flash的输出价仅 2 元/百万 token,Claude Opus 4.5 的输出价约 15 美元(约 100 多块人民币)。输出是规模化任务真正的成本核心,这一块的差距远大于输入段——V4-Flash 输出成本约为 Claude 的 2%,Pro 约为 20%。

API 接入细节

  • 兼容 OpenAI ChatCompletions 与 Anthropic 两套接口。base_url 不变,model 参数改为 deepseek-v4-prodeepseek-v4-flash 即可调用。

三、性能与推理:开源代码、编程与长文本基准

编程与代码生成

  • Codeforces Rating:Pro-Max 得分 3206,GPT-5.4(3168)、Gemini 3.1 Pro(3052),直接压过两巨头一头。
  • SWE Verified:Pro 达 80.6%,与 Claude Opus 4.6(80.8%)基本持平。
  • HumanEval:Pro 达 90%,Opus 4.5 为 88%,GPT-4 为 82%。

Agent 能力

  • Agentic Coding 评测已达开源模型最佳水平
  • 内部实测反馈:Pro 使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。
  • Flash 在简单 Agent 任务上与 Pro 旗鼓相当,高难度任务仍有差距。

长文本与知识

  • MMLU-Pro 表现与 GPT-5.4 相当,略逊于 Gemini-3.1-Pro 与 Opus 4.6。
  • 世界知识领先其他开源模型,仅稍逊于 Gemini-Pro-3.1。

一句话总结性能分层

  • 编程攻坚、复杂 Agent、重度推理 → Pro
  • 日常对话、轻量 Agent、高频调用 → Flash

四、推理计算与显存效率:压到 V3.2 的 27% 与 10%

在 1M 上下文下,V4 的算力效率产生了断崖式改变。

  • V4-Pro:单 token 推理 FLOPs 只有 V3.2 的 27%,KV Cache(长上下文关键内存)用量仅为 10%
  • V4-Flash:单 token 推理 FLOPs 压到 V3.2 的 10%,KV Cache 用量仅为 7%

DSA2 融合了 V3/R1 中的 DSA 机制与今年初论文提出的 NSA 稀疏注意力方案,再搭配 MoE 的 Mega 内核融合:每层 384 个专家,每次推理激活 6 个。Mega 内核加上 HCA 与 CSA 的混合注意力架构,让万亿参数模型在 100 万 token 级长文本上的并发吞吐能力实现了代际提升。

五、价格与算力:下半年将有大动作

算力与价格方面,V4 留了一个明显可预期的下降空间。

  • Pro 服务吞吐目前十分有限,官方已在定价页用小字标注:受限于高端算力,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调
  • V4 已与华为昇腾芯片深度融合,工程师重构了数千万行核心代码,完成了从英伟达 CUDA 生态向华为 CANN 架构的迁移。这是全球首个在国产算力底座上完成训练与推理的万亿参数级模型。

六、旧模型下线预警

旧模型名停用时间当前指向
deepseek-chat2026年7月24日V4-Flash(非思考模式)
deepseek-reasoner2026年7月24日V4-Flash(思考模式)

三个月过渡期,当前阶段这两个旧名字分别指向 V4-Flash 的非思考和思考模式。参考价:Flash 输入 1 元/百万 token,输出 2 元/百万 token。在产线中使用上述两个模型名称的用户,近期应尽快迁移。

最后说两句

DeepSeek V4 把 1M 上下文从“高端选配”砸成了“水电煤”,并用单 token 推理 FLOPs 降到 V3.2 的 10% 来证明:长文本算力也可以不贵。Pro 的价格只是暂时的,昇腾 950 大规模铺开后,它还会更便宜。

无论在文本、编程还是 Agent 任务上,DeepSeek V4 都已站在开源第一梯队。API 价格信息和技术规规格已在官网同步上线。

现在就去官网试一下,别光等着看别人用。

后台回复「V4」领资料包。