DeepSeek V4来了!开源模型又前进一大步!DeepSeek V4 终于来了!开源模型又往前推了一大步
GPT-5.5刚刚发布,DeepSeek V4 预览版就正式上线并同步开源了。直接狙击~
先说结论:如果你最近关注的是 Agent、长上下文和中文生产力,这次 V4 不是一次小升级,是一次明显换代。
官方一口气给了两个版本:V4-Pro 和 V4-Flash
其中 V4-Pro 是 1.6T 参数(49B 激活),V4-Flash 是 284B 参数(13B 激活)
两个版本都把 1M 上下文直接做成了标配!!上下文太重要了,是AI的命根子。
这次最值得看的,不只是上下文变长,而是长上下文终于能真正用起来。
技术报告里说明了,DeepSeek V4 用了新的混合注意力架构,把 CSA 和 HCA 结合起来,再配合 mHC 残差连接和 Muon 优化器。
核心目标就是把超长上下文的算力和显存成本打下来。
按官方数据,在 1M token 场景下,V4-Pro 的单 token 推理 FLOPs 只有V3.2 的 27%,KV cache 只有 10%;
V4-Flash 更激进,分别压到 10% 和 7%。这意味着“百万上下文”第一次不像一个噱头式的参数,而是真正能用起来。
跑分上,V4-Pro-Max 已经坐进开源第一梯队。
我对比了GLM-5.1,SimpleQA 57.9,明显高于 GLM-5.1 的 38.1;
GPQA 90.1,高于 GLM-5.1 的 86.2;
HLE 37.7,也略高于 GLM-5.1 的 34.7。
Agent 侧两者更接近一些,Terminal Bench 2.0 上 V4-Pro-Max 是 67.9,GLM-5.1 是 63.5;
但在 SWE-Bench Pro 这类工程任务上,GLM-5.1 官方公开分数是 58.4,DeepSeek V4 报告里是 55.4。
换句话说,DeepSeek V4 更像是在“知识、推理、长上下文”三件事上整体抬升,而 GLM-5.1 依然是工程 Agent 方向非常强的对手。
当然,在上下文方面,DeepSeek V4-Pro 对 GLM-5.1 的优势也很直观:前者是 1M 上下文,后者是200K;
前者总参数 1.6T,后者是 754B。
我的判断是,DeepSeek V4 这次真正重要的意义,不是单点跑分赢了多少,而是开源模型正在进一步走向“能长时间干活”,这对Agent意义重大。
我准备在小龙虾,claude code等Agent里面体验一波DeepSeek V4
如果后续真实体验能接住这份技术报告,DeepSeek V4 很可能会成为 2026 年开源大模型最重要的分水岭之一。