DeepSeek V4 来了，百万上下文+万亿参数，还顺便干了件没人干过的事DeepSeek V4 预览版上线：百万上下

DeepSeek V4 跳票跳到我都快忘了它在开发。从春节等到清明，中间还崩了一次大的——3月29日晚上9点开始，到第二天早上9点多才恢复，超12个小时（据 InfoQ 报道），热搜挂了一整天。当时圈内都在猜：是不是 V4 在搞事情？

今天（4月24日），答案揭晓。DeepSeek-V4 预览版正式上线，同步开源。两个版本——V4-Pro 和 V4-Flash，API 已经可以直接调用了。

几个硬指标，先拉个底

1M 上下文，标配。 从今天起，DeepSeek 所有官方服务的上下文长度都是一百万 token。上一代 V3.1 是 128K，V4 直接翻了近 8 倍。什么概念？你扔一整本《三体》进去，它能从头聊到尾，不用切片。

万亿参数，但每次只用 370 亿。 V4 用的还是 MoE 架构（混合专家——简单说就是模型虽然大，但每次只用一小部分脑子，所以不贵）。推理成本跟上一代 V3 基本持平，能力却跨了一代。这招 DeepSeek 从 V3 开始玩，V4 玩得更极致了。

Agent 能力直接起飞。 这是最让我意外的部分。据 DeepSeek 官方披露，V4-Pro 在 Agentic Coding 评测中达到当前开源模型最佳水平。公司内部已经开始用 V4 替代之前的模型做日常编程——据内部评测反馈，使用体验优于 Claude Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式。

还有一个数字很有冲击力：据多方泄露的基准测试信息，V4 在 SWE-bench Verified 上拿下了 83.7%——超过同期泄露的 Claude Opus 4.5（80.9%）和 GPT-5.2（80%）（注：以上均为非官方泄露数据，未经 DeepSeek 或竞品官方确认，仅供趋势参考）。

换了一种"记住"长文本的方式

V4 没有简单粗暴地拉长上下文窗口。它换了一种思路：在 token 维度进行压缩，再结合 DSA 稀疏注意力（DeepSeek Sparse Attention），用更少的计算和显存搞定了一百万 token 的上下文。

说白了，不是给你一个更大的鱼缸，是换了一种更聪明的养鱼方式。

这个技术来自 DeepSeek 今年初发表的一篇论文，当时没引起太大关注。现在回头看，论文里写的每一行都是在给 V4 铺路。

V4-Flash：日常用这个就够了

Pro 版是旗舰，Flash 版是轻量。V4-Flash 在世界知识上比 Pro 弱一档，但推理能力接近。因为参数和激活量都更小，Flash 响应更快，API 价格也更便宜。

简单任务上 Flash 跟 Pro 打平手，复杂任务上才有差距。日常写代码、改文案、查资料，Flash 完全够用。真要跑那种"写一个完整电商系统"的硬核 Agent 任务，再上 Pro。

这一周，AI 圈的"超级碗"

V4 不是一个人在跳舞。这一周简直疯了：

4月20日，阿里发 Qwen3.6-Max-Preview
4月21日，Kimi 发旗舰模型 K2.6 并开源
4月23日，腾讯发混元 Hy3 preview，小米发 MiMo-V2.5 系列
4月24日凌晨，OpenAI 发 GPT-5.5（没错，同一天）
4月24日，DeepSeek V4 预览版上线

一周六家旗舰，AI 圈这是在搞军备竞赛周吗？

AI模型军备竞赛周

从已公开的数据看，V4-Pro 在世界知识上只输给 Gemini-Pro-3.1（闭源），但在开源模型里是断层领先。数学和 STEM 推理，直接比肩全球顶级闭源模型。

真正的底牌：不是参数，是芯片

聊完模型，说说我个人觉得 V4 最值得关注的部分：它跑在什么上面。

据澎湃新闻、路透社等多家媒体报道，DeepSeek V4 全面适配华为昇腾芯片。为此，DeepSeek 过去几个月重写了大量底层代码，完成了从英伟达 CUDA 生态到华为 CANN 架构的底层迁移。

注意，DeepSeek 这次没有给英伟达或 AMD 提前优化适配的机会，而是把早期访问权限独家开放给了国产芯片厂商。

DeepSeek 跳票三个月，不是慢，是干了一件没人干过的事：把万亿参数模型从英伟达生态里搬到了国产芯片上。

从英伟达到华为昇腾的技术迁移

这件事的意义远超模型本身。如果 V4 能在昇腾芯片上稳定运行，它就是全球首个不依赖英伟达的顶级 AI 大模型。国产 AI 产业链的自主可控，不再是一句口号，而是一个可以跑起来的产品。

另一个信号：据路透社和多家外媒报道，腾讯和阿里巴巴正在洽谈投资 DeepSeek，目标估值从最初的 100 亿美元上调至超过 200 亿美元（约合人民币 1365 亿元）。一家从未接受过外部融资的公司，第一次开口就要这个数。说明两件事：万亿参数的训练成本不是量化基金能长期扛的；资本市场对中国 AI 公司的信心，比外界想象的要强。

我的判断：今天就该去试

如果你是开发者，不用等完整版，今天就去调 V4-Pro 的 API。

理由：1M 上下文 + 开源权重 + Agent 能力逼近 Opus 4.6 非思考模式，这个组合目前没有第二家能同时给到。V4-Pro 还支持思考模式，reasoning_effort 参数可以调思考强度，复杂 Agent 场景设成 max，效果接近闭源旗舰。

API 调用也简单：base_url 不变，把 model 参数改成 deepseek-v4-pro 或 deepseek-v4-flash 就行。旧的 deepseek-chat 和 deepseek-reasoner 三个月后（7月24日）停用，现阶段分别指向 V4-Flash 的非思考模式和思考模式。

但有两个"但"：

V4 目前还是预览版，不是完整版。稳定性、边界 case 可能还有坑。DeepSeek 官方也没有回避这一点，技术报告里写得很坦诚。

另外，跟 Opus 4.6 的思考模式比，V4-Pro 还有差距。这个差距有多大？得实测才知道。但至少在开源领域，V4-Pro 已经没有对手了。

最后

DeepSeek 官方今天发了句话："不诱于誉，不恐于诽，率道而行，端然正己。"放在跳票三个月、融资传闻满天飞的今天，多少有点回应争议的意思。

你觉得 V4 能打过 GPT-5 吗？评论区扣 1 能，扣 2 不能，最离谱的分析我请你喝咖啡（虽然大概率兑现不了）。