DeepSeek V4 来了,百万上下文+万亿参数,还顺便干了件没人干过的事

0 阅读6分钟

DeepSeek V4 跳票跳到我都快忘了它在开发。从春节等到清明,中间还崩了一次大的——3月29日晚上9点开始,到第二天早上9点多才恢复,超12个小时(据 InfoQ 报道),热搜挂了一整天。当时圈内都在猜:是不是 V4 在搞事情?

今天(4月24日),答案揭晓。DeepSeek-V4 预览版正式上线,同步开源。两个版本——V4-Pro 和 V4-Flash,API 已经可以直接调用了。

几个硬指标,先拉个底

1M 上下文,标配。 从今天起,DeepSeek 所有官方服务的上下文长度都是一百万 token。上一代 V3.1 是 128K,V4 直接翻了近 8 倍。什么概念?你扔一整本《三体》进去,它能从头聊到尾,不用切片。

万亿参数,但每次只用 370 亿。 V4 用的还是 MoE 架构(混合专家——简单说就是模型虽然大,但每次只用一小部分脑子,所以不贵)。推理成本跟上一代 V3 基本持平,能力却跨了一代。这招 DeepSeek 从 V3 开始玩,V4 玩得更极致了。

Agent 能力直接起飞。 这是最让我意外的部分。据 DeepSeek 官方披露,V4-Pro 在 Agentic Coding 评测中达到当前开源模型最佳水平。公司内部已经开始用 V4 替代之前的模型做日常编程——据内部评测反馈,使用体验优于 Claude Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。

还有一个数字很有冲击力:据多方泄露的基准测试信息,V4 在 SWE-bench Verified 上拿下了 83.7%——超过同期泄露的 Claude Opus 4.5(80.9%)和 GPT-5.2(80%)(注:以上均为非官方泄露数据,未经 DeepSeek 或竞品官方确认,仅供趋势参考)。

换了一种"记住"长文本的方式

V4 没有简单粗暴地拉长上下文窗口。它换了一种思路:在 token 维度进行压缩,再结合 DSA 稀疏注意力(DeepSeek Sparse Attention),用更少的计算和显存搞定了一百万 token 的上下文。

说白了,不是给你一个更大的鱼缸,是换了一种更聪明的养鱼方式。

这个技术来自 DeepSeek 今年初发表的一篇论文,当时没引起太大关注。现在回头看,论文里写的每一行都是在给 V4 铺路。

V4-Flash:日常用这个就够了

Pro 版是旗舰,Flash 版是轻量。V4-Flash 在世界知识上比 Pro 弱一档,但推理能力接近。因为参数和激活量都更小,Flash 响应更快,API 价格也更便宜。

简单任务上 Flash 跟 Pro 打平手,复杂任务上才有差距。日常写代码、改文案、查资料,Flash 完全够用。真要跑那种"写一个完整电商系统"的硬核 Agent 任务,再上 Pro。

这一周,AI 圈的"超级碗"

V4 不是一个人在跳舞。这一周简直疯了:

  • 4月20日,阿里发 Qwen3.6-Max-Preview
  • 4月21日,Kimi 发旗舰模型 K2.6 并开源
  • 4月23日,腾讯发混元 Hy3 preview,小米发 MiMo-V2.5 系列
  • 4月24日凌晨,OpenAI 发 GPT-5.5(没错,同一天)
  • 4月24日,DeepSeek V4 预览版上线

一周六家旗舰,AI 圈这是在搞军备竞赛周吗?

AI模型军备竞赛周

从已公开的数据看,V4-Pro 在世界知识上只输给 Gemini-Pro-3.1(闭源),但在开源模型里是断层领先。数学和 STEM 推理,直接比肩全球顶级闭源模型。

真正的底牌:不是参数,是芯片

聊完模型,说说我个人觉得 V4 最值得关注的部分:它跑在什么上面。

据澎湃新闻、路透社等多家媒体报道,DeepSeek V4 全面适配华为昇腾芯片。为此,DeepSeek 过去几个月重写了大量底层代码,完成了从英伟达 CUDA 生态到华为 CANN 架构的底层迁移。

注意,DeepSeek 这次没有给英伟达或 AMD 提前优化适配的机会,而是把早期访问权限独家开放给了国产芯片厂商。

DeepSeek 跳票三个月,不是慢,是干了一件没人干过的事:把万亿参数模型从英伟达生态里搬到了国产芯片上。

从英伟达到华为昇腾的技术迁移

这件事的意义远超模型本身。如果 V4 能在昇腾芯片上稳定运行,它就是全球首个不依赖英伟达的顶级 AI 大模型。国产 AI 产业链的自主可控,不再是一句口号,而是一个可以跑起来的产品。

另一个信号:据路透社和多家外媒报道,腾讯和阿里巴巴正在洽谈投资 DeepSeek,目标估值从最初的 100 亿美元上调至超过 200 亿美元(约合人民币 1365 亿元)。一家从未接受过外部融资的公司,第一次开口就要这个数。说明两件事:万亿参数的训练成本不是量化基金能长期扛的;资本市场对中国 AI 公司的信心,比外界想象的要强。

我的判断:今天就该去试

如果你是开发者,不用等完整版,今天就去调 V4-Pro 的 API。

理由:1M 上下文 + 开源权重 + Agent 能力逼近 Opus 4.6 非思考模式,这个组合目前没有第二家能同时给到。V4-Pro 还支持思考模式,reasoning_effort 参数可以调思考强度,复杂 Agent 场景设成 max,效果接近闭源旗舰。

API 调用也简单:base_url 不变,把 model 参数改成 deepseek-v4-prodeepseek-v4-flash 就行。旧的 deepseek-chatdeepseek-reasoner 三个月后(7月24日)停用,现阶段分别指向 V4-Flash 的非思考模式和思考模式。

但有两个"但":

V4 目前还是预览版,不是完整版。稳定性、边界 case 可能还有坑。DeepSeek 官方也没有回避这一点,技术报告里写得很坦诚。

另外,跟 Opus 4.6 的思考模式比,V4-Pro 还有差距。这个差距有多大?得实测才知道。但至少在开源领域,V4-Pro 已经没有对手了。

最后

DeepSeek 官方今天发了句话:"不诱于誉,不恐于诽,率道而行,端然正己。"放在跳票三个月、融资传闻满天飞的今天,多少有点回应争议的意思。

你觉得 V4 能打过 GPT-5 吗?评论区扣 1 能,扣 2 不能,最离谱的分析我请你喝咖啡(虽然大概率兑现不了)。