今天 DeepSeek V4 发布了。
朋友圈被刷屏了。万亿参数、百万上下文、华为芯片适配、开源——每一条拿出来都够写一篇公关稿。技术群里有人在转跑分截图,SWE-bench 超过 80%,有人已经开始喊"超越 Claude"。
我看了半天,没转。
说实话,有点烦。
不是觉得不牛。是每次有新模型出来,timeline 就变成同一副面孔:跑分截图、"XX 要凉了"、各种一惊一乍的标题。这套东西看了两年了,DNA 都不动了。
但烦归烦,我觉得大家在讨论一个错误的问题。
你在关心它聪不聪明,可它在干另一件事
DeepSeek V4-Pro 的 API 输入价格大约是 0.28 美元每百万 token。
Claude Opus 4.6 呢?15 美元每百万 token。
我掰着指头算了一下——差不多便宜了 50 倍。不是百分之五十,是五十倍。
这意味着什么?意味着你用 Claude 跑一次的钱,够你用 DeepSeek V4 跑五十次。或者反过来说,你之前因为贵而不敢做的事情——比如让 AI 遍历整个代码仓库、把一本书扔进去做摘要、给一个复杂项目做全量代码审查——现在的成本几乎可以忽略。
这不是参数上的胜利。
这是经济学上的碾压。
主流观点在兴奋什么?
我刷了一圈今天的报道,大概分三类:
第一类:跑分党。"DeepSeek V4 在 XX 基准上超过了 Claude!"好吧,我承认 SWE-bench 超 80% 是很猛的数据(来源:知乎测评帖)。但跑分和实际使用体验之间,隔着一个太平洋——不对,隔着两个太平洋。有个 Reddit 开发者说得很直接:内部基准测试不能反映真实世界的混乱程度。
第二类:爱国叙事。"国产大模型崛起!华为芯片加持!"DeepSeek V4 确实做了华为昇腾芯片的深度适配(来源:Reuters,2026 年 4 月 3 日报道),这件事本身是有战略意义的。但说实话,一看到"民族之光"四个字我就头疼——把一个技术产品直接等同于国家竞争力,这个逻辑跳得太快了,也太糊弄人了。
第三类:取代论。"Claude 要凉了""OpenAI 睡不着了"。
嗯。
坦白讲,这三类观点都不算错。但它们全在盯着模型本身使劲——跑分高不高、架构新不新、芯片争不争气。
搁这儿卷参数呢?
真正改变用户行为的从来不是谁更聪明,是谁更便宜。
它们哪里想错了
一个反直觉的事实:在绝大多数实际场景中,模型"够用"就行。
你让 Claude Opus 写一封邮件,效果确实比 DeepSeek V4 好。措辞更优雅,逻辑更缜密,甚至标点符号都更讲究。
但你愿意为这点差距,多付 50 倍的价格吗?
大部分人不愿意。大部分企业更不愿意。整挺好,但花不起那个钱。
我自己用 API 做项目的经验是:真正需要"最聪明"模型的场景,大概只占 10-15%。剩下 85% 的任务——数据清洗、格式转换、批量摘要、代码补全——你需要的是一个"足够聪明且足够便宜"的东西。DeepSeek 从 V3 开始就是这个定位,V4 只是把这条路走到了极致。
万亿参数、MoE 架构(每个 token 只激活 370 亿参数,来源:新浪财经)、DSA 稀疏注意力、Engram 条件记忆——所有这些技术创新的核心目标不是"更聪明",是"同样聪明但更便宜"。
或者更准确地说:用 Claude 十五分之一的价格,做到 Claude 百分之八十的效果。
这不是在跟 Claude 比谁更强。这是在让"用不起好 AI"这句话彻底失效。
说难听点,Claude 像米其林三星,DeepSeek V4 像沙县小吃。你天天吃米其林吗?不吃。但你天天吃沙县。
如果我说对了,接下来会怎样
两个推演。
短期看,API 价格战会加速。Claude 和 GPT 的定价已经不是"我愿意付多少"的问题,是"我有没有理由付 15 倍溢价"的问题。当 DeepSeek V4 以 Apache 2.0 协议开源(来源:知乎),任何团队都可以私有化部署,连 API 费用都省了。Anthropic 和 OpenAI 要么降价,要么证明自己贵得有道理。
这个局面有点像十年前手机市场的故事——小米不需要做到 iPhone 的体验,它只需要做到 iPhone 70% 的体验然后便宜四倍。苹果没倒,但中间那些定价虚高的品牌死了一批。真正难受的不是最好的,是卡在中间的。
长期看,AI 基础设施的格局可能会变。DeepSeek V4 原生适配华为昇腾和寒武纪芯片(来源:Reuters),这意味着完全不依赖英伟达 CUDA 生态的全栈国产 AI 方案第一次变得可用。不是"能跑",是"跑得不差"。对那些受芯片出口管制限制的团队来说,这不是一个技术指标——这是一扇门打开了。
1M token 的上下文窗口也值得说一句。不是因为大——Gemini 也有百万级上下文——而是因为它在开源模型里第一次做到了实用级别的长文本处理。97% 的大海捞针准确率(来源:Morph 技术分析),配合 Engram 条件记忆架构把长期记忆检索降到了 O(1) 复杂度。但有开发者提醒:不要把整个代码仓库直接扔进去,效果不好。得先做"分阶段输入"——先给目录结构,再给文件顺序,然后才是代码本身(来源:Medium 开发者实践帖)。
但我可能是错的
我说 DeepSeek 不需要比 Claude 聪明,这个判断有一个前提:大部分场景确实"够用就行"。
如果 AI Agent 的时代真的到来——那种让 AI 自己拆解任务、调用工具、跑几十步完成复杂项目的场景——"差一点"的差距会被放大。一个 Agent 跑 50 步,每步错误率高 2%,50 步下来累积的误差可能就是成功和失败的区别。
到那时候,Claude 的 15 倍溢价可能就是合理的了。
不过话又说回来。如果 DeepSeek 的迭代速度不放慢——V3 到 V4 中间隔了一年多——那这个"差一点"的差距会一直在缩小。瞎折腾了这么久,人家每一步都踩在实处。
问题是:缩小到什么程度,Claude 们才真的该紧张?
这个答案我没有。也许半年后 V4 的实际落地数据出来,能看得更清楚一些。
到那时候,值得关注的不是跑分,不是参数,不是谁更"聪明"。
是你的 API 账单。
变了没有?