4月24日,DeepSeek 发布 V4 系列并全面开源。沉寂15个月后,这只"鲇鱼"回来了。
这次不只是追上来了——他们走出了一条外国团队没走过的路。
发生了什么
4月24日,深度求索(DeepSeek-AI)正式发布 V4 系列预览版,同步在 Hugging Face 和魔搭社区开源,MIT 协议,可商用。
两个版本:
- V4-Pro(旗舰):1.6万亿总参数,每次推理只激活490亿,支持100万 token 超长上下文
- V4-Flash(经济):2840亿总参数,激活130亿,同样100万上下文,更快更便宜
注意一个数字——1.6万亿参数。这是什么概念?GPT-4 的总参数量传闻在1.8万亿左右(未官方确认),而 DeepSeek 把这个规模的模型,开源了。
不光开源,两个版本都原生适配了华为昇腾950PR芯片,推理效率提升35倍(较初期版本,第三方评测显示,昇腾950PR单卡推理性能达到英伟达特供版H20芯片的2.87倍)。
华尔街日报评价这是"中国芯片的关键里程碑","皮衣黄"不久前还在采访中声称"如果DeepSeek等模型在华为的硬件上进行深度优化,对我们国家将是可怕的结局"。
真正值得关注的不是"有多大",而是"怎么做到的"
很多人看到1.6T参数,第一反应是"堆算力堆出来的"。
不是。
DeepSeek 的思路和美国团队完全不同。OpenAI 和 Google 的路线是"用更多算力跑更强的模型",DeepSeek 的路线是"用更聪明的架构,用更少的算力,做到同样的事"。
核心是两个技术创新。
创新1:MoE 稀疏激活——1.6T 参数只"点亮"490亿
传统大模型是 Dense(稠密)架构——每次推理,所有参数都要参与计算。1.6万亿参数全激活,需要多少算力?现在的 GPU 根本跑不动。
DeepSeek 用的是 MoE(Mixture of Experts,混合专家模型)。把1.6万亿参数分成几百个"专家"网络,每次输入一个问题,系统自动路由,只"点亮"其中最相关的几十个专家。
结果:1.6万亿参数的大模型,每次推理只激活490亿(3%)。
打个比方:这就像一家16000人的公司,每次开会只叫最相关的490人参加。效率高了30多倍,但决策质量不打折。
这不是新技术——MoE 的理论1991年就有了。但把它工程化、做到1.6T级别还能稳定训练,是 DeepSeek 的贡献。推理成本降到同等 Dense 模型的三十分之一。
创新2:CSA+HCA 混合注意力——让100万上下文从"不可能"变成"标配"
长上下文是大模型最难的技术挑战之一。
传统的注意力机制(Attention)的计算量随上下文长度呈平方级增长。128K tokens 的时候已经很吃力,100万 tokens?传统方法直接爆掉。
DeepSeek V3 用的是 MLA(多头潜在注意力),通过压缩 KV cache 来降低显存占用。而 V4 干了一件更大胆的事——放弃了 MLA,发明了一套全新的混合注意力架构。
这套架构分两层交替执行:
CSA(Compressed Sparse Attention,压缩稀疏注意力): 先把每4个 token 的信息压缩成1个摘要,再做稀疏注意力(每个问题只看最相关的1024个摘要)。同时保留128个 token 的滑动窗口,确保局部精细信息不丢失。
HCA(Heavily Compressed Attention,重度压缩注意力): 用更大的压缩比(128倍),直接做全连接注意力。虽然压缩很狠,但全连接保证了全局信息不遗漏。
两者交替运行,效果惊人:在100万 token 上下文下,相比上一代 V3.2:
- 推理计算量降到 27%
- KV 缓存占用降到 10%
Flash 版更夸张——计算量降到 10%,缓存降到 7%。
这意味着什么?意味着在同样的硬件上,V4 能处理10倍于前代的长文本。100万 token 不再是营销噱头,而是真正能跑得动、用得起的能力。
算一下账:有多便宜
价格是最诚实的信号。
| 模型 | 输入价格(每百万token) | 输出价格 | 上下文 | 开源 |
|---|---|---|---|---|
| DeepSeek V4-Pro | ¥2(约$0.4) | ¥6(约$0.9) | 1M | MIT 协议 |
| DeepSeek V4-Flash | ¥1 | ¥3 | 1M | MIT 协议 |
| Claude Opus 4.7 | — | $25 | 200K | 闭源 |
| GPT-5.4 | — | — | 1M | 闭源 |
V4-Pro 的输出价格是 Claude Opus 4.7 的 八分之一。V4-Flash 更是便宜到离谱——1块钱100万输入 token。
这还是缓存未命中的价格,缓存命中的价格更低。
这不是"便宜一点"。这是数量级的差距。
而且别忘了:DeepSeek 全面开源,MIT 协议,你可以下载权重,在自己服务器上跑,成本还可以进一步压低。闭源模型,你只能付 API 费。
能力到底怎么样?数据说话
不要看营销话术,看跑分。
| 基准测试 | DeepSeek V4-Pro | 说明 |
|---|---|---|
| LiveCodeBench | 93.5%(排名第1) | 代码生成能力,超越所有已公开模型 |
| Codeforces Rating | 3206 | 竞赛编程,开源模型最高分 |
| IMO-AnswerBench | 89.8%(排名第1) | 国际奥数级别数学推理 |
| GPQA Diamond | 90.1 | 研究生级科学推理 |
| MMLU-Pro | 87.5 | 综合知识理解 |
| SWE Verified | 80.6% | 真实软件工程任务修复 |
几个关键对比:
代码能力:LiveCodeBench 93.5%,排名第1。Codeforces Rating 3206,是开源模型的最高分。在 Agentic Coding(AI自主编程)专项测试中,体验优于闭源的 Claude Sonnet 4.5,接近 Claude Opus 4.6 非思考模式。
长上下文能力:MRCR 1M(百万 token 召回测试)得分 83.5。作为对比,Claude 4.7 在同样测试中的得分是 32.2。这不是领先一个身位,是碾压级差距。
客观地说差距在哪里:技术报告承认,V4-Pro-Max 在部分标准推理基准上仍略逊于 Gemini-Pro-3.1 等最顶尖闭源模型,大约落后3到6个月。在 SWE Verified 上(80.6% vs Claude Opus 4.7 的 87.6%),也有约7个百分点的差距。
但这种差距的性质已经变了——不再是"差一代"的问题,而是"同一代里谁更强"的问题。
国产算力适配:不只是"能用",而是"跑得快"
很多人关注 DeepSeek 的模型能力,但同样重要、甚至更重要的,是它的算力适配。
V4 发布当天,华为昇腾950PR、天数智芯、寒武纪等国产芯片就完成了适配。
这不是简单的"换个驱动"。这是一场涉及四个层面的彻底切换:
底层:华为 CANN Next 计算框架替代 CUDA。CANN Next 提供了类似 CUDA 的编程接口,让原本为英伟达 GPU 写的算子能以较低成本迁移。
模型层:V4 的推理全链路已完全在国产芯片上跑通。DeepSeek 专门做了 KV cache 滑动窗口压缩优化,弥补国产芯片与英伟达在内存带宽上的差距。
硬件调度层:V4 的稀疏注意力和 MoE 架构天然具有计算稀疏性,国产芯片厂商针对性地优化了调度器和矩阵计算单元。
结果:迁移到华为昇腾950PR后,推理效率提升3倍以上,单卡性能达英伟达H20的2.87倍。
CNBC 引述分析师评价:这有助于中国减少对英伟达的依赖,强化"AI主权"。
不过也要客观说:目前适配主要集中在推理侧。超大规模预训练仍依赖英伟达 GPU。训练侧的国产替代,还有更长的路要走。
中国开源模型的全球格局
把视野拉远一点。
根据 AI 模型 API 调用平台 OpenRouter 去年12月的研究:2025年中国开源AI模型约占全球AI使用量的三分之一。其中 DeepSeek 是使用量最多的开源模型。
国产开源大模型全球累计下载量已突破 100亿次。目前全球开源模型领域,中国团队已经成为绝对主力:DeepSeek(代码能力+长上下文)、Qwen(阿里,多语言能力)、GLM(智谱AI,多模态)、Kimi(月之暗面,长上下文)、MiniMax——多家团队你追我赶,迭代速度惊人。
这个数字背后是一个趋势:中国AI公司选择了一条和美国巨头完全不同的路——全面开源。
美国国会咨询机构的一份研究指出,开源AI发展已成为中国的经济优势。由于使用障碍极低,中国开源模型被广泛应用于机器人、物流、制造业等领域。马来西亚通信部去年宣布,其主权AI基础设施项目将基于 DeepSeek 技术。
开源是“把朋友变多”的一个绝佳手段!
我的判断
写到这里,我想说几点自己的看法。
第一,DeepSeek 的真正贡献不是"做出了大模型",而是"用更聪明的方式做出了大模型"。
1.6T 参数、100万上下文、开源、适配国产芯片——单独拿出来每一项都不稀奇。但把它们组合在一起,并且做到推理成本是闭源模型的七分之一——这背后是架构创新、工程优化、算力适配的系统级能力。
CSA+HCA 混合注意力就是一个典型例子:面对100万 token 的工程难题,他们没有选择"等硬件进步"或"堆更多算力",而是从算法层面重新设计了注意力机制,把不可能变成标配。
第二,约束倒逼创新,这是技术史上反复出现的规律。
日本汽车工业在石油危机中发展出精益制造;ARM 在功耗受限的移动端发展出低功耗架构,最终统治了手机芯片;DeepSeek 在算力受限的条件下发展出 MoE 稀疏激活和混合注意力,用1/30的推理成本达到旗舰级性能。
如果中国团队和美国团队拥有一样的算力,今天的大模型格局会是什么样?这个问题没有答案。但有一个事实很清楚:算力不够,架构来凑。
第三,开源正在成为中国AI最重要的战略优势。
美国巨头(OpenAI、Google、Anthropic)走闭源路线,靠 API 收费构建商业壁垒。中国团队走开源路线,MIT 协议,全球开发者都可以用。
短期看,闭源有利润优势。长期看,开源有生态优势——更多开发者在你的模型上构建应用,更多企业在你的技术栈上投资,更多国家把你的模型作为基础设施。
就像 Android 之于 iOS。
最后
DeepSeek V4 不是终点!技术报告里明确说了,这只是"预览版"。
下半年算力扩容后,API 价格还会大幅下调。训练侧的国产芯片适配也在推进。其他中国团队——阿里的 Qwen、智谱的 GLM、月之暗面的 Kimi、MiniMax——也都在快速迭代。
这不是一个团队的故事。这是一个生态的故事。
两年前,很多人不相信中国团队在大模型领域有机会。一年前,DeepSeek R1 让世界开始认真对待中国开源模型。今天,V4 用 1.6T 参数全面开源、100万上下文标配、国产芯片适配的事实告诉所有人:这条路,走通了。
📰 参考来源:
- DeepSeek V4 技术报告
- 观察者网:DeepSeek-V4发布引轰动,外媒感叹
- 腾讯云开发者社区:DeepSeek-V4 国产化落地
- DataLearner:DeepSeek-V4-Pro Benchmark Results
- 清竹志:读完 DeepSeek-V4 技术报告
- 一步:DeepSeek V4 正式发布
🧪 求索实验室
你觉得 DeepSeek 的开源策略,对中国 AI 行业意味着什么?评论区聊聊。