DeepSeek V4 全面开源:1.6T 参数背后的中国式创新

0 阅读10分钟

4月24日,DeepSeek 发布 V4 系列并全面开源。沉寂15个月后,这只"鲇鱼"回来了。
这次不只是追上来了——他们走出了一条外国团队没走过的路。


发生了什么

4月24日,深度求索(DeepSeek-AI)正式发布 V4 系列预览版,同步在 Hugging Face 和魔搭社区开源,MIT 协议,可商用。

两个版本:

  • V4-Pro(旗舰):1.6万亿总参数,每次推理只激活490亿,支持100万 token 超长上下文
  • V4-Flash(经济):2840亿总参数,激活130亿,同样100万上下文,更快更便宜

注意一个数字——1.6万亿参数。这是什么概念?GPT-4 的总参数量传闻在1.8万亿左右(未官方确认),而 DeepSeek 把这个规模的模型,开源了

不光开源,两个版本都原生适配了华为昇腾950PR芯片,推理效率提升35倍(较初期版本,第三方评测显示,昇腾950PR单卡推理性能达到英伟达特供版H20芯片的2.87倍)。
华尔街日报评价这是"中国芯片的关键里程碑","皮衣黄"不久前还在采访中声称"如果DeepSeek等模型在华为的硬件上进行深度优化,对我们国家将是可怕的结局"。


真正值得关注的不是"有多大",而是"怎么做到的"

很多人看到1.6T参数,第一反应是"堆算力堆出来的"。

不是。

DeepSeek 的思路和美国团队完全不同。OpenAI 和 Google 的路线是"用更多算力跑更强的模型",DeepSeek 的路线是"用更聪明的架构,用更少的算力,做到同样的事"。

核心是两个技术创新。

创新1:MoE 稀疏激活——1.6T 参数只"点亮"490亿

EP01-MoE-Architecture.png 传统大模型是 Dense(稠密)架构——每次推理,所有参数都要参与计算。1.6万亿参数全激活,需要多少算力?现在的 GPU 根本跑不动。

DeepSeek 用的是 MoE(Mixture of Experts,混合专家模型)。把1.6万亿参数分成几百个"专家"网络,每次输入一个问题,系统自动路由,只"点亮"其中最相关的几十个专家。

结果:1.6万亿参数的大模型,每次推理只激活490亿(3%)。

打个比方:这就像一家16000人的公司,每次开会只叫最相关的490人参加。效率高了30多倍,但决策质量不打折。

这不是新技术——MoE 的理论1991年就有了。但把它工程化、做到1.6T级别还能稳定训练,是 DeepSeek 的贡献。推理成本降到同等 Dense 模型的三十分之一。

创新2:CSA+HCA 混合注意力——让100万上下文从"不可能"变成"标配"

EP01-CSA-HCA-Attention.png 长上下文是大模型最难的技术挑战之一。

传统的注意力机制(Attention)的计算量随上下文长度呈平方级增长。128K tokens 的时候已经很吃力,100万 tokens?传统方法直接爆掉。

DeepSeek V3 用的是 MLA(多头潜在注意力),通过压缩 KV cache 来降低显存占用。而 V4 干了一件更大胆的事——放弃了 MLA,发明了一套全新的混合注意力架构

这套架构分两层交替执行:

CSA(Compressed Sparse Attention,压缩稀疏注意力): 先把每4个 token 的信息压缩成1个摘要,再做稀疏注意力(每个问题只看最相关的1024个摘要)。同时保留128个 token 的滑动窗口,确保局部精细信息不丢失。

HCA(Heavily Compressed Attention,重度压缩注意力): 用更大的压缩比(128倍),直接做全连接注意力。虽然压缩很狠,但全连接保证了全局信息不遗漏。

两者交替运行,效果惊人:在100万 token 上下文下,相比上一代 V3.2:

  • 推理计算量降到 27%
  • KV 缓存占用降到 10%

Flash 版更夸张——计算量降到 10%,缓存降到 7%

这意味着什么?意味着在同样的硬件上,V4 能处理10倍于前代的长文本。100万 token 不再是营销噱头,而是真正能跑得动、用得起的能力。


算一下账:有多便宜

价格是最诚实的信号。

模型输入价格(每百万token)输出价格上下文开源
DeepSeek V4-Pro¥2(约$0.4)¥6(约$0.9)1MMIT 协议
DeepSeek V4-Flash¥1¥31MMIT 协议
Claude Opus 4.7$25200K闭源
GPT-5.41M闭源

V4-Pro 的输出价格是 Claude Opus 4.7 的 八分之一。V4-Flash 更是便宜到离谱——1块钱100万输入 token。

这还是缓存未命中的价格,缓存命中的价格更低。

这不是"便宜一点"。这是数量级的差距。

而且别忘了:DeepSeek 全面开源,MIT 协议,你可以下载权重,在自己服务器上跑,成本还可以进一步压低。闭源模型,你只能付 API 费。


能力到底怎么样?数据说话

不要看营销话术,看跑分。

基准测试DeepSeek V4-Pro说明
LiveCodeBench93.5%(排名第1)代码生成能力,超越所有已公开模型
Codeforces Rating3206竞赛编程,开源模型最高分
IMO-AnswerBench89.8%(排名第1)国际奥数级别数学推理
GPQA Diamond90.1研究生级科学推理
MMLU-Pro87.5综合知识理解
SWE Verified80.6%真实软件工程任务修复

几个关键对比:

代码能力:LiveCodeBench 93.5%,排名第1。Codeforces Rating 3206,是开源模型的最高分。在 Agentic Coding(AI自主编程)专项测试中,体验优于闭源的 Claude Sonnet 4.5,接近 Claude Opus 4.6 非思考模式。

长上下文能力:MRCR 1M(百万 token 召回测试)得分 83.5。作为对比,Claude 4.7 在同样测试中的得分是 32.2。这不是领先一个身位,是碾压级差距

客观地说差距在哪里:技术报告承认,V4-Pro-Max 在部分标准推理基准上仍略逊于 Gemini-Pro-3.1 等最顶尖闭源模型,大约落后3到6个月。在 SWE Verified 上(80.6% vs Claude Opus 4.7 的 87.6%),也有约7个百分点的差距。

但这种差距的性质已经变了——不再是"差一代"的问题,而是"同一代里谁更强"的问题。


国产算力适配:不只是"能用",而是"跑得快"

很多人关注 DeepSeek 的模型能力,但同样重要、甚至更重要的,是它的算力适配。

EP01-Huawei-Ascend-Chip.png V4 发布当天,华为昇腾950PR、天数智芯、寒武纪等国产芯片就完成了适配。

这不是简单的"换个驱动"。这是一场涉及四个层面的彻底切换:

底层:华为 CANN Next 计算框架替代 CUDA。CANN Next 提供了类似 CUDA 的编程接口,让原本为英伟达 GPU 写的算子能以较低成本迁移。

模型层:V4 的推理全链路已完全在国产芯片上跑通。DeepSeek 专门做了 KV cache 滑动窗口压缩优化,弥补国产芯片与英伟达在内存带宽上的差距。

硬件调度层:V4 的稀疏注意力和 MoE 架构天然具有计算稀疏性,国产芯片厂商针对性地优化了调度器和矩阵计算单元。

结果:迁移到华为昇腾950PR后,推理效率提升3倍以上,单卡性能达英伟达H20的2.87倍。

CNBC 引述分析师评价:这有助于中国减少对英伟达的依赖,强化"AI主权"。

不过也要客观说:目前适配主要集中在推理侧。超大规模预训练仍依赖英伟达 GPU。训练侧的国产替代,还有更长的路要走。


中国开源模型的全球格局

EP01-Global-Open-Source-Ecosystem.png 把视野拉远一点。

根据 AI 模型 API 调用平台 OpenRouter 去年12月的研究:2025年中国开源AI模型约占全球AI使用量的三分之一。其中 DeepSeek 是使用量最多的开源模型。

国产开源大模型全球累计下载量已突破 100亿次。目前全球开源模型领域,中国团队已经成为绝对主力:DeepSeek(代码能力+长上下文)、Qwen(阿里,多语言能力)、GLM(智谱AI,多模态)、Kimi(月之暗面,长上下文)、MiniMax——多家团队你追我赶,迭代速度惊人。

这个数字背后是一个趋势:中国AI公司选择了一条和美国巨头完全不同的路——全面开源

美国国会咨询机构的一份研究指出,开源AI发展已成为中国的经济优势。由于使用障碍极低,中国开源模型被广泛应用于机器人、物流、制造业等领域。马来西亚通信部去年宣布,其主权AI基础设施项目将基于 DeepSeek 技术。

开源是“把朋友变多”的一个绝佳手段!


我的判断

写到这里,我想说几点自己的看法。

第一,DeepSeek 的真正贡献不是"做出了大模型",而是"用更聪明的方式做出了大模型"。

1.6T 参数、100万上下文、开源、适配国产芯片——单独拿出来每一项都不稀奇。但把它们组合在一起,并且做到推理成本是闭源模型的七分之一——这背后是架构创新、工程优化、算力适配的系统级能力。

CSA+HCA 混合注意力就是一个典型例子:面对100万 token 的工程难题,他们没有选择"等硬件进步"或"堆更多算力",而是从算法层面重新设计了注意力机制,把不可能变成标配。

第二,约束倒逼创新,这是技术史上反复出现的规律。

日本汽车工业在石油危机中发展出精益制造;ARM 在功耗受限的移动端发展出低功耗架构,最终统治了手机芯片;DeepSeek 在算力受限的条件下发展出 MoE 稀疏激活和混合注意力,用1/30的推理成本达到旗舰级性能。

如果中国团队和美国团队拥有一样的算力,今天的大模型格局会是什么样?这个问题没有答案。但有一个事实很清楚:算力不够,架构来凑。

第三,开源正在成为中国AI最重要的战略优势。

美国巨头(OpenAI、Google、Anthropic)走闭源路线,靠 API 收费构建商业壁垒。中国团队走开源路线,MIT 协议,全球开发者都可以用。

短期看,闭源有利润优势。长期看,开源有生态优势——更多开发者在你的模型上构建应用,更多企业在你的技术栈上投资,更多国家把你的模型作为基础设施。

就像 Android 之于 iOS。


最后

DeepSeek V4 不是终点!技术报告里明确说了,这只是"预览版"。

下半年算力扩容后,API 价格还会大幅下调。训练侧的国产芯片适配也在推进。其他中国团队——阿里的 Qwen、智谱的 GLM、月之暗面的 Kimi、MiniMax——也都在快速迭代。

这不是一个团队的故事。这是一个生态的故事。

两年前,很多人不相信中国团队在大模型领域有机会。一年前,DeepSeek R1 让世界开始认真对待中国开源模型。今天,V4 用 1.6T 参数全面开源、100万上下文标配、国产芯片适配的事实告诉所有人:这条路,走通了。


📰 参考来源:

  1. DeepSeek V4 技术报告
  2. 观察者网:DeepSeek-V4发布引轰动,外媒感叹
  3. 腾讯云开发者社区:DeepSeek-V4 国产化落地
  4. DataLearner:DeepSeek-V4-Pro Benchmark Results
  5. 清竹志:读完 DeepSeek-V4 技术报告
  6. 一步:DeepSeek V4 正式发布

🧪 求索实验室

你觉得 DeepSeek 的开源策略,对中国 AI 行业意味着什么?评论区聊聊。