DeepSeek V4 全面开源：1.6T 参数背后的中国式创新发生了什么 4月24日，深度求索（DeepSeek-AI

4月24日，DeepSeek 发布 V4 系列并全面开源。沉寂15个月后，这只"鲇鱼"回来了。
这次不只是追上来了——他们走出了一条外国团队没走过的路。

发生了什么

4月24日，深度求索（DeepSeek-AI）正式发布 V4 系列预览版，同步在 Hugging Face 和魔搭社区开源，MIT 协议，可商用。

两个版本：

V4-Pro（旗舰）：1.6万亿总参数，每次推理只激活490亿，支持100万 token 超长上下文
V4-Flash（经济）：2840亿总参数，激活130亿，同样100万上下文，更快更便宜

注意一个数字——1.6万亿参数。这是什么概念？GPT-4 的总参数量传闻在1.8万亿左右（未官方确认），而 DeepSeek 把这个规模的模型，开源了。

不光开源，两个版本都原生适配了华为昇腾950PR芯片，推理效率提升35倍（较初期版本，第三方评测显示，昇腾950PR单卡推理性能达到英伟达特供版H20芯片的2.87倍）。
华尔街日报评价这是"中国芯片的关键里程碑"，"皮衣黄"不久前还在采访中声称"如果DeepSeek等模型在华为的硬件上进行深度优化，对我们国家将是可怕的结局"。

真正值得关注的不是"有多大"，而是"怎么做到的"

很多人看到1.6T参数，第一反应是"堆算力堆出来的"。

不是。

DeepSeek 的思路和美国团队完全不同。OpenAI 和 Google 的路线是"用更多算力跑更强的模型"，DeepSeek 的路线是"用更聪明的架构，用更少的算力，做到同样的事"。

核心是两个技术创新。

创新1：MoE 稀疏激活——1.6T 参数只"点亮"490亿

传统大模型是 Dense（稠密）架构——每次推理，所有参数都要参与计算。1.6万亿参数全激活，需要多少算力？现在的 GPU 根本跑不动。

DeepSeek 用的是 MoE（Mixture of Experts，混合专家模型）。把1.6万亿参数分成几百个"专家"网络，每次输入一个问题，系统自动路由，只"点亮"其中最相关的几十个专家。

结果：1.6万亿参数的大模型，每次推理只激活490亿（3%）。

打个比方：这就像一家16000人的公司，每次开会只叫最相关的490人参加。效率高了30多倍，但决策质量不打折。

这不是新技术——MoE 的理论1991年就有了。但把它工程化、做到1.6T级别还能稳定训练，是 DeepSeek 的贡献。推理成本降到同等 Dense 模型的三十分之一。

创新2：CSA+HCA 混合注意力——让100万上下文从"不可能"变成"标配"

长上下文是大模型最难的技术挑战之一。

传统的注意力机制（Attention）的计算量随上下文长度呈平方级增长。128K tokens 的时候已经很吃力，100万 tokens？传统方法直接爆掉。

DeepSeek V3 用的是 MLA（多头潜在注意力），通过压缩 KV cache 来降低显存占用。而 V4 干了一件更大胆的事——放弃了 MLA，发明了一套全新的混合注意力架构。

这套架构分两层交替执行：

CSA（Compressed Sparse Attention，压缩稀疏注意力）：先把每4个 token 的信息压缩成1个摘要，再做稀疏注意力（每个问题只看最相关的1024个摘要）。同时保留128个 token 的滑动窗口，确保局部精细信息不丢失。

HCA（Heavily Compressed Attention，重度压缩注意力）：用更大的压缩比（128倍），直接做全连接注意力。虽然压缩很狠，但全连接保证了全局信息不遗漏。

两者交替运行，效果惊人：在100万 token 上下文下，相比上一代 V3.2：

推理计算量降到 27%
KV 缓存占用降到 10%

Flash 版更夸张——计算量降到 10%，缓存降到 7%。

这意味着什么？意味着在同样的硬件上，V4 能处理10倍于前代的长文本。100万 token 不再是营销噱头，而是真正能跑得动、用得起的能力。

算一下账：有多便宜

价格是最诚实的信号。

模型	输入价格（每百万token）	输出价格	上下文	开源
DeepSeek V4-Pro	¥2（约$0.4）	¥6（约$0.9）	1M	MIT 协议
DeepSeek V4-Flash	¥1	¥3	1M	MIT 协议
Claude Opus 4.7	—	$25	200K	闭源
GPT-5.4	—	—	1M	闭源

V4-Pro 的输出价格是 Claude Opus 4.7 的 八分之一。V4-Flash 更是便宜到离谱——1块钱100万输入 token。

这还是缓存未命中的价格，缓存命中的价格更低。

这不是"便宜一点"。这是数量级的差距。

而且别忘了：DeepSeek 全面开源，MIT 协议，你可以下载权重，在自己服务器上跑，成本还可以进一步压低。闭源模型，你只能付 API 费。

能力到底怎么样？数据说话

不要看营销话术，看跑分。

基准测试	DeepSeek V4-Pro	说明
LiveCodeBench	93.5%（排名第1）	代码生成能力，超越所有已公开模型
Codeforces Rating	3206	竞赛编程，开源模型最高分
IMO-AnswerBench	89.8%（排名第1）	国际奥数级别数学推理
GPQA Diamond	90.1	研究生级科学推理
MMLU-Pro	87.5	综合知识理解
SWE Verified	80.6%	真实软件工程任务修复

几个关键对比：

代码能力：LiveCodeBench 93.5%，排名第1。Codeforces Rating 3206，是开源模型的最高分。在 Agentic Coding（AI自主编程）专项测试中，体验优于闭源的 Claude Sonnet 4.5，接近 Claude Opus 4.6 非思考模式。

长上下文能力：MRCR 1M（百万 token 召回测试）得分 83.5。作为对比，Claude 4.7 在同样测试中的得分是 32.2。这不是领先一个身位，是碾压级差距。

客观地说差距在哪里：技术报告承认，V4-Pro-Max 在部分标准推理基准上仍略逊于 Gemini-Pro-3.1 等最顶尖闭源模型，大约落后3到6个月。在 SWE Verified 上（80.6% vs Claude Opus 4.7 的 87.6%），也有约7个百分点的差距。

但这种差距的性质已经变了——不再是"差一代"的问题，而是"同一代里谁更强"的问题。

国产算力适配：不只是"能用"，而是"跑得快"

很多人关注 DeepSeek 的模型能力，但同样重要、甚至更重要的，是它的算力适配。

V4 发布当天，华为昇腾950PR、天数智芯、寒武纪等国产芯片就完成了适配。

这不是简单的"换个驱动"。这是一场涉及四个层面的彻底切换：

底层：华为 CANN Next 计算框架替代 CUDA。CANN Next 提供了类似 CUDA 的编程接口，让原本为英伟达 GPU 写的算子能以较低成本迁移。

模型层：V4 的推理全链路已完全在国产芯片上跑通。DeepSeek 专门做了 KV cache 滑动窗口压缩优化，弥补国产芯片与英伟达在内存带宽上的差距。

硬件调度层：V4 的稀疏注意力和 MoE 架构天然具有计算稀疏性，国产芯片厂商针对性地优化了调度器和矩阵计算单元。

结果：迁移到华为昇腾950PR后，推理效率提升3倍以上，单卡性能达英伟达H20的2.87倍。

CNBC 引述分析师评价：这有助于中国减少对英伟达的依赖，强化"AI主权"。

不过也要客观说：目前适配主要集中在推理侧。超大规模预训练仍依赖英伟达 GPU。训练侧的国产替代，还有更长的路要走。

中国开源模型的全球格局

把视野拉远一点。

根据 AI 模型 API 调用平台 OpenRouter 去年12月的研究：2025年中国开源AI模型约占全球AI使用量的三分之一。其中 DeepSeek 是使用量最多的开源模型。

国产开源大模型全球累计下载量已突破 100亿次。目前全球开源模型领域，中国团队已经成为绝对主力：DeepSeek（代码能力+长上下文）、Qwen（阿里，多语言能力）、GLM（智谱AI，多模态）、Kimi（月之暗面，长上下文）、MiniMax——多家团队你追我赶，迭代速度惊人。

这个数字背后是一个趋势：中国AI公司选择了一条和美国巨头完全不同的路——全面开源。

美国国会咨询机构的一份研究指出，开源AI发展已成为中国的经济优势。由于使用障碍极低，中国开源模型被广泛应用于机器人、物流、制造业等领域。马来西亚通信部去年宣布，其主权AI基础设施项目将基于 DeepSeek 技术。

开源是“把朋友变多”的一个绝佳手段！

我的判断

写到这里，我想说几点自己的看法。

第一，DeepSeek 的真正贡献不是"做出了大模型"，而是"用更聪明的方式做出了大模型"。

1.6T 参数、100万上下文、开源、适配国产芯片——单独拿出来每一项都不稀奇。但把它们组合在一起，并且做到推理成本是闭源模型的七分之一——这背后是架构创新、工程优化、算力适配的系统级能力。

CSA+HCA 混合注意力就是一个典型例子：面对100万 token 的工程难题，他们没有选择"等硬件进步"或"堆更多算力"，而是从算法层面重新设计了注意力机制，把不可能变成标配。

第二，约束倒逼创新，这是技术史上反复出现的规律。

日本汽车工业在石油危机中发展出精益制造；ARM 在功耗受限的移动端发展出低功耗架构，最终统治了手机芯片；DeepSeek 在算力受限的条件下发展出 MoE 稀疏激活和混合注意力，用1/30的推理成本达到旗舰级性能。

如果中国团队和美国团队拥有一样的算力，今天的大模型格局会是什么样？这个问题没有答案。但有一个事实很清楚：算力不够，架构来凑。

第三，开源正在成为中国AI最重要的战略优势。

美国巨头（OpenAI、Google、Anthropic）走闭源路线，靠 API 收费构建商业壁垒。中国团队走开源路线，MIT 协议，全球开发者都可以用。

短期看，闭源有利润优势。长期看，开源有生态优势——更多开发者在你的模型上构建应用，更多企业在你的技术栈上投资，更多国家把你的模型作为基础设施。

就像 Android 之于 iOS。

最后

DeepSeek V4 不是终点！技术报告里明确说了，这只是"预览版"。

下半年算力扩容后，API 价格还会大幅下调。训练侧的国产芯片适配也在推进。其他中国团队——阿里的 Qwen、智谱的 GLM、月之暗面的 Kimi、MiniMax——也都在快速迭代。

这不是一个团队的故事。这是一个生态的故事。

两年前，很多人不相信中国团队在大模型领域有机会。一年前，DeepSeek R1 让世界开始认真对待中国开源模型。今天，V4 用 1.6T 参数全面开源、100万上下文标配、国产芯片适配的事实告诉所有人：这条路，走通了。

📰 参考来源：

🧪 求索实验室

你觉得 DeepSeek 的开源策略，对中国 AI 行业意味着什么？评论区聊聊。