DeepSeek V4系列：开源的刀⚔️ 序章：一把刀的故事 2026年4月24日，清晨7时。 DeepSeek 在 H

系列说明：这是 DeepSeek V4 深度解析系列的第六篇，也是最后一篇。前五篇我们讲了效率革命、技术原理、工程挑战、Agent能力、架构哲学。这一篇，我们讲技术之外的那个问题——DeepSeek 为什么要开源？

⚔️ 序章：一把刀的故事

2026年4月24日，清晨7时。

DeepSeek 在 HuggingFace 上传了一个文件。

不是一段代码，不是一篇论文。

是一把刀。

1.6万亿参数，完整的模型权重，任何人都可以下载，任何人都可以部署，任何人都可以用它做任何事。

这把刀，叫做 DeepSeek V4-Pro。

在 AI 行业，这不是第一次有人把刀交出去。

但这一次不同。

因为这把刀，已经锋利到可以和 GPT-5.4、Claude Opus 4.6 正面交锋。

把这样一把刀交给所有人，需要一个理由。

或者，需要一种信仰。

🌍 一、开源的真实成本：你知道这意味着什么吗？

先讲一个很多人没有认真想过的问题：

开源一个 1.6 万亿参数的模型，到底意味着什么？

不是"把代码放到 GitHub 上"那么简单。

💡 技术深扒：开源一个顶级大模型的真实代价

存储成本：

1.6 万亿参数，用 BF16 精度存储，需要约 3.2TB 的存储空间。这还只是模型权重本身，不包括优化器状态、训练数据、代码库。在 HuggingFace 上托管这样一个文件，每个月的带宽费用就是一笔不小的数字。

复现成本：

有了权重，能复现训练过程吗？理论上可以，但实际上极难。V4 的训练需要数千张 H100/H800 显卡，持续数周。即使有了权重，要从头复现一个同等质量的模型，成本依然是天文数字。

竞争情报成本：

开源意味着竞争对手可以逆向分析你的架构。他们可以研究你的专家配置、注意力机制、训练技巧。这些信息，在闭源时代是最核心的竞争壁垒。

开源的真实成本，不是存储费用，而是竞争优势的主动放弃。DeepSeek 选择开源，意味着它认为这些竞争优势，不是它真正的护城河。

那么，DeepSeek 真正的护城河是什么？

这个问题，是理解"为什么开源"的关键。

💰 二、商业逻辑：开源不等于免费

很多人有一个误解：

开源 = 免费 = 没有商业价值。

这个逻辑，在 AI 时代是错的。

💡 技术深扒：DeepSeek 的商业模式解剖

DeepSeek 的收入来源，不是卖模型，而是卖推理服务。模型权重开源，但 API 收费。

这是一个经典的"剃须刀 + 刀片"商业模式：

剃须刀（模型权重）：免费
刀片（API 调用）：收费

服务	价格
V4-Pro 输入（缓存未命中）	12元/百万token
V4-Pro 输出	24元/百万token
V4-Flash 输入	1元/百万token
V4-Flash 输出	2元/百万token

开源模型权重，让开发者可以免费试用、本地部署、二次开发。但大多数企业，不会自己部署一个需要数百张 GPU 的模型。他们会选择调用 API。

开源，是最好的获客策略。它让 DeepSeek 的模型进入了每一个开发者的工具箱，然后把其中愿意付费的企业，转化为 API 客户。

这个逻辑，不是 DeepSeek 发明的。

Red Hat 用这个逻辑，把 Linux 变成了一门生意。

MongoDB 用这个逻辑，把开源数据库变成了上市公司。

Elastic 用这个逻辑，把搜索引擎变成了企业服务。

开源是入口，服务是出口。DeepSeek 只是把这个逻辑，用在了大模型上。

但这里有一个更深的问题：

如果开源只是获客策略，那为什么不是所有 AI 公司都选择开源？

OpenAI 不开源。Anthropic 不开源。Google 的顶级模型不开源。

他们都知道"开源是好的获客策略"。但他们没有这样做。

为什么？

🔒 三、为什么顶级 AI 公司不开源？

这个问题，比"为什么 DeepSeek 开源"更有意思。

💡 技术深扒：闭源的三个理由

理由一：护城河

对于 OpenAI 和 Anthropic 来说，模型本身就是护城河。GPT-5 的架构细节、训练技巧、RLHF 方法——这些是他们最核心的竞争优势。一旦开源，竞争对手可以直接站在他们的肩膀上。他们花了数年、数十亿美元建立的优势，可能在几个月内被追平。

理由二：安全考量

OpenAI 和 Anthropic 都有明确的 AI 安全立场。他们认为，把最强的模型开源，可能会被用于恶意目的——生成虚假信息、辅助网络攻击、甚至更危险的应用。这不只是公关说辞。他们的研究团队，确实在认真研究这些风险。

理由三：商业压力

OpenAI 已经从微软融资数百亿美元。投资人需要回报。开源意味着放弃部分商业价值。在巨大的资本压力下，这是一个很难做出的决定。

DeepSeek 的情况不同：

它背靠幻方科技，不依赖外部融资，没有 IPO 压力
它的核心竞争优势，不是模型架构，而是训练效率（用更少的算力训练出更好的模型）
训练效率，很难从模型权重中逆向工程出来

所以，开源对 DeepSeek 的成本，远低于对 OpenAI 的成本。

这解释了"为什么 DeepSeek 能开源"。

但还没有解释"为什么 DeepSeek 要开源"。

这两件事，是不同的问题。

🌐 四、地缘政治维度：算力受限下的另一种选择

2023年，美国开始限制向中国出口高端 AI 芯片。

H100、H800、A100——这些训练大模型的核心硬件，中国公司越来越难以获得。

这是 DeepSeek 面对的现实。

💡 技术深扒：算力限制如何塑造了 DeepSeek 的技术路线

算力受限，逼出了两种可能的应对策略：

策略一：囤积算力

在限制生效之前，尽可能多地购买高端 GPU。这是一种防御性策略。问题：算力是消耗品，会折旧，会过时。

策略二：提升效率

用更少的算力，训练出更好的模型。这是一种进攻性策略。这正是 DeepSeek 选择的路。V3 的训练成本约 557 万美元，是 GPT-4 的 1/14。V4 在此基础上进一步优化。

算力限制，反而成了 DeepSeek 最强的创新驱动力。就像一个被迫节食的运动员，反而练出了更精悍的体型。

在这个背景下，开源有了另一层含义。

开源，是一种话语权的争夺。

当 DeepSeek 把 V4 开源，全球的开发者都可以使用这个模型。印度的创业公司，非洲的研究机构，欧洲的中小企业——他们不需要依赖 OpenAI 或 Google，就可以获得世界顶级的 AI 能力。

这不只是商业策略。

这是在 AI 时代，重新定义"谁掌握了技术主权"。

💡 技术深扒：开源与技术主权

在软件时代，Linux 的开源，打破了微软对操作系统的垄断。任何国家、任何组织，都可以基于 Linux 构建自己的技术栈，不需要向微软付费，不需要担心被"断供"。

在 AI 时代，DeepSeek 的开源，有类似的意义。当一个国家或组织，可以在本地部署一个世界顶级的 AI 模型，它就不再依赖任何单一的 AI 服务提供商。这种独立性，在地缘政治日益复杂的今天，有着超越商业价值的战略意义。

有趣的是：美国限制向中国出口算力，本意是限制中国的 AI 发展。但这个限制，反而逼出了 DeepSeek 的效率革命。而 DeepSeek 的开源，又把这种效率优势，分享给了全世界——包括那些同样面临算力限制的国家和组织。

这是一个充满讽刺意味的历史转折。

📊 五、V4 开源后，谁受益，谁受损？

开源不是慈善。

它会重新分配行业的利益格局。

✅ 受益方

中小企业和创业公司

以前，要用顶级 AI 能力，只能调用 OpenAI 或 Anthropic 的 API，每个月支付高额费用。现在，他们可以选择：

调用 DeepSeek API（价格是 GPT-5.5 的 1/50）
或者自己部署开源权重（一次性硬件投入，长期零边际成本）

这对创业公司来说，是一次成本结构的革命。

学术研究机构

顶级模型开源，意味着研究者可以在最先进的基础上做研究，而不是在落后几代的模型上做实验。这会加速整个 AI 研究领域的进步。

非英语国家的开发者

DeepSeek 的模型，在中文能力上有天然优势。开源之后，全球的中文 AI 应用，都可以基于 DeepSeek 构建，不需要依赖对中文理解相对较弱的西方模型。

❌ 受损方

中端 AI API 提供商

那些靠转售 OpenAI 或 Anthropic API 赚差价的公司，面临直接冲击。当 DeepSeek 的 API 价格是竞争对手的 1/50，中间商的生存空间急剧压缩。

依赖 AI 能力壁垒的 SaaS 公司

一些 SaaS 公司，把"我们用了最好的 AI"作为核心卖点。当最好的 AI 变得人人可用，这个壁垒就消失了。

OpenAI 和 Anthropic 的部分市场

这是最直接的竞争。V4 的性能已经接近 GPT-5.4 和 Claude Opus 4.6，但价格只有它们的一小部分。对于价格敏感的用户，迁移的理由已经足够充分。

💡 技术深扒：价格战的终局

当 DeepSeek V4-Flash 的输出价格是 2元/百万token，而 GPT-5.5 是约 210元/百万token，这不是价格竞争，这是价格维度的降维打击。

这种价格差距，会引发一个连锁反应：

第一步：价格敏感用户迁移到 DeepSeek

第二步：OpenAI 和 Anthropic 被迫降价

第三步：整个行业的 AI 服务价格下降

第四步：更多应用场景变得经济可行

第五步：AI 的渗透率进一步提升

历史上，每一次技术民主化，都伴随着这样的价格崩塌。个人电脑、互联网、智能手机——每一次，都有人说"这会毁掉行业"。每一次，行业都活下来了，只是格局变了。

这个循环，对用户是好事，对整个 AI 生态是好事。但对那些依赖高价格维持高利润的公司，是一场噩梦。

🏰 六、AI 的护城河在哪里？

这是整个系列最核心的问题。

当最强的模型都可以免费下载，AI 公司的护城河在哪里？

💡 技术深扒：AI 时代的五种护城河

护城河一：数据

模型可以开源，但训练数据不能。那些拥有独特、高质量数据的公司，有天然的优势。医疗数据、金融数据、用户行为数据——这些数据，是无法通过开源获得的。

护城河二：推理效率

开源了模型权重，但没有开源推理优化。如何在有限的硬件上，以最低的成本、最快的速度运行这个模型，是一门独立的工程艺术。DeepSeek 自己的 API，在推理效率上，可能远超任何第三方部署。

护城河三：产品体验

模型是原材料，产品是成品。把同样的模型，做成不同的产品，用户体验可以天差地别。这是应用层的护城河，与模型本身无关。

护城河四：生态系统

围绕一个模型建立的生态——插件、工具、社区、文档——是很难被复制的。OpenAI 的 GPT Store，Anthropic 的 Claude 生态，都是这种护城河的体现。

护城河五：训练能力

这是最深的护城河。开源了 V4，但没有开源"如何训练出 V4"的完整方法论。技术报告披露了架构，但训练的细节——数据配比、超参数调整、RLHF 的具体实现——这些是真正的核心秘密。下一个版本，V5，仍然会是 DeepSeek 的独家优势。

这五种护城河，有一个共同的特点：它们都不依赖于"拥有最好的模型"。

在开源时代，"拥有最好的模型"不再是护城河。

护城河，在于你能用这个模型做什么，以及你能多快训练出下一个更好的模型。

🔄 七、一个悖论：开源加速了自己的被超越

这里有一个深刻的悖论。

DeepSeek 开源了 V4。全球的研究者和工程师，开始在 V4 的基础上做改进。他们会发现 V4 的弱点，提出改进方案，发表论文，开源代码。这些改进，会被 DeepSeek 的竞争对手吸收，用来训练更好的模型。

DeepSeek 开源了 V4，某种程度上，加速了自己被超越的速度。

💡 技术深扒：开源的"公地悲剧"与"公地繁荣"

经济学里有一个概念叫"公地悲剧"：当一个资源是公共的，每个人都会过度使用，最终导致资源枯竭。

但开源软件的历史，展示了另一种可能：公地繁荣。Linux 开源之后，全球的开发者都在贡献代码。Linux 变得越来越好，远超任何一家公司单独开发的速度。

开源的 AI 模型，可能走同样的路：

全球研究者发现 V4 的问题，提出改进
这些改进，反过来帮助 DeepSeek 训练 V5
V5 比 V4 更好，再次开源
循环往复

在这个循环里，DeepSeek 不是在"给竞争对手武器"。它是在建立一个以自己为核心的研究生态。就像 Google 开源了 TensorFlow，看起来是在帮助竞争对手。但实际上，TensorFlow 的生态，让 Google 在 AI 基础设施上保持了多年的话语权。

短期看，开源是在分享优势。长期看，开源是在建立生态，而生态的价值，远超任何单一模型的价值。

🌌 八、回望：从第一篇到第六篇

写到这里，我想停下来，回望一下这个系列走过的路。

第一篇，我们站在用户的视角，问了一个简单的问题：当一百万个字符涌入，世界会怎样？那时候，我们只知道 V4 很强，很便宜，上下文很长。

第二篇，我们钻进了技术的内部，看到了 CSA 和 HCA 是如何在 token 维度压缩记忆的。

第三篇，我们跟着工程师走进了服务器机房，看到了百万上下文背后的工程战争。

第四篇，我们见证了 Agent 的觉醒——一个 AI 系统，开始真正地"干活"。

第五篇，我们理解了 384 个专家的哲学——专才团队，而不是全才个体。

第六篇，我们来到了最后一个问题：这一切，为什么要开源？

这六篇文章，讲的是同一件事：

DeepSeek V4 不是"更大的模型"，而是"更聪明的路"。

更聪明的注意力机制，更聪明的专家分工，更聪明的工程实现，更聪明的商业策略，更聪明的开源选择。每一个"更聪明"，背后都是一个约束条件：

算力有限，所以必须更高效。

资金有限，所以必须更精准。

时间有限，所以必须更专注。

约束，是创新最好的催化剂。

🔮 九、一个更大的问题：文明的分叉口

讲到这里，我想说一个超出 DeepSeek、超出 AI 行业的问题。

我们正站在一个文明的分叉口。

一条路：AI 能力高度集中在少数几家公司手中，他们决定谁可以用，用多少，用来做什么。

另一条路：AI 能力像水和电一样，成为基础设施，人人可用，无处不在。

DeepSeek 的开源，是在推动第二条路。

💡 技术深扒：AI 民主化的历史先例

每一次重大技术的民主化，都改变了世界的权力结构。

印刷机（1440年）：

在此之前，书籍由教会和贵族垄断。印刷机让知识大众化，直接引发了文艺复兴和宗教改革。

互联网（1990年代）：

在此之前，信息传播由媒体机构垄断。互联网让每个人都可以发布信息，改变了政治、商业、文化的运作方式。

智能手机（2007年）：

在此之前，计算能力集中在企业和机构。智能手机让每个人口袋里都有一台超级计算机，催生了移动互联网时代。

开源 AI（现在）：

在此之前，顶级 AI 能力集中在少数科技巨头。开源 AI，正在把这种能力，交给每一个人。

历史的规律是：技术民主化，总是比预期更快，影响比预期更深远。

但这条路，并不是没有代价的。

当最强的 AI 模型人人可用，它也可以被用于任何目的——包括那些我们不希望看到的目的。

这是开源 AI 最难回答的问题：

自由和安全，如何平衡？

DeepSeek 没有给出答案。OpenAI 和 Anthropic 也没有给出完美的答案。这个问题，可能需要整个人类社会，花几十年的时间，慢慢摸索。

🎬 十、写在最后：刀的意义

2026年4月24日，DeepSeek 把那把刀交了出去。

从那一天起，全球数以万计的开发者，开始用这把刀做各种各样的事情。

有人用它写代码，有人用它做研究，有人用它创作，有人用它解决问题。

也有人，在想着用它做一些更复杂的事情。

这让我想起了刘慈欣在《三体》里描述的"黑暗森林"：

"宇宙就是一座黑暗森林，每个文明都是带枪的猎人，像幽灵般潜行于林间……"

AI 时代的竞争，有时候也像一座黑暗森林。每家公司都在积累自己的 AI 能力，像猎人一样潜行，等待时机。

但 DeepSeek 做了一件奇怪的事：

它把枪，交给了所有人。

这是一种天真吗？

还是一种更深的智慧？

也许，在这座黑暗森林里，最安全的策略，不是独自持枪潜行。

而是让所有人都有枪，让黑暗森林变成一个广场——

一个所有人都站在阳光下，彼此可见，彼此制衡的广场。

我不知道这个赌注，最终会赢还是会输。

没有人知道。

但我知道，这是一个值得下的赌注。

因为另一条路——AI 能力高度集中，少数人决定人类的未来——

那条路，风险更大。

刘慈欣在《超新星纪元》的结尾写道：

"历史是一条河，有时候它平静地流淌，有时候它奔腾咆哮。但它总是向前的。"

AI 的历史，也是一条河。

DeepSeek 的开源，是这条河里的一块石头。

它改变了水流的方向，激起了浪花，让下游的风景，和原来不一样了。

至于这条河最终流向哪里——

那是我们所有人，共同书写的故事。