DeepSeek V4系列:开源的刀

22 阅读17分钟

系列说明:这是 DeepSeek V4 深度解析系列的第六篇,也是最后一篇。前五篇我们讲了效率革命、技术原理、工程挑战、Agent能力、架构哲学。这一篇,我们讲技术之外的那个问题——DeepSeek 为什么要开源?


⚔️ 序章:一把刀的故事

2026年4月24日,清晨7时。

DeepSeek 在 HuggingFace 上传了一个文件。

不是一段代码,不是一篇论文。

是一把刀。

1.6万亿参数,完整的模型权重,任何人都可以下载,任何人都可以部署,任何人都可以用它做任何事。

这把刀,叫做 DeepSeek V4-Pro。


在 AI 行业,这不是第一次有人把刀交出去。

但这一次不同。

因为这把刀,已经锋利到可以和 GPT-5.4、Claude Opus 4.6 正面交锋。

把这样一把刀交给所有人,需要一个理由。

或者,需要一种信仰。


🌍 一、开源的真实成本:你知道这意味着什么吗?

先讲一个很多人没有认真想过的问题:

开源一个 1.6 万亿参数的模型,到底意味着什么?

不是"把代码放到 GitHub 上"那么简单。


💡 技术深扒:开源一个顶级大模型的真实代价

存储成本:

1.6 万亿参数,用 BF16 精度存储,需要约 3.2TB 的存储空间。这还只是模型权重本身,不包括优化器状态、训练数据、代码库。在 HuggingFace 上托管这样一个文件,每个月的带宽费用就是一笔不小的数字。

复现成本:

有了权重,能复现训练过程吗?理论上可以,但实际上极难。V4 的训练需要数千张 H100/H800 显卡,持续数周。即使有了权重,要从头复现一个同等质量的模型,成本依然是天文数字。

竞争情报成本:

开源意味着竞争对手可以逆向分析你的架构。他们可以研究你的专家配置、注意力机制、训练技巧。这些信息,在闭源时代是最核心的竞争壁垒。

开源的真实成本,不是存储费用,而是竞争优势的主动放弃。DeepSeek 选择开源,意味着它认为这些竞争优势,不是它真正的护城河。


那么,DeepSeek 真正的护城河是什么?

这个问题,是理解"为什么开源"的关键。


💰 二、商业逻辑:开源不等于免费

很多人有一个误解:

开源 = 免费 = 没有商业价值。

这个逻辑,在 AI 时代是错的。


💡 技术深扒:DeepSeek 的商业模式解剖

DeepSeek 的收入来源,不是卖模型,而是卖推理服务。模型权重开源,但 API 收费。

这是一个经典的"剃须刀 + 刀片"商业模式:

  • 剃须刀(模型权重):免费
  • 刀片(API 调用):收费
服务价格
V4-Pro 输入(缓存未命中)12元/百万token
V4-Pro 输出24元/百万token
V4-Flash 输入1元/百万token
V4-Flash 输出2元/百万token

开源模型权重,让开发者可以免费试用、本地部署、二次开发。但大多数企业,不会自己部署一个需要数百张 GPU 的模型。他们会选择调用 API。

开源,是最好的获客策略。它让 DeepSeek 的模型进入了每一个开发者的工具箱,然后把其中愿意付费的企业,转化为 API 客户。


这个逻辑,不是 DeepSeek 发明的。

Red Hat 用这个逻辑,把 Linux 变成了一门生意。

MongoDB 用这个逻辑,把开源数据库变成了上市公司。

Elastic 用这个逻辑,把搜索引擎变成了企业服务。

开源是入口,服务是出口。DeepSeek 只是把这个逻辑,用在了大模型上。

但这里有一个更深的问题:

如果开源只是获客策略,那为什么不是所有 AI 公司都选择开源?

OpenAI 不开源。Anthropic 不开源。Google 的顶级模型不开源。

他们都知道"开源是好的获客策略"。但他们没有这样做。

为什么?


🔒 三、为什么顶级 AI 公司不开源?

这个问题,比"为什么 DeepSeek 开源"更有意思。


💡 技术深扒:闭源的三个理由

理由一:护城河

对于 OpenAI 和 Anthropic 来说,模型本身就是护城河。GPT-5 的架构细节、训练技巧、RLHF 方法——这些是他们最核心的竞争优势。一旦开源,竞争对手可以直接站在他们的肩膀上。他们花了数年、数十亿美元建立的优势,可能在几个月内被追平。

理由二:安全考量

OpenAI 和 Anthropic 都有明确的 AI 安全立场。他们认为,把最强的模型开源,可能会被用于恶意目的——生成虚假信息、辅助网络攻击、甚至更危险的应用。这不只是公关说辞。他们的研究团队,确实在认真研究这些风险。

理由三:商业压力

OpenAI 已经从微软融资数百亿美元。投资人需要回报。开源意味着放弃部分商业价值。在巨大的资本压力下,这是一个很难做出的决定。


DeepSeek 的情况不同:

  • 它背靠幻方科技,不依赖外部融资,没有 IPO 压力
  • 它的核心竞争优势,不是模型架构,而是训练效率(用更少的算力训练出更好的模型)
  • 训练效率,很难从模型权重中逆向工程出来

所以,开源对 DeepSeek 的成本,远低于对 OpenAI 的成本。


这解释了"为什么 DeepSeek 能开源"。

但还没有解释"为什么 DeepSeek 要开源"。

这两件事,是不同的问题。


🌐 四、地缘政治维度:算力受限下的另一种选择

2023年,美国开始限制向中国出口高端 AI 芯片。

H100、H800、A100——这些训练大模型的核心硬件,中国公司越来越难以获得。

这是 DeepSeek 面对的现实。


💡 技术深扒:算力限制如何塑造了 DeepSeek 的技术路线

算力受限,逼出了两种可能的应对策略:

策略一:囤积算力

在限制生效之前,尽可能多地购买高端 GPU。这是一种防御性策略。问题:算力是消耗品,会折旧,会过时。

策略二:提升效率

用更少的算力,训练出更好的模型。这是一种进攻性策略。这正是 DeepSeek 选择的路。V3 的训练成本约 557 万美元,是 GPT-4 的 1/14。V4 在此基础上进一步优化。

算力限制,反而成了 DeepSeek 最强的创新驱动力。就像一个被迫节食的运动员,反而练出了更精悍的体型。


在这个背景下,开源有了另一层含义。

开源,是一种话语权的争夺。

当 DeepSeek 把 V4 开源,全球的开发者都可以使用这个模型。印度的创业公司,非洲的研究机构,欧洲的中小企业——他们不需要依赖 OpenAI 或 Google,就可以获得世界顶级的 AI 能力。

这不只是商业策略。

这是在 AI 时代,重新定义"谁掌握了技术主权"。


💡 技术深扒:开源与技术主权

在软件时代,Linux 的开源,打破了微软对操作系统的垄断。任何国家、任何组织,都可以基于 Linux 构建自己的技术栈,不需要向微软付费,不需要担心被"断供"。

在 AI 时代,DeepSeek 的开源,有类似的意义。当一个国家或组织,可以在本地部署一个世界顶级的 AI 模型,它就不再依赖任何单一的 AI 服务提供商。这种独立性,在地缘政治日益复杂的今天,有着超越商业价值的战略意义。

有趣的是:美国限制向中国出口算力,本意是限制中国的 AI 发展。但这个限制,反而逼出了 DeepSeek 的效率革命。而 DeepSeek 的开源,又把这种效率优势,分享给了全世界——包括那些同样面临算力限制的国家和组织。

这是一个充满讽刺意味的历史转折。


📊 五、V4 开源后,谁受益,谁受损?

开源不是慈善。

它会重新分配行业的利益格局。


✅ 受益方

中小企业和创业公司

以前,要用顶级 AI 能力,只能调用 OpenAI 或 Anthropic 的 API,每个月支付高额费用。现在,他们可以选择:

  • 调用 DeepSeek API(价格是 GPT-5.5 的 1/50)
  • 或者自己部署开源权重(一次性硬件投入,长期零边际成本)

这对创业公司来说,是一次成本结构的革命。

学术研究机构

顶级模型开源,意味着研究者可以在最先进的基础上做研究,而不是在落后几代的模型上做实验。这会加速整个 AI 研究领域的进步。

非英语国家的开发者

DeepSeek 的模型,在中文能力上有天然优势。开源之后,全球的中文 AI 应用,都可以基于 DeepSeek 构建,不需要依赖对中文理解相对较弱的西方模型。


❌ 受损方

中端 AI API 提供商

那些靠转售 OpenAI 或 Anthropic API 赚差价的公司,面临直接冲击。当 DeepSeek 的 API 价格是竞争对手的 1/50,中间商的生存空间急剧压缩。

依赖 AI 能力壁垒的 SaaS 公司

一些 SaaS 公司,把"我们用了最好的 AI"作为核心卖点。当最好的 AI 变得人人可用,这个壁垒就消失了。

OpenAI 和 Anthropic 的部分市场

这是最直接的竞争。V4 的性能已经接近 GPT-5.4 和 Claude Opus 4.6,但价格只有它们的一小部分。对于价格敏感的用户,迁移的理由已经足够充分。


💡 技术深扒:价格战的终局

当 DeepSeek V4-Flash 的输出价格是 2元/百万token,而 GPT-5.5 是约 210元/百万token,这不是价格竞争,这是价格维度的降维打击。

这种价格差距,会引发一个连锁反应:

第一步:价格敏感用户迁移到 DeepSeek

第二步:OpenAI 和 Anthropic 被迫降价

第三步:整个行业的 AI 服务价格下降

第四步:更多应用场景变得经济可行

第五步:AI 的渗透率进一步提升

历史上,每一次技术民主化,都伴随着这样的价格崩塌。个人电脑、互联网、智能手机——每一次,都有人说"这会毁掉行业"。每一次,行业都活下来了,只是格局变了。

这个循环,对用户是好事,对整个 AI 生态是好事。但对那些依赖高价格维持高利润的公司,是一场噩梦。


🏰 六、AI 的护城河在哪里?

这是整个系列最核心的问题。

当最强的模型都可以免费下载,AI 公司的护城河在哪里?


💡 技术深扒:AI 时代的五种护城河

护城河一:数据

模型可以开源,但训练数据不能。那些拥有独特、高质量数据的公司,有天然的优势。医疗数据、金融数据、用户行为数据——这些数据,是无法通过开源获得的。

护城河二:推理效率

开源了模型权重,但没有开源推理优化。如何在有限的硬件上,以最低的成本、最快的速度运行这个模型,是一门独立的工程艺术。DeepSeek 自己的 API,在推理效率上,可能远超任何第三方部署。

护城河三:产品体验

模型是原材料,产品是成品。把同样的模型,做成不同的产品,用户体验可以天差地别。这是应用层的护城河,与模型本身无关。

护城河四:生态系统

围绕一个模型建立的生态——插件、工具、社区、文档——是很难被复制的。OpenAI 的 GPT Store,Anthropic 的 Claude 生态,都是这种护城河的体现。

护城河五:训练能力

这是最深的护城河。开源了 V4,但没有开源"如何训练出 V4"的完整方法论。技术报告披露了架构,但训练的细节——数据配比、超参数调整、RLHF 的具体实现——这些是真正的核心秘密。下一个版本,V5,仍然会是 DeepSeek 的独家优势。

这五种护城河,有一个共同的特点:它们都不依赖于"拥有最好的模型"。


在开源时代,"拥有最好的模型"不再是护城河。

护城河,在于你能用这个模型做什么,以及你能多快训练出下一个更好的模型。


🔄 七、一个悖论:开源加速了自己的被超越

这里有一个深刻的悖论。

DeepSeek 开源了 V4。全球的研究者和工程师,开始在 V4 的基础上做改进。他们会发现 V4 的弱点,提出改进方案,发表论文,开源代码。这些改进,会被 DeepSeek 的竞争对手吸收,用来训练更好的模型。

DeepSeek 开源了 V4,某种程度上,加速了自己被超越的速度。


💡 技术深扒:开源的"公地悲剧"与"公地繁荣"

经济学里有一个概念叫"公地悲剧":当一个资源是公共的,每个人都会过度使用,最终导致资源枯竭。

但开源软件的历史,展示了另一种可能:公地繁荣。Linux 开源之后,全球的开发者都在贡献代码。Linux 变得越来越好,远超任何一家公司单独开发的速度。

开源的 AI 模型,可能走同样的路:

  • 全球研究者发现 V4 的问题,提出改进
  • 这些改进,反过来帮助 DeepSeek 训练 V5
  • V5 比 V4 更好,再次开源
  • 循环往复

在这个循环里,DeepSeek 不是在"给竞争对手武器"。它是在建立一个以自己为核心的研究生态。就像 Google 开源了 TensorFlow,看起来是在帮助竞争对手。但实际上,TensorFlow 的生态,让 Google 在 AI 基础设施上保持了多年的话语权。

短期看,开源是在分享优势。长期看,开源是在建立生态,而生态的价值,远超任何单一模型的价值。


🌌 八、回望:从第一篇到第六篇

写到这里,我想停下来,回望一下这个系列走过的路。

第一篇,我们站在用户的视角,问了一个简单的问题:当一百万个字符涌入,世界会怎样?那时候,我们只知道 V4 很强,很便宜,上下文很长。

第二篇,我们钻进了技术的内部,看到了 CSA 和 HCA 是如何在 token 维度压缩记忆的。

第三篇,我们跟着工程师走进了服务器机房,看到了百万上下文背后的工程战争。

第四篇,我们见证了 Agent 的觉醒——一个 AI 系统,开始真正地"干活"。

第五篇,我们理解了 384 个专家的哲学——专才团队,而不是全才个体。

第六篇,我们来到了最后一个问题:这一切,为什么要开源?


这六篇文章,讲的是同一件事:

DeepSeek V4 不是"更大的模型",而是"更聪明的路"。

更聪明的注意力机制,更聪明的专家分工,更聪明的工程实现,更聪明的商业策略,更聪明的开源选择。每一个"更聪明",背后都是一个约束条件:

算力有限,所以必须更高效。

资金有限,所以必须更精准。

时间有限,所以必须更专注。

约束,是创新最好的催化剂。


🔮 九、一个更大的问题:文明的分叉口

讲到这里,我想说一个超出 DeepSeek、超出 AI 行业的问题。

我们正站在一个文明的分叉口。

一条路:AI 能力高度集中在少数几家公司手中,他们决定谁可以用,用多少,用来做什么。

另一条路:AI 能力像水和电一样,成为基础设施,人人可用,无处不在。

DeepSeek 的开源,是在推动第二条路。


💡 技术深扒:AI 民主化的历史先例

每一次重大技术的民主化,都改变了世界的权力结构。

印刷机(1440年):

在此之前,书籍由教会和贵族垄断。印刷机让知识大众化,直接引发了文艺复兴和宗教改革。

互联网(1990年代):

在此之前,信息传播由媒体机构垄断。互联网让每个人都可以发布信息,改变了政治、商业、文化的运作方式。

智能手机(2007年):

在此之前,计算能力集中在企业和机构。智能手机让每个人口袋里都有一台超级计算机,催生了移动互联网时代。

开源 AI(现在):

在此之前,顶级 AI 能力集中在少数科技巨头。开源 AI,正在把这种能力,交给每一个人。

历史的规律是:技术民主化,总是比预期更快,影响比预期更深远。


但这条路,并不是没有代价的。

当最强的 AI 模型人人可用,它也可以被用于任何目的——包括那些我们不希望看到的目的。

这是开源 AI 最难回答的问题:

自由和安全,如何平衡?

DeepSeek 没有给出答案。OpenAI 和 Anthropic 也没有给出完美的答案。这个问题,可能需要整个人类社会,花几十年的时间,慢慢摸索。


🎬 十、写在最后:刀的意义

2026年4月24日,DeepSeek 把那把刀交了出去。

从那一天起,全球数以万计的开发者,开始用这把刀做各种各样的事情。

有人用它写代码,有人用它做研究,有人用它创作,有人用它解决问题。

也有人,在想着用它做一些更复杂的事情。


这让我想起了刘慈欣在《三体》里描述的"黑暗森林":

"宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间……"

AI 时代的竞争,有时候也像一座黑暗森林。每家公司都在积累自己的 AI 能力,像猎人一样潜行,等待时机。

但 DeepSeek 做了一件奇怪的事:

它把枪,交给了所有人。


这是一种天真吗?

还是一种更深的智慧?

也许,在这座黑暗森林里,最安全的策略,不是独自持枪潜行。

而是让所有人都有枪,让黑暗森林变成一个广场——

一个所有人都站在阳光下,彼此可见,彼此制衡的广场。


我不知道这个赌注,最终会赢还是会输。

没有人知道。

但我知道,这是一个值得下的赌注。

因为另一条路——AI 能力高度集中,少数人决定人类的未来——

那条路,风险更大。


刘慈欣在《超新星纪元》的结尾写道:

"历史是一条河,有时候它平静地流淌,有时候它奔腾咆哮。但它总是向前的。"

AI 的历史,也是一条河。

DeepSeek 的开源,是这条河里的一块石头。

它改变了水流的方向,激起了浪花,让下游的风景,和原来不一样了。

至于这条河最终流向哪里——

那是我们所有人,共同书写的故事。