当算力不是无限资源：中国团队凭什么追上来了？先说一个反直觉的事实 2026 年 4 月，斯坦福大学发布了第 9 期《AI

上篇我们聊了 DeepSeek V4 的技术架构。这篇回答一个更底层的问题：在中国团队拿不到足够 GPU 的前提下，他们凭什么做出了世界级的大模型？答案可能颠覆你的直觉——算力不够，反而是最大的优势。

先说一个反直觉的事实

2026 年 4 月，斯坦福大学发布了第 9 期《AI 指数报告》，423 页，是全球 AI 领域最权威的年度报告之一。

报告里有一个数据让很多人意外：截至 2026 年 3 月，中美 AI 模型的性能差距只有 2.7%。

不是 27%，不是 72%，是 2.7%。具体来说，美国 Anthropic 的 Claude Opus 4.6 在人类盲评中领先中国字节跳动的 Dola-Seed-2.0 Preview 约 2.7 个百分点。而 2025 年初，DeepSeek R1 曾仅以 0.4% 的差距落后于当时最强的 OpenAI o1。

再看看背后的资源差距：

维度	美国	中国
2025 年 AI 投资总额	2859 亿美元	124 亿美元
数据中心数量	5427 个	449 个
2025 年发布的标杆 AI 模型	50 个	30 个
英伟达高端 GPU 获取	不受限	严格出口管制

投资额差 23 倍，数据中心差 12 倍，GPU 获取受限——然后模型性能只差 2.7%。

这个账怎么算？

一个反复出现的历史规律

在回答这个问题之前，先讲两个你可能熟悉的故事。

故事一：日本汽车工业。

1970 年代的石油危机让全球油价暴涨。美国汽车厂商的策略是"造更大的车，用更强的发动机"。日本厂商完全反过来——丰田发明了精益制造（Toyota Production System），本田专注小型发动机效率。结果：日本汽车油耗是美国车的 1/3 到 1/2，质量和可靠性反而更高。到 1980 年代，日本汽车横扫全球市场。

故事二：ARM 处理器。

1990 年代，Intel 的 x86 架构在 PC 市场一家独大，ARM 只是一家英国小公司，做的是给电视机顶盒用的低功耗芯片。Intel 的策略是"更快、更强、更高功耗"，ARM 的策略是"更省电、更便宜、够用就好"。

没人看好 ARM——直到智能手机时代到来。移动设备对功耗的要求是硬约束：电池容量有限，散热带不走。ARM 的低功耗架构恰好是最优解。今天，全球超过 95% 的智能手机、几乎所有的平板和 IoT 设备都跑在 ARM 架构上。Intel 在移动市场彻底出局。

发现规律了吗？

约束不是劣势。约束是创新的方向。

当资源充裕时，最省事的策略就是堆资源——因为不需要动脑子。只有当资源受限时，你才被迫去思考"有没有更聪明的方法"。日本汽车工业的精益制造、ARM 的低功耗架构，都是在资源约束下诞生的创新。

中国大模型团队面对的情况，本质上是一样的。
当然，前面两个故事是上个世纪的事，中国是当下要面对的，而中国团队完美客服了。

算力受限到底有多严重

2022 年 10 月，美国商务部第一次对中国实施高端 GPU 出口管制，A100 和 H100 被禁止对华销售。之后禁令不断升级：2023 年 8 月的更新管制波及了降配版 H800 和 A800；2025 年进一步限制全球 AI 芯片出口，连通过第三国转口的渠道也被堵住。

到 2025 年底，英伟达承认其在中国高端 AI 芯片市场的份额已降至零。

这意味着什么？意味着 OpenAI 和 Google 可以用几万张 H100 组成超大规模 GPU 集群训练模型，中国团队拿不到同等数量的高端卡。

按照传统思路，GPU 不够，你就训练不出一样大的模型。模型不够大，性能就比不过。

但中国团队选择了另一条路：与其纠结"怎么搞到更多 GPU"，不如研究"怎么用更少的 GPU 做同样的事"。

这条路催生了一整套架构创新。

四个关键创新：用脑力换算力

创新 1：MoE 稀疏激活——不点亮所有参数

上篇详细讲过，这里只说一个数字：推理成本降到 Dense 模型的 1/30。

传统大模型（如 GPT-3、Llama）是 Dense 架构，每次推理所有参数都要参与计算。1.6 万亿参数的 Dense 模型？以目前的 GPU，根本跑不动推理，更别说训练了。

DeepSeek 的方案：把 1.6 万亿参数分成几百个"专家"网络，每次只激活其中最相关的几十个（490 亿，约 3%）。

这个思路不新——MoE 理论 1991 年就有了。但把它工程化到 1.6T 级别还能稳定训练，并且保证激活质量不打折，是 DeepSeek 的贡献。推理成本的量级下降，直接让"大模型"从实验室走进了千行百业。

创新 2：GRPO——把对齐成本砍掉一半

训练一个大模型通常分两步：预训练（学知识）和对齐（学听话）。

"学听话"这一步，传统方案叫 RLHF（Reinforcement Learning from Human Feedback），需要训练一个和主模型差不多大的 Reward Model（奖励模型）来打分，再加上一个 Critic（评论家）网络来估计价值。光是对齐这一步，就要额外维护两个大网络，吃掉 40%-50% 的训练内存。

DeepSeek 提出了 GRPO（Group Relative Policy Optimization），核心思路极其巧妙：不单独训练奖励模型和评论家，而是让模型自己和自己比。

具体做法：给模型同一个问题，让它生成多个回答（一组），然后在这一组内部比较——谁答得比组内平均好，就强化；谁答得比组内平均差，就抑制。就像班级考试，不看绝对分数，看你在班里的相对排名。

结果：砍掉了 Critic 网络，训练内存降低 40%-50%，对齐效果反而更好——因为在组内比较天然消除了奖励噪声的影响。

创新 3：FP4 + FP8 混合精度——精打细算每个比特

模型推理时的精度选择，直接决定了显存占用和推理速度。

传统方案用 FP16（16 位浮点数）或 FP32（32 位浮点数），精度高但显存吃得多。DeepSeek 在推理时采用了 FP8（8 位）甚至 FP4（4 位）的混合精度——对不太敏感的参数用低精度，对敏感的参数保留高精度。

这就像开一个 16000 人的公司，有些岗位只需要实习生就能干（低精度），有些关键岗位必须资深工程师（高精度），不是一刀切。

效果：推理部署的显存需求再降一半，同时精度损失可以控制在 1% 以内。

创新 4：注意力机制重构——从 MLA 到 CSA+HCA

长上下文处理是所有大模型团队面对的共同难题。传统注意力机制的计算量随上下文长度呈平方级增长——128K 还勉强，100 万 token 直接爆掉。

DeepSeek V2 发明了 MLA（多头潜在注意力），通过把 KV 信息压缩到低维隐空间来降低显存占用。V3 继承了 MLA。而到了 V4，他们干了更大胆的事——直接抛弃 MLA，发明了全新的 CSA+HCA 混合注意力架构。

CSA（压缩稀疏注意力）：先把每 4 个 token 压缩成 1 个摘要，再做稀疏注意力（只看最相关的 1024 个摘要），同时保留 128 个 token 的滑动窗口。

HCA（重度压缩注意力）：用 128 倍压缩比做全连接注意力，虽然压缩很狠，但全连接保证了全局信息不遗漏。

两者交替运行的结果：在 100 万 token 上下文下，推理计算量降到上一代的 27%，KV 缓存降到 10%。Flash 版更夸张——10% 和 7%。

这意味着在同样的硬件上，V4 能处理 10 倍于前代的长文本。

这些创新不只是中国的

公平地说，这些架构创新的影响已经辐射到了全球。

MoE 架构最初由欧洲的 Mistral AI 在 Mixtral 模型中大规模应用。但 DeepSeek 把 MoE 从"8×7B 的小规模实验"推进到了"1.6T 工业级部署"的全新阶段。

GRPO 已经成为开源社区对齐训练的事实标准。Llama、Mistral 等模型在社区微调时大量采用 GRPO 替代传统的 PPO，因为它更简单、更省资源、效果更稳定。

FP4/FP8 量化方案被全球推理部署团队广泛采纳。因为对于 99% 的应用场景，量化后的精度损失完全可以接受，但成本下降是实实在在的。

注意力机制方面，DeepSeek 的 MLA 和 CSA 思路正在被多个国际团队研究和借鉴。虽然 V4 放弃了 MLA，但 MLA 在 V2/V3 阶段验证的"用压缩换效率"的基本思路，已经深刻影响了全球大模型的注意力架构设计。

不只是 DeepSeek：中国开源模型的群像

DeepSeek 是最突出的，但它不是孤军作战。

2026 年 4 月，Hugging Face 发布了春季全球开源 AI 生态报告，数据令人振奋：

中国开源模型全球累计下载量突破 100 亿次
过去一年，Hugging Face 上 41% 的大模型下载量来自中国团队
阿里 Qwen 系列占全球开源模型下载量的一半以上

这些数字背后是一个竞争极其激烈的生态。仅 2026 年 4 月，就有四家中国团队几乎同时发布旗舰模型：

模型	团队	架构	激活参数	上下文	核心特色	开源协议
DeepSeek V4-Pro	深度求索	MoE	49B	1M	代码能力、超长上下文	MIT
Qwen3.6-Plus	阿里云	MoE	~28B	128K	多语言、性价比之王	Apache 2.0
GLM-5.1	智谱AI	MoE	~32B	128K	Agent 能力、多模态	MIT
Kimi K2.6	月之暗面	MoE	~32B	128K	代码质量、首次生成准确率	API only
MiniMax M2	MiniMax	MoE	~46B	1M	超长上下文（自研 Lightning Attention）	部分开源

几个值得注意的现象：

第一，全部采用 MoE 架构。 没有任何一家选择 Dense 路线。这说明 MoE 的"用更少激活参数跑更强性能"已经成为中国团队的共识。

第二，上下文从 128K 起步，最高 1M。 这在两年前是连闭源模型都做不到的。

第三，SWE-bench Verified 分数全部在 73% 以上。 这意味着它们都能独立完成超过七成的真实软件工程任务。GLM-5.1 和 Kimi K2.6 甚至达到了 76.8% 和 76.5%，与 Claude Opus 4.7 的 87.6% 已经不是"差一代"的问题了。

第四，价格极其激进。 Qwen3.6-Plus 的输入价格只有 ¥0.035/千 token，即 ¥35/百万 token。对比 Claude Opus 4.7 的 $15/M input（约 ¥108/百万 token），价格差超过 3 倍。如果和 DeepSeek V4-Flash 的 ¥1/百万 token 相比，则是百倍级别的差距。

这就是你追我赶的效果——多支团队在同一个赛道上竞争，迭代速度远超任何一家闭门造车的公司。

我的判断

写到这里，我想说三点。

第一，约束倒逼创新这个规律，在大模型领域再次应验了。

日本汽车工业因为石油危机发明精益制造，ARM 因为功耗约束统治移动芯片，中国大模型团队因为 GPU 出口管制发展出 MoE 工程化、GRPO 对齐、混合精度量化、CSA+HCA 注意力等一系列架构创新。

这些创新不是退而求其次的妥协方案——它们是更聪明的方案。DeepSeek V4-Pro 的推理成本是 Claude Opus 4.7 的七分之一，不是靠偷工减料，而是靠用更聪明的架构用更少的算力做到同样的事。

第二，开源正在成为中国 AI 最重要的战略优势。

100 亿次下载，41% 的全球份额，MIT 和 Apache 2.0 协议。中国团队把最先进的模型直接送给全球开发者用，不收一分钱。

短期看，闭源有利润优势。长期看，开源有生态优势。当你的模型成为全球开发者的默认选项，当你的技术栈成为创业公司和各国政府的基础设施，利润自然会来。Android 之于 iOS 就是先例。

第三，如果中国团队和美国团队拥有一样的算力，今天的格局会是什么样？

这个问题没有答案。但有一个事实很清楚：算力不够，架构来凑。中国团队用创新证明了一件事——在算力受限的条件下，你依然可以做出世界级的大模型。而且这些因为约束而诞生的创新，正在惠及全球。

也许再过几年回头看，GPU 出口管制对中国 AI 行业的影响，不是阻碍了发展，而是逼出了更好的技术。

最后

这篇文章想说的不是"中国团队比美国团队强"——那样说既不客观也没意义。

我想说的是：创新不一定要最多的资源，但一定要最聪明的方法。 当美国团队的策略是"用 3 万张 H100 训练更大的模型"时，中国团队的策略是"能不能用 1000 张卡训练出同样强的模型"。两条路都走出了成果，但后者的方法论对全球 AI 社区的启发可能更大——因为它意味着大模型不再是只有超级巨头才玩得起的游戏。

上篇聊了"做了什么"，这篇聊了"怎么做到的"。下一篇，我们往更底层走——回顾 2023 到 2026 年大模型架构的三年进化史，看看中国团队在这场技术革命中到底扮演了什么角色。

📰 参考来源：

🧪 求索实验室

深圳 · 15年IT老兵 · AI探索笔记

你觉得"算力不够架构来凑"这个判断成立吗？还是说如果给中国团队一样的算力，他们反而不会做这些创新？评论区聊聊。