当算力不是无限资源:中国团队凭什么追上来了?

48 阅读13分钟

上篇我们聊了 DeepSeek V4 的技术架构。这篇回答一个更底层的问题:在中国团队拿不到足够 GPU 的前提下,他们凭什么做出了世界级的大模型?答案可能颠覆你的直觉——算力不够,反而是最大的优势。


先说一个反直觉的事实

2026 年 4 月,斯坦福大学发布了第 9 期《AI 指数报告》,423 页,是全球 AI 领域最权威的年度报告之一。

报告里有一个数据让很多人意外:截至 2026 年 3 月,中美 AI 模型的性能差距只有 2.7%。

不是 27%,不是 72%,是 2.7%。具体来说,美国 Anthropic 的 Claude Opus 4.6 在人类盲评中领先中国字节跳动的 Dola-Seed-2.0 Preview 约 2.7 个百分点。而 2025 年初,DeepSeek R1 曾仅以 0.4% 的差距落后于当时最强的 OpenAI o1。

再看看背后的资源差距:

维度美国中国
2025 年 AI 投资总额2859 亿美元124 亿美元
数据中心数量5427 个449 个
2025 年发布的标杆 AI 模型50 个30 个
英伟达高端 GPU 获取不受限严格出口管制

投资额差 23 倍,数据中心差 12 倍,GPU 获取受限——然后模型性能只差 2.7%。

这个账怎么算?


一个反复出现的历史规律

在回答这个问题之前,先讲两个你可能熟悉的故事。

故事一:日本汽车工业。

1970 年代的石油危机让全球油价暴涨。美国汽车厂商的策略是"造更大的车,用更强的发动机"。日本厂商完全反过来——丰田发明了精益制造(Toyota Production System),本田专注小型发动机效率。结果:日本汽车油耗是美国车的 1/3 到 1/2,质量和可靠性反而更高。到 1980 年代,日本汽车横扫全球市场。

故事二:ARM 处理器。

1990 年代,Intel 的 x86 架构在 PC 市场一家独大,ARM 只是一家英国小公司,做的是给电视机顶盒用的低功耗芯片。Intel 的策略是"更快、更强、更高功耗",ARM 的策略是"更省电、更便宜、够用就好"。

没人看好 ARM——直到智能手机时代到来。移动设备对功耗的要求是硬约束:电池容量有限,散热带不走。ARM 的低功耗架构恰好是最优解。今天,全球超过 95% 的智能手机、几乎所有的平板和 IoT 设备都跑在 ARM 架构上。Intel 在移动市场彻底出局。

发现规律了吗?

约束不是劣势。约束是创新的方向。

当资源充裕时,最省事的策略就是堆资源——因为不需要动脑子。只有当资源受限时,你才被迫去思考"有没有更聪明的方法"。日本汽车工业的精益制造、ARM 的低功耗架构,都是在资源约束下诞生的创新。

中国大模型团队面对的情况,本质上是一样的。
当然,前面两个故事是上个世纪的事,中国是当下要面对的,而中国团队完美客服了。


算力受限到底有多严重

2022 年 10 月,美国商务部第一次对中国实施高端 GPU 出口管制,A100 和 H100 被禁止对华销售。之后禁令不断升级:2023 年 8 月的更新管制波及了降配版 H800 和 A800;2025 年进一步限制全球 AI 芯片出口,连通过第三国转口的渠道也被堵住。

到 2025 年底,英伟达承认其在中国高端 AI 芯片市场的份额已降至零。

这意味着什么?意味着 OpenAI 和 Google 可以用几万张 H100 组成超大规模 GPU 集群训练模型,中国团队拿不到同等数量的高端卡。

按照传统思路,GPU 不够,你就训练不出一样大的模型。模型不够大,性能就比不过。

但中国团队选择了另一条路:与其纠结"怎么搞到更多 GPU",不如研究"怎么用更少的 GPU 做同样的事"。

这条路催生了一整套架构创新。


四个关键创新:用脑力换算力

创新 1:MoE 稀疏激活——不点亮所有参数

上篇详细讲过,这里只说一个数字:推理成本降到 Dense 模型的 1/30。

传统大模型(如 GPT-3、Llama)是 Dense 架构,每次推理所有参数都要参与计算。1.6 万亿参数的 Dense 模型?以目前的 GPU,根本跑不动推理,更别说训练了。

DeepSeek 的方案:把 1.6 万亿参数分成几百个"专家"网络,每次只激活其中最相关的几十个(490 亿,约 3%)。

这个思路不新——MoE 理论 1991 年就有了。但把它工程化到 1.6T 级别还能稳定训练,并且保证激活质量不打折,是 DeepSeek 的贡献。推理成本的量级下降,直接让"大模型"从实验室走进了千行百业。

创新 2:GRPO——把对齐成本砍掉一半

训练一个大模型通常分两步:预训练(学知识)和对齐(学听话)。

"学听话"这一步,传统方案叫 RLHF(Reinforcement Learning from Human Feedback),需要训练一个和主模型差不多大的 Reward Model(奖励模型)来打分,再加上一个 Critic(评论家)网络来估计价值。光是对齐这一步,就要额外维护两个大网络,吃掉 40%-50% 的训练内存。

DeepSeek 提出了 GRPO(Group Relative Policy Optimization),核心思路极其巧妙:不单独训练奖励模型和评论家,而是让模型自己和自己比。

具体做法:给模型同一个问题,让它生成多个回答(一组),然后在这一组内部比较——谁答得比组内平均好,就强化;谁答得比组内平均差,就抑制。就像班级考试,不看绝对分数,看你在班里的相对排名。

结果:砍掉了 Critic 网络,训练内存降低 40%-50%,对齐效果反而更好——因为在组内比较天然消除了奖励噪声的影响。

创新 3:FP4 + FP8 混合精度——精打细算每个比特

模型推理时的精度选择,直接决定了显存占用和推理速度。

传统方案用 FP16(16 位浮点数)或 FP32(32 位浮点数),精度高但显存吃得多。DeepSeek 在推理时采用了 FP8(8 位)甚至 FP4(4 位)的混合精度——对不太敏感的参数用低精度,对敏感的参数保留高精度。

这就像开一个 16000 人的公司,有些岗位只需要实习生就能干(低精度),有些关键岗位必须资深工程师(高精度),不是一刀切。

效果:推理部署的显存需求再降一半,同时精度损失可以控制在 1% 以内。

创新 4:注意力机制重构——从 MLA 到 CSA+HCA

长上下文处理是所有大模型团队面对的共同难题。传统注意力机制的计算量随上下文长度呈平方级增长——128K 还勉强,100 万 token 直接爆掉。

DeepSeek V2 发明了 MLA(多头潜在注意力),通过把 KV 信息压缩到低维隐空间来降低显存占用。V3 继承了 MLA。而到了 V4,他们干了更大胆的事——直接抛弃 MLA,发明了全新的 CSA+HCA 混合注意力架构。

CSA(压缩稀疏注意力):先把每 4 个 token 压缩成 1 个摘要,再做稀疏注意力(只看最相关的 1024 个摘要),同时保留 128 个 token 的滑动窗口。

HCA(重度压缩注意力):用 128 倍压缩比做全连接注意力,虽然压缩很狠,但全连接保证了全局信息不遗漏。

两者交替运行的结果:在 100 万 token 上下文下,推理计算量降到上一代的 27%,KV 缓存降到 10%。Flash 版更夸张——10% 和 7%。

这意味着在同样的硬件上,V4 能处理 10 倍于前代的长文本。


这些创新不只是中国的

公平地说,这些架构创新的影响已经辐射到了全球。

MoE 架构最初由欧洲的 Mistral AI 在 Mixtral 模型中大规模应用。但 DeepSeek 把 MoE 从"8×7B 的小规模实验"推进到了"1.6T 工业级部署"的全新阶段。

GRPO 已经成为开源社区对齐训练的事实标准。Llama、Mistral 等模型在社区微调时大量采用 GRPO 替代传统的 PPO,因为它更简单、更省资源、效果更稳定。

FP4/FP8 量化方案被全球推理部署团队广泛采纳。因为对于 99% 的应用场景,量化后的精度损失完全可以接受,但成本下降是实实在在的。

注意力机制方面,DeepSeek 的 MLA 和 CSA 思路正在被多个国际团队研究和借鉴。虽然 V4 放弃了 MLA,但 MLA 在 V2/V3 阶段验证的"用压缩换效率"的基本思路,已经深刻影响了全球大模型的注意力架构设计。


不只是 DeepSeek:中国开源模型的群像

DeepSeek 是最突出的,但它不是孤军作战。

2026 年 4 月,Hugging Face 发布了春季全球开源 AI 生态报告,数据令人振奋:

  • 中国开源模型全球累计下载量突破 100 亿次
  • 过去一年,Hugging Face 上 41% 的大模型下载量来自中国团队
  • 阿里 Qwen 系列占全球开源模型下载量的一半以上

这些数字背后是一个竞争极其激烈的生态。仅 2026 年 4 月,就有四家中国团队几乎同时发布旗舰模型:

模型团队架构激活参数上下文核心特色开源协议
DeepSeek V4-Pro深度求索MoE49B1M代码能力、超长上下文MIT
Qwen3.6-Plus阿里云MoE~28B128K多语言、性价比之王Apache 2.0
GLM-5.1智谱AIMoE~32B128KAgent 能力、多模态MIT
Kimi K2.6月之暗面MoE~32B128K代码质量、首次生成准确率API only
MiniMax M2MiniMaxMoE~46B1M超长上下文(自研 Lightning Attention)部分开源

几个值得注意的现象:

第一,全部采用 MoE 架构。 没有任何一家选择 Dense 路线。这说明 MoE 的"用更少激活参数跑更强性能"已经成为中国团队的共识。

第二,上下文从 128K 起步,最高 1M。 这在两年前是连闭源模型都做不到的。

第三,SWE-bench Verified 分数全部在 73% 以上。 这意味着它们都能独立完成超过七成的真实软件工程任务。GLM-5.1 和 Kimi K2.6 甚至达到了 76.8% 和 76.5%,与 Claude Opus 4.7 的 87.6% 已经不是"差一代"的问题了。

第四,价格极其激进。 Qwen3.6-Plus 的输入价格只有 ¥0.035/千 token,即 ¥35/百万 token。对比 Claude Opus 4.7 的 $15/M input(约 ¥108/百万 token),价格差超过 3 倍。如果和 DeepSeek V4-Flash 的 ¥1/百万 token 相比,则是百倍级别的差距。

这就是你追我赶的效果——多支团队在同一个赛道上竞争,迭代速度远超任何一家闭门造车的公司。


我的判断

写到这里,我想说三点。

第一,约束倒逼创新这个规律,在大模型领域再次应验了。

日本汽车工业因为石油危机发明精益制造,ARM 因为功耗约束统治移动芯片,中国大模型团队因为 GPU 出口管制发展出 MoE 工程化、GRPO 对齐、混合精度量化、CSA+HCA 注意力等一系列架构创新。

这些创新不是退而求其次的妥协方案——它们是更聪明的方案。DeepSeek V4-Pro 的推理成本是 Claude Opus 4.7 的七分之一,不是靠偷工减料,而是靠用更聪明的架构用更少的算力做到同样的事。

第二,开源正在成为中国 AI 最重要的战略优势。

100 亿次下载,41% 的全球份额,MIT 和 Apache 2.0 协议。中国团队把最先进的模型直接送给全球开发者用,不收一分钱。

短期看,闭源有利润优势。长期看,开源有生态优势。当你的模型成为全球开发者的默认选项,当你的技术栈成为创业公司和各国政府的基础设施,利润自然会来。Android 之于 iOS 就是先例。

第三,如果中国团队和美国团队拥有一样的算力,今天的格局会是什么样?

这个问题没有答案。但有一个事实很清楚:算力不够,架构来凑。中国团队用创新证明了一件事——在算力受限的条件下,你依然可以做出世界级的大模型。而且这些因为约束而诞生的创新,正在惠及全球。

也许再过几年回头看,GPU 出口管制对中国 AI 行业的影响,不是阻碍了发展,而是逼出了更好的技术。


最后

这篇文章想说的不是"中国团队比美国团队强"——那样说既不客观也没意义。

我想说的是:创新不一定要最多的资源,但一定要最聪明的方法。 当美国团队的策略是"用 3 万张 H100 训练更大的模型"时,中国团队的策略是"能不能用 1000 张卡训练出同样强的模型"。两条路都走出了成果,但后者的方法论对全球 AI 社区的启发可能更大——因为它意味着大模型不再是只有超级巨头才玩得起的游戏。

上篇聊了"做了什么",这篇聊了"怎么做到的"。下一篇,我们往更底层走——回顾 2023 到 2026 年大模型架构的三年进化史,看看中国团队在这场技术革命中到底扮演了什么角色。


📰 参考来源:

  1. 斯坦福《2026 AI 指数报告》解读 · 36氪
  2. Hugging Face 2026 春季全球开源 AI 生态报告 · IT之家
  3. GRPO 算法全解析:从原理到实战 · CSDN
  4. 国产大模型四强对决:Kimi K2.6 vs GLM-5.1 vs Qwen3.6 vs MiniMax M2 · 掘金
  5. DeepSeek V4 发布:黄仁勋担心的灾难正在发生 · 36氪
  6. Qwen 累计下载量近 10 亿,占全球开源模型 50%+ · 腾讯新闻

🧪 求索实验室

深圳 · 15年IT老兵 · AI探索笔记

你觉得"算力不够架构来凑"这个判断成立吗?还是说如果给中国团队一样的算力,他们反而不会做这些创新?评论区聊聊。