大模型架构的三年进化：从 Transformer 到DeepSeek团队的全面超越所有人面对的同一个问题要理解这三年的

前两篇聊了 DeepSeek V4 的技术架构和中国团队的"约束创新"方法论。这篇我们换个视角——拉长焦距，回顾 2023 到 2026 这三年大模型底层架构到底经历了什么。你可能以为这是美国主导的故事，但看完这篇你会发现，几个关键的架构级创新，都来自中国实验室。

所有人面对的同一个问题

要理解这三年的架构创新，必须先理解一个根本性的瓶颈。

2017 年 Google 发表 Attention Is All You Need，提出了 Transformer 架构。核心机制是自注意力（Self-Attention）——每个 token 都要和序列中所有其他 token 计算关联度。这个机制是 Transformer 强大的原因，也是它最大的软肋。

自注意力的计算复杂度是 O(n²)，n 是序列长度。什么意思？上下文翻倍，计算量翻四倍。

2K 上下文：计算量 = 4M 次操作
128K 上下文：计算量 = 16B 次操作——涨了 4000 倍
1M 上下文：计算量 = 1T 次操作——直接爆掉

更致命的是 KV Cache 问题。自注意力需要在内存里缓存每个 token 的 Key 和 Value 向量。序列越长，显存占用越大。以标准配置（128 个注意力头，128 维）计算，1M token 的 KV Cache 需要数百 GB 显存——单卡根本放不下。

所以，从 2023 年开始，整个大模型社区都面对同一个问题：怎么在不损失性能的前提下，打破 Transformer 的 O(n²) 瓶颈？

三年来，围绕这个问题，诞生了三条创新路线。

路线一：从 Dense 到 MoE——参数可以不用全激活

传统的 Transformer 模型（GPT-3、Llama 1/2）是 Dense 架构——每次推理，所有参数都要参与计算。这意味着模型参数量直接等于计算量。

MoE（Mixture of Experts，混合专家模型）的核心思想极其直觉：不是所有参数都需要参与每次计算。

把模型参数分成几百个"专家"网络，每个输入只激活其中最相关的几个。这样总参数可以很大（容量强），但实际计算量很小（速度快）。

这个想法不新。MoE 的理论基础最早可以追溯到 1991 年 Jacobs 等人的论文。但把它工程化、做到万亿参数级别还能稳定训练，是过去三年的事。

MoE 工程化的四个关键里程碑

2021 年：Switch Transformer（Google）

Google 发布了 Switch Transformer，首次在大规模上验证了 MoE 的可行性。核心创新是用 Top-1 路由（每个 token 只选一个专家）替代了之前的多专家混合，大幅简化了工程实现。参数量达到 1.6 万亿，但计算量只有同等 Dense 模型的一小部分。

2023 年 12 月：Mixtral 8×7B（Mistral AI，法国）

这是 MoE 从"实验室技术"到"开源可用"的转折点。Mistral AI 用 8 个 7B 的专家网络组成了一个 MoE 模型，每次只激活 2 个（约 13B 参数的计算量），但性能追上了 Llama 2 70B。开源协议 Apache 2.0，全球开发者都可以用。

2024 年 5 月：DeepSeek-V2（深度求索，中国）

DeepSeek 做了两件关键的事：第一，把 MoE 从 Mixtral 的"8 个小专家"推进到了"160 个大专家"的工业级规模；第二，首次把 MoE 和 MLA（多头潜在注意力）结合，同时解决了"参数效率"和"注意力效率"两个问题。这是 MoE 工程化的质变时刻。

2026 年 4 月：DeepSeek V4-Pro（深度求索，中国）

1.6 万亿参数，256 个专家，每次只激活 490 亿（约 3%）。推理成本是同等 Dense 模型的 1/30。更关键的是，DeepSeek V4 已不是"追赶者"的姿态——它的代码能力、长上下文处理、多语言能力都进入了全球第一梯队。

MoE 为什么成了中国团队的共识

一个值得注意的现象：截至 2026 年 4 月，中国五大旗舰模型——DeepSeek V4-Pro、Qwen3.6-Plus、GLM-5.1、Kimi K2.6、MiniMax M2——全部采用 MoE 架构。没有一家选择 Dense 路线。

这背后有两个原因。第一，MoE 天然适合"算力受限"的场景——同样的 GPU 预算，MoE 能训练出参数量大得多的模型。第二，中国团队的工程化能力在 MoE 上找到了用武之地——MoE 的路由策略、负载均衡、专家通信优化，都需要极强的系统工程能力。

路线二：注意力机制重构——KV Cache 的压缩艺术

如果说 MoE 解决的是"参数太多算不动"的问题，那注意力机制重构解决的就是"上下文太长放不下"的问题。

这个领域在三年间经历了三次关键突破。

第一次突破：GQA（2023）

GQA（Grouped Query Attention，分组查询注意力） 由 Google 在 2022 年提出，Meta 在 Llama 2（2023 年 7 月）中首次大规模采用。

传统多头注意力中，每个注意力头都有独立的 Key 和 Value 向量。128 个头就需要 128 份 KV Cache。GQA 的做法是让多个 Query 头共享同一组 KV——比如 128 个 Query 头只配 8 组 KV，KV Cache 直接降为原来的 1/16。

这是一个"低垂果实"式的创新——实现简单，效果确定。代价是精度略有损失（但实际影响很小）。从 Llama 2 开始，GQA 成了大模型的标配。

第二次突破：MLA（2024）

MLA（Multi-head Latent Attention，多头潜在注意力） 是 DeepSeek 在 2024 年 5 月（DeepSeek-V2）中首次提出的，是注意力机制领域过去三年最重要的创新之一。

MLA 的核心思想：不直接存储 KV 向量，而是把它们投影到一个低维隐空间，只缓存压缩后的向量。

具体来说：

标准注意力：每个 token 缓存完整的 KV 向量（假设 5120 维）
MLA：每个 token 只缓存一个压缩向量（假设 512 维），推理时通过投影矩阵重建

压缩比 10x，意味着 KV Cache 占用的显存降到原来的 1/10。而且在推理时，只需要缓存这个低维向量，不需要存储原始的 KV——这是一个质的改变。

MLA 在 DeepSeek-V2 和 V3 中持续演进，证明了自己的价值。但它有一个弱点：压缩-重建的过程增加了计算开销。在短上下文场景下，这个开销可能得不偿失。

第三次突破：CSA+HCA（2026）

到了 DeepSeek V4，他们做了更大胆的决定——直接放弃 MLA，发明了全新的 CSA+HCA 混合注意力架构。

前篇详细讲过，这里只回顾核心逻辑：

CSA（Compressed Sparse Attention，压缩稀疏注意力）：先把每 4 个 token 压缩成 1 个摘要（4:1 压缩），再做稀疏注意力（只看最相关的 1024 个摘要），同时保留 128 个 token 的滑动窗口保证局部精度。

HCA（Heavy Compressed Attention，重度压缩注意力）：用 128:1 的压缩比做全连接注意力。虽然压缩很狠，但全连接保证了全局信息不遗漏。

两者交替运行的结果：在 100 万 token 上下文下，推理计算量降到 MLA 方案的 27%，KV 缓存降到 10%。

从 GQA 到 MLA 到 CSA+HCA，注意力机制在三年间完成了三代进化。每一代的压缩率都是前一代的数倍。而这三代创新中，后两代（MLA 和 CSA+HCA）都来自 DeepSeek。

路线三：训练对齐范式重构——从 PPO 到 GRPO

前面两条路线解决的是模型架构层面的问题。第三条路线解决的是训练方法层面的问题——怎么让模型"听话"。

RLHF 的成本困境

训练一个大模型通常分两步：预训练（学知识）和对齐（学听话）。

传统对齐方案是 RLHF（Reinforcement Learning from Human Feedback），需要：

训练一个 Reward Model（奖励模型）—— 和主模型差不多大
训练一个 Critic（评论家）网络—— 估计价值函数
用 PPO 算法做策略优化

光是对齐这一步，就要额外维护两个大网络，吃掉 40%-50% 的训练内存。

GRPO：DeepSeek 的极简方案

2024 年 2 月，DeepSeek 在 DeepSeekMath 论文中提出了 GRPO（Group Relative Policy Optimization，组相对策略优化）。

核心思想极其巧妙：不单独训练奖励模型和评论家，而是让模型自己和自己比。

具体做法：给模型同一个问题，让它生成多个回答（一组），然后在这一组内部比较——谁答得比组内平均好，就强化；谁答得比组内平均差，就抑制。

就像班级考试，不看绝对分数，看你在班里的相对排名。第一名和最后一名的绝对分数可能只差 2 分，但排名决定了你是被强化还是被抑制。

这个设计有几个关键优势：

砍掉了 Critic 网络——训练内存降低 40%-50%
不需要 Reward Model——用组内相对比较替代绝对打分
消除了奖励噪声——绝对分数容易受评分标准影响，但相对排名天然抗噪

GRPO 为什么成了社区标准

GRPO 提出后，迅速成为开源社区对齐训练的事实标准。

Meta 的 Llama 系列、Mistral 的模型、以及大量社区微调项目都开始采用 GRPO 替代传统的 PPO。原因很简单：更简单、更省资源、效果更稳定。

根据 arXiv 上的追踪研究，截至 2026 年初，GRPO 相关的衍生论文和工程实现已超过 300 篇/项目。它从一个具体的算法改进，变成了一个通用的训练范式。

这个案例特别能说明问题：中国团队不只是"跟在后面做同样的东西"——他们提出了一个更聪明的方案，然后全球社区都在用。

还有一条暗线：挑战 Transformer 的尝试

在 Transformer 内部优化的同时，也有团队在尝试完全不同的架构方向。

Mamba：状态空间模型

2023 年底，Albert Gu 和 Tri Dao 发布了 Mamba，基于状态空间模型（SSM）。核心优势是计算复杂度为 O(n)——线性增长，彻底解决了 Transformer 的 O(n²) 瓶颈。

2024-2025 年，Mamba 经历了快速迭代（Mamba-2 → Mamba-3），性能持续提升。但在长程推理和复杂任务上，仍然不如同等规模的 Transformer。

混合架构：Jamba

2024 年，AI21 Labs 发布了 Jamba，尝试把 Transformer 层和 Mamba 层交替堆叠——用 Transformer 处理需要全局注意力的部分，用 Mamba 处理长序列的部分。

这个思路很聪明，但目前还没有产出真正有竞争力的模型。

现状：Transformer 仍然是王者

截至 2026 年 4 月，全球所有 Top-10 大模型（包括 DeepSeek V4、Claude Opus 4.7、GPT-5.4、Qwen3.6-Plus 等）仍然基于 Transformer 架构。Mamba 和其他替代方案在特定场景有优势，但还没有能力挑战 Transformer 的主流地位。

不过，DeepSeek 的 CSA+HCA 在某种程度上借鉴了 Mamba 的"压缩"思路——不直接处理完整序列，而是先压缩再处理。也许未来会出现 Transformer + SSM 的真正融合架构。

三年演进全景

把三条路线合在一起看：

阶段	时间	代表模型/创新	解决的问题	创新来源
Dense 时代	2019-2022	GPT-3, Llama 1/2	建立基线能力	美国
MoE 工程化	2023	Mixtral 8×7B	推理成本	欧洲
MoE+MLA 融合	2024	DeepSeek-V2/V3	参数效率+注意力效率	中国
对齐范式革新	2024	GRPO	训练成本	中国
超长上下文	2025-2026	CSA+HCA	O(n²) 瓶颈	中国
替代架构探索	2023-2026	Mamba, RWKV	根本性架构突破	美国/全球

几个值得注意的趋势：

第一，架构创新的中心正在偏移。 2023 年之前，几乎所有关键创新（Transformer、GPT、RLHF、FlashAttention）都来自美国实验室。2024 年之后，MoE 工业化、MLA、GRPO、CSA+HCA——这些最具影响力的架构创新，都出自中国团队。

第二，开源正在加速创新扩散。 GRPO 论文发布后不到一年就成为了全球标准，这在前闭源时代是不可想象的。中国团队把 MLA、GRPO 等核心创新完全开源，全球开发者可以直接在 Llama、Mistral 等模型上复现和应用。

第三，效率正在取代规模成为新的竞争焦点。 2023 年的竞争是"谁的模型更大"，2026 年的竞争是"谁的模型更聪明"——用更少的算力做更多的事。这个转变，中国团队走在了前面。

我的判断

第一，这三年的架构演进，本质上是在 Transformer 框架内做极致的效率优化。

从 GQA 到 MLA 到 CSA+HCA，从 Dense 到 MoE，从 PPO 到 GRPO——每一步都在回答同一个问题：怎么用更少的资源做更多的事？这个问题，算力受限的中国团队比任何人都更迫切地需要回答，也确实回答得最好。

第二，中国团队的角色已经从"跟随者"变成了"引领者"。

MoE 工程化（DeepSeek-V2）、MLA 注意力（DeepSeek-V2）、GRPO 对齐（DeepSeek-R1）、CSA+HCA（DeepSeek V4）——这些都是架构级别的创新，不是微调层面的改进。它们改变了全球社区训练和部署大模型的方式。

第三，但真正的下一个范式突破可能还没有到来。

Transformer 架构已经在 2017 年的基础上被优化了九年。MLA 和 CSA+HCA 把注意力机制压缩到了极致，MoE 把参数效率推到了极致，GRPO 把对齐成本降到了极致。这些优化都是"在现有框架内做增量改进"。

真正的下一个范式突破——不管是 Mamba 的成熟、还是某个全新的架构——可能正在某个实验室里酝酿。而如果历史规律成立，这个突破很可能也来自一个资源受限的团队。

最后

这篇文章想说的是：大模型的底层架构不是静止的，它在以极快的速度进化。而在这场进化中，中国团队已经从学生变成了老师。

不是因为中国团队更聪明，而是因为他们面对的约束更严格——GPU 不够、预算有限、时间紧迫。约束倒逼创新，这个规律在汽车工业、芯片行业、以及现在的大模型领域，一次次地应验。

上篇聊了"怎么做到的"，这篇聊了"做了什么改变"。下一篇，我们把视角从模型转向应用——聊聊 Agent。2025 年被称为"Agent 元年"，但很多人可能连 Agent 到底是什么都没搞清楚。下一篇，我们把这个概念彻底讲透。

📰 参考来源：

🧪 求索实验室

你觉得 Transformer 架构还能被优化多久？Mamba 之类的替代方案有可能在 2027 年之前挑战 Transformer 的统治地位吗？评论区聊聊。