前两篇聊了 DeepSeek V4 的技术架构和中国团队的"约束创新"方法论。这篇我们换个视角——拉长焦距,回顾 2023 到 2026 这三年大模型底层架构到底经历了什么。你可能以为这是美国主导的故事,但看完这篇你会发现,几个关键的架构级创新,都来自中国实验室。
所有人面对的同一个问题
要理解这三年的架构创新,必须先理解一个根本性的瓶颈。
2017 年 Google 发表 Attention Is All You Need,提出了 Transformer 架构。核心机制是自注意力(Self-Attention)——每个 token 都要和序列中所有其他 token 计算关联度。这个机制是 Transformer 强大的原因,也是它最大的软肋。
自注意力的计算复杂度是 O(n²),n 是序列长度。什么意思?上下文翻倍,计算量翻四倍。
- 2K 上下文:计算量 = 4M 次操作
- 128K 上下文:计算量 = 16B 次操作——涨了 4000 倍
- 1M 上下文:计算量 = 1T 次操作——直接爆掉
更致命的是 KV Cache 问题。自注意力需要在内存里缓存每个 token 的 Key 和 Value 向量。序列越长,显存占用越大。以标准配置(128 个注意力头,128 维)计算,1M token 的 KV Cache 需要数百 GB 显存——单卡根本放不下。
所以,从 2023 年开始,整个大模型社区都面对同一个问题:怎么在不损失性能的前提下,打破 Transformer 的 O(n²) 瓶颈?
三年来,围绕这个问题,诞生了三条创新路线。
路线一:从 Dense 到 MoE——参数可以不用全激活
传统的 Transformer 模型(GPT-3、Llama 1/2)是 Dense 架构——每次推理,所有参数都要参与计算。这意味着模型参数量直接等于计算量。
MoE(Mixture of Experts,混合专家模型)的核心思想极其直觉:不是所有参数都需要参与每次计算。
把模型参数分成几百个"专家"网络,每个输入只激活其中最相关的几个。这样总参数可以很大(容量强),但实际计算量很小(速度快)。
这个想法不新。MoE 的理论基础最早可以追溯到 1991 年 Jacobs 等人的论文。但把它工程化、做到万亿参数级别还能稳定训练,是过去三年的事。
MoE 工程化的四个关键里程碑
2021 年:Switch Transformer(Google)
Google 发布了 Switch Transformer,首次在大规模上验证了 MoE 的可行性。核心创新是用 Top-1 路由(每个 token 只选一个专家)替代了之前的多专家混合,大幅简化了工程实现。参数量达到 1.6 万亿,但计算量只有同等 Dense 模型的一小部分。
2023 年 12 月:Mixtral 8×7B(Mistral AI,法国)
这是 MoE 从"实验室技术"到"开源可用"的转折点。Mistral AI 用 8 个 7B 的专家网络组成了一个 MoE 模型,每次只激活 2 个(约 13B 参数的计算量),但性能追上了 Llama 2 70B。开源协议 Apache 2.0,全球开发者都可以用。
2024 年 5 月:DeepSeek-V2(深度求索,中国)
DeepSeek 做了两件关键的事:第一,把 MoE 从 Mixtral 的"8 个小专家"推进到了"160 个大专家"的工业级规模;第二,首次把 MoE 和 MLA(多头潜在注意力)结合,同时解决了"参数效率"和"注意力效率"两个问题。这是 MoE 工程化的质变时刻。
2026 年 4 月:DeepSeek V4-Pro(深度求索,中国)
1.6 万亿参数,256 个专家,每次只激活 490 亿(约 3%)。推理成本是同等 Dense 模型的 1/30。更关键的是,DeepSeek V4 已不是"追赶者"的姿态——它的代码能力、长上下文处理、多语言能力都进入了全球第一梯队。
MoE 为什么成了中国团队的共识
一个值得注意的现象:截至 2026 年 4 月,中国五大旗舰模型——DeepSeek V4-Pro、Qwen3.6-Plus、GLM-5.1、Kimi K2.6、MiniMax M2——全部采用 MoE 架构。没有一家选择 Dense 路线。
这背后有两个原因。第一,MoE 天然适合"算力受限"的场景——同样的 GPU 预算,MoE 能训练出参数量大得多的模型。第二,中国团队的工程化能力在 MoE 上找到了用武之地——MoE 的路由策略、负载均衡、专家通信优化,都需要极强的系统工程能力。
路线二:注意力机制重构——KV Cache 的压缩艺术
如果说 MoE 解决的是"参数太多算不动"的问题,那注意力机制重构解决的就是"上下文太长放不下"的问题。
这个领域在三年间经历了三次关键突破。
第一次突破:GQA(2023)
GQA(Grouped Query Attention,分组查询注意力) 由 Google 在 2022 年提出,Meta 在 Llama 2(2023 年 7 月)中首次大规模采用。
传统多头注意力中,每个注意力头都有独立的 Key 和 Value 向量。128 个头就需要 128 份 KV Cache。GQA 的做法是让多个 Query 头共享同一组 KV——比如 128 个 Query 头只配 8 组 KV,KV Cache 直接降为原来的 1/16。
这是一个"低垂果实"式的创新——实现简单,效果确定。代价是精度略有损失(但实际影响很小)。从 Llama 2 开始,GQA 成了大模型的标配。
第二次突破:MLA(2024)
MLA(Multi-head Latent Attention,多头潜在注意力) 是 DeepSeek 在 2024 年 5 月(DeepSeek-V2)中首次提出的,是注意力机制领域过去三年最重要的创新之一。
MLA 的核心思想:不直接存储 KV 向量,而是把它们投影到一个低维隐空间,只缓存压缩后的向量。
具体来说:
- 标准注意力:每个 token 缓存完整的 KV 向量(假设 5120 维)
- MLA:每个 token 只缓存一个压缩向量(假设 512 维),推理时通过投影矩阵重建
压缩比 10x,意味着 KV Cache 占用的显存降到原来的 1/10。而且在推理时,只需要缓存这个低维向量,不需要存储原始的 KV——这是一个质的改变。
MLA 在 DeepSeek-V2 和 V3 中持续演进,证明了自己的价值。但它有一个弱点:压缩-重建的过程增加了计算开销。在短上下文场景下,这个开销可能得不偿失。
第三次突破:CSA+HCA(2026)
到了 DeepSeek V4,他们做了更大胆的决定——直接放弃 MLA,发明了全新的 CSA+HCA 混合注意力架构。
前篇详细讲过,这里只回顾核心逻辑:
CSA(Compressed Sparse Attention,压缩稀疏注意力):先把每 4 个 token 压缩成 1 个摘要(4:1 压缩),再做稀疏注意力(只看最相关的 1024 个摘要),同时保留 128 个 token 的滑动窗口保证局部精度。
HCA(Heavy Compressed Attention,重度压缩注意力):用 128:1 的压缩比做全连接注意力。虽然压缩很狠,但全连接保证了全局信息不遗漏。
两者交替运行的结果:在 100 万 token 上下文下,推理计算量降到 MLA 方案的 27%,KV 缓存降到 10%。
从 GQA 到 MLA 到 CSA+HCA,注意力机制在三年间完成了三代进化。每一代的压缩率都是前一代的数倍。而这三代创新中,后两代(MLA 和 CSA+HCA)都来自 DeepSeek。
路线三:训练对齐范式重构——从 PPO 到 GRPO
前面两条路线解决的是模型架构层面的问题。第三条路线解决的是训练方法层面的问题——怎么让模型"听话"。
RLHF 的成本困境
训练一个大模型通常分两步:预训练(学知识)和对齐(学听话)。
传统对齐方案是 RLHF(Reinforcement Learning from Human Feedback),需要:
- 训练一个 Reward Model(奖励模型)—— 和主模型差不多大
- 训练一个 Critic(评论家)网络—— 估计价值函数
- 用 PPO 算法做策略优化
光是对齐这一步,就要额外维护两个大网络,吃掉 40%-50% 的训练内存。
GRPO:DeepSeek 的极简方案
2024 年 2 月,DeepSeek 在 DeepSeekMath 论文中提出了 GRPO(Group Relative Policy Optimization,组相对策略优化)。
核心思想极其巧妙:不单独训练奖励模型和评论家,而是让模型自己和自己比。
具体做法:给模型同一个问题,让它生成多个回答(一组),然后在这一组内部比较——谁答得比组内平均好,就强化;谁答得比组内平均差,就抑制。
就像班级考试,不看绝对分数,看你在班里的相对排名。第一名和最后一名的绝对分数可能只差 2 分,但排名决定了你是被强化还是被抑制。
这个设计有几个关键优势:
- 砍掉了 Critic 网络——训练内存降低 40%-50%
- 不需要 Reward Model——用组内相对比较替代绝对打分
- 消除了奖励噪声——绝对分数容易受评分标准影响,但相对排名天然抗噪
GRPO 为什么成了社区标准
GRPO 提出后,迅速成为开源社区对齐训练的事实标准。
Meta 的 Llama 系列、Mistral 的模型、以及大量社区微调项目都开始采用 GRPO 替代传统的 PPO。原因很简单:更简单、更省资源、效果更稳定。
根据 arXiv 上的追踪研究,截至 2026 年初,GRPO 相关的衍生论文和工程实现已超过 300 篇/项目。它从一个具体的算法改进,变成了一个通用的训练范式。
这个案例特别能说明问题:中国团队不只是"跟在后面做同样的东西"——他们提出了一个更聪明的方案,然后全球社区都在用。
还有一条暗线:挑战 Transformer 的尝试
在 Transformer 内部优化的同时,也有团队在尝试完全不同的架构方向。
Mamba:状态空间模型
2023 年底,Albert Gu 和 Tri Dao 发布了 Mamba,基于状态空间模型(SSM)。核心优势是计算复杂度为 O(n)——线性增长,彻底解决了 Transformer 的 O(n²) 瓶颈。
2024-2025 年,Mamba 经历了快速迭代(Mamba-2 → Mamba-3),性能持续提升。但在长程推理和复杂任务上,仍然不如同等规模的 Transformer。
混合架构:Jamba
2024 年,AI21 Labs 发布了 Jamba,尝试把 Transformer 层和 Mamba 层交替堆叠——用 Transformer 处理需要全局注意力的部分,用 Mamba 处理长序列的部分。
这个思路很聪明,但目前还没有产出真正有竞争力的模型。
现状:Transformer 仍然是王者
截至 2026 年 4 月,全球所有 Top-10 大模型(包括 DeepSeek V4、Claude Opus 4.7、GPT-5.4、Qwen3.6-Plus 等)仍然基于 Transformer 架构。Mamba 和其他替代方案在特定场景有优势,但还没有能力挑战 Transformer 的主流地位。
不过,DeepSeek 的 CSA+HCA 在某种程度上借鉴了 Mamba 的"压缩"思路——不直接处理完整序列,而是先压缩再处理。也许未来会出现 Transformer + SSM 的真正融合架构。
三年演进全景
把三条路线合在一起看:
| 阶段 | 时间 | 代表模型/创新 | 解决的问题 | 创新来源 |
|---|---|---|---|---|
| Dense 时代 | 2019-2022 | GPT-3, Llama 1/2 | 建立基线能力 | 美国 |
| MoE 工程化 | 2023 | Mixtral 8×7B | 推理成本 | 欧洲 |
| MoE+MLA 融合 | 2024 | DeepSeek-V2/V3 | 参数效率+注意力效率 | 中国 |
| 对齐范式革新 | 2024 | GRPO | 训练成本 | 中国 |
| 超长上下文 | 2025-2026 | CSA+HCA | O(n²) 瓶颈 | 中国 |
| 替代架构探索 | 2023-2026 | Mamba, RWKV | 根本性架构突破 | 美国/全球 |
几个值得注意的趋势:
第一,架构创新的中心正在偏移。 2023 年之前,几乎所有关键创新(Transformer、GPT、RLHF、FlashAttention)都来自美国实验室。2024 年之后,MoE 工业化、MLA、GRPO、CSA+HCA——这些最具影响力的架构创新,都出自中国团队。
第二,开源正在加速创新扩散。 GRPO 论文发布后不到一年就成为了全球标准,这在前闭源时代是不可想象的。中国团队把 MLA、GRPO 等核心创新完全开源,全球开发者可以直接在 Llama、Mistral 等模型上复现和应用。
第三,效率正在取代规模成为新的竞争焦点。 2023 年的竞争是"谁的模型更大",2026 年的竞争是"谁的模型更聪明"——用更少的算力做更多的事。这个转变,中国团队走在了前面。
我的判断
第一,这三年的架构演进,本质上是在 Transformer 框架内做极致的效率优化。
从 GQA 到 MLA 到 CSA+HCA,从 Dense 到 MoE,从 PPO 到 GRPO——每一步都在回答同一个问题:怎么用更少的资源做更多的事?这个问题,算力受限的中国团队比任何人都更迫切地需要回答,也确实回答得最好。
第二,中国团队的角色已经从"跟随者"变成了"引领者"。
MoE 工程化(DeepSeek-V2)、MLA 注意力(DeepSeek-V2)、GRPO 对齐(DeepSeek-R1)、CSA+HCA(DeepSeek V4)——这些都是架构级别的创新,不是微调层面的改进。它们改变了全球社区训练和部署大模型的方式。
第三,但真正的下一个范式突破可能还没有到来。
Transformer 架构已经在 2017 年的基础上被优化了九年。MLA 和 CSA+HCA 把注意力机制压缩到了极致,MoE 把参数效率推到了极致,GRPO 把对齐成本降到了极致。这些优化都是"在现有框架内做增量改进"。
真正的下一个范式突破——不管是 Mamba 的成熟、还是某个全新的架构——可能正在某个实验室里酝酿。而如果历史规律成立,这个突破很可能也来自一个资源受限的团队。
最后
这篇文章想说的是:大模型的底层架构不是静止的,它在以极快的速度进化。而在这场进化中,中国团队已经从学生变成了老师。
不是因为中国团队更聪明,而是因为他们面对的约束更严格——GPU 不够、预算有限、时间紧迫。约束倒逼创新,这个规律在汽车工业、芯片行业、以及现在的大模型领域,一次次地应验。
上篇聊了"怎么做到的",这篇聊了"做了什么改变"。下一篇,我们把视角从模型转向应用——聊聊 Agent。2025 年被称为"Agent 元年",但很多人可能连 Agent 到底是什么都没搞清楚。下一篇,我们把这个概念彻底讲透。
📰 参考来源:
- LLM 架构演化全景:从 Transformer 到后 Transformer · AI Insight
- 2019-2026 大模型演进全景解读 · TEKIN
- MoE 架构演进之路:从 Switch Transformer 到 DeepSeek-R1 · 掘金
- GRPO 算法全解析:从原理到实战 · CSDN
- Multi-head Latent Attention (MLA) 深度解析 · 知乎
- Mamba 与状态空间模型:超越 Transformer 的下一代架构 · QubitTool
- 2025 年大语言模型进展报告 · 哈尔滨工业大学
🧪 求索实验室
你觉得 Transformer 架构还能被优化多久?Mamba 之类的替代方案有可能在 2027 年之前挑战 Transformer 的统治地位吗?评论区聊聊。