Transformer 演进史：从 Attention Is All You Need 到万亿参数 MoE本文按架构演进

本文按架构演进的逻辑线展开，而非严格的时间排序。当多个重要工作发生在相近时期时，优先按技术继承关系组织。温馨提示：本文约 6000 字，有点像一部 AI 技术圈的历史纪录片——建议泡杯茶，慢慢看。

【2017】一、Transformer —— "首先，Attention 真的是 All You Need"

1. 背景：RNN 的痛，我们懂

2017 年以前，NLP 世界被 RNN 和 LSTM 统治着。

你输入一句 "I love cats"，RNN 老实巴交地一个字一个字读：I → love → cats。读完第一个字才能读第二个。

串行。慢。健忘。

句子稍微长点——"I love cats but they scratched my sofa last Tuesday at 3pm when I was..."——RNN 读到后半句，已经忘了 cats 是什么了。这叫长程依赖衰减，是 RNN 的基因缺陷。

Google Brain 团队一拍桌子：能不能一次性看完，再找关联？

于是 Transformer 诞生了。它的核心思想简单到离谱：用自注意力（Self-Attention）完全取代循环结构。每个词和所有词做一次"相关性打分"，没有先后顺序，所以可以并行计算。

2. 架构：四菜一汤的 Encoder-Decoder

经典 Encoder-Decoder 结构，每边 6 层一模一样的层叠。

Encoder（编码器）— 阅读理解满分选手 每层两件套：

组件	干什么的	用大白话说
Multi-Head Self-Attention	多头自注意力	让每个词"看"到所有词，找出谁和谁有关系
Position-wise FFN	前馈神经网络	每个位置自己做一次深度推理

Decoder（解码器）— 写作文的 多了两个东西：

Cross-Attention（交叉注意力）：写下一句的时候回头看看原文说了什么
Masked Self-Attention：只能看前面已经写好的内容，不能偷看未来的词——需要点公平竞争的体育精神

🔬 深度拆解：Self-Attention 到底是怎么算的？

第一步：Q、K、V 三剑客

每个输入 token 会生成三个向量。它们不是凭空变出来的：

每个词向量 x → 乘 W_Q → Q（Query）
             → 乘 W_K → K（Key）
             → 乘 W_V → V（Value）

W_Q、W_K、W_V 是可学习的投影矩阵，相当于同一个演员在三部电影里扮演不同的角色——底子是同一个人的脸（词向量），但化妆（投影矩阵）让你看起来完全不一样。

用直觉理解 Q、K、V：

Q（Query）：相当于你在问"我该关注谁？"
K（Key）：相当于别人回答"我有什么值得关注的？"
V（Value）：相当于"我的实际内容是啥？"

💡 一个不那么正经但很贴切的理解：Q 是"你想要什么？"，K 是"我有什么？"，V 是"哝，给你"。 渣男式注意力机制。

第二步：算 Attention Score

Attention(Q, K, V) = softmax(Q × K^T / √d_k) × V
                      ↑            ↑          ↑
                相关性矩阵      防爆炸散热器    加权求和

拆开看：

Q × K^T：每个词和每个词算点积，得到一个 N×N 的相关性矩阵。如果画成热力图，"猫"和"沙发" 那个格子是深红色，而 "沙发"和"的" 可能只是浅黄。
÷ √d_k：点积的结果随维度增大而膨胀，除一个 d_k 的平方根，防止 softmax 进入饱和区——相当于 CPU 上加了散热器。
softmax：把分数归一化成和为 1 的概率分布。
× V：按关注度加权求和，得到最终的上下文表示。

第三步：多头并行

一个注意力头只能关注一种关系，那八个呢？

MultiHead(Q, K, V) = Concat(head_1, ..., head_8) × W_O

每个 head 有自己独立的 W_Q、W_K、W_V，关注不同的语义维度：

头 1 关注谁和谁的语法关系
头 2 关注时间先后
头 3 关注情感色彩
头 4 关注指代关系

就像请了 8 个不同领域的专家同时分析同一段话，然后汇总意见。 这就是"多头"的威力。

3. 其他不得不提的三板斧

Positional Encoding（位置编码） 因为是并行读入，模型不知道"I"在前还是"cats"在后。Transformer 用了三角函数的巧妙设计——不同频率的正弦/余弦波叠加，给每个位置一个唯一的"指纹"。让模型能区分"猫在我前面"还是"我前面是猫"——这区别可大了。

残差连接（Residual Connection） 跨层直连：output = Layer(x) + x。寓意简单粗暴："如果这层学不到啥，至少原样传下去不损失。" 这让 100+ 层的深层网络训练成为可能。

LayerNorm（层归一化） 原始 Transformer 用的是 Post-LN（LayerNorm 在残差连接之后）。后来大家发现 Post-LN 在深层训练时不够稳，GPT-3 改成了 Pre-LN（LayerNorm 放前面）。别看只是个"搬家"——训到 96 层的时候，这点稳定性差异就是天壤之别。

4. 影响与吐槽

Transformer 奠定了 LLM 时代的地基。完全并行、全局感受野——训练效率上了个数量级，长程依赖不再衰减。

但也要吐槽下：

Encoder-Decoder 对自回归生成任务来说有点"杀鸡用牛刀"——你要生成本来只需要 Decoder，Encoder 纯属占地方
原始论文参数量才 6500 万——放到今天连个玩具模型都算不上，随便一个 LoRA 适配器都不止这点参数

当时没人能想到，这个 65M 的小东西会在 8 年后长成 万亿参数 的庞然大物。

【2018】二、BERT vs GPT —— Decoder-only 的"真香"之路

1. 背景：同一个起点，完全不同的方向

2018 年，NLP 圈开始探索"预训练 + 微调"范式。Google 和 OpenAI 同时发力，但选择了完全相反的技术路线：

BERT：我要你读一篇文章然后回答问题（理解任务）
GPT：我要你写点东西出来（生成任务）

两条路线从同一个岔路口分道扬镳，走向了截然不同的命运。

2. 架构对比

维度	BERT（Encoder-only）	GPT（Decoder-only）
Mask 方式	MLM（双向遮罩）	CLM（因果遮罩）
预训练任务	完形填空 + 句子连续性判断	预测下一个 token
注意力范围	双向（前后文都能看）	单向（只能看左边）
超能力	深度理解语义、分类/抽取	自回归生成、续写
诅咒	没法自回归生成	理解任务受限
学术类比	🏫 高考学霸——看完卷子再作答	🎤 即兴脱口秀演员——边说边想下一句

BERT（Encoder-only） 的关键创新是 Masked Language Model（MLM）：

给你一句 "I [MASK] cats" ——猜猜 [MASK] 是什么？正确答案："love"。

模型必须双向观察上下文来预测被遮住的词——左边是 "I"，右边是 "cats"，两个方向的信息都得用上。这让 BERT 被迫建立起对句子语义的深度理解。

额外加点料：Next Sentence Prediction（NSP）——给你两句话，判断它们是不是连续的。目标：强化句子级别的理解。不过后来 RoBERTa 发现 NSP 其实没啥用，直接把它砍了性能还更好——打脸来得如此之快。

GPT（Decoder-only） 的关键创新是 Causal Language Model（CLM）：

给你 "I love"，猜下一个词。"cats" 的概率应该远高于 "bananas"。

每个 token 只能用前面的 token 来预测。看起来是给自己戴了枷锁——但恰恰是这层枷锁让它天然适配生成任务。生成时一个 token 一个 token 往前推，和预训练时的行为完全一致，没有"训练-推理不匹配"的问题。

3. 历史反转

当时大家都觉得 BERT 才是未来——在 GLUE 排行榜上全面碾压 GPT，BERT-Large 在 11 个任务中霸榜。看起来"理解"比"生成"重要得多。

结果呢？😏

GPT 那条看似狭窄的路，最后通向的是 AGI 的康庄大道。 Decoder-only 胜出的根本原因不是因为它比 BERT"好"，而是生成任务比理解任务更接近通用智能——能写代码、能聊天、能推理的模型，比只能做分类的模型更通用。当然，如果你的需求就是分类 10 万条影评的情感倾向，BERT 到今天依然很能打。

客观说：Encoder-only 与 Decoder-only 的分野不是谁对谁错，而是任务导向的自然选择。

【2020】三、GPT-3 —— "大就是好"的暴力美学

1. 背景：当年所有人都傻眼了

2018 到 2020 年间，各路模型在 GLUE 上你争我夺，参数从 BERT-Large 的 340M 涨到 T5 的 11B。但大家并没有真正意识到规模的魔力——直到 OpenAI 在 2020 年扔出了 GPT-3。

1750 亿参数，96 层 Transformer 层，12288 维隐藏层，96 个注意力头。

对比一下：GPT-1 才 1.17 亿参数，GPT-2 也才 15 亿。GPT-3 的参数量是 GPT-2 的 116 倍。 如果 GPT-2 的大脑是老鼠级别，GPT-3 就是大象级别——而且不是一只大象，是 116 只大象叠在一起的大脑。

2. 架构与核心发现

架构上没什么革命性创新——延续 GPT-2 的 Decoder-only。除了两点值得提：

稀疏注意力：在 175B 参数下，全注意力谁都付不起——用局部稀疏模式降本增效（后来被证明效果有限，后续模型抛弃了）
Pre-LN：前面提过的 LayerNorm"搬家"，从 Post-LN 改到 Pre-LN，96 层的训练稳定性全靠它

真正的突破是 Scaling Laws 的实证发现——模型性能随参数、数据和算力按幂律增长，远没有看到天花板。 你给它更多，它就变得更强，朴素到令人害怕。

还有个惊艳的新能力：In-Context Learning（上下文学习）。

问：法国的首都是？答：巴黎
问：日本的首都是？答：东京
问：澳大利亚的首都是？

它回答 "堪培拉"，而不是"悉尼"。它理解了你在做问答。你没训练它做问答，你只是给了几个例子它就懂了。 像极了考试时偷看前面几道题答案然后悟出出题规律的学生——只是这个学生有 1750 亿个神经元。

3. 影响与吐槽

GPT-3 让整个 AI 界看到了**"大力出奇迹"**的可行性。Scaling Laws 从此成了大模型训练的圣经——训不动？加参数。还训不动？加数据。再训不动？加算力。

但 GPT-3 的问题和它的参数一样显眼：

输出有毒有害——内部报告显示生成贬低特定群体的内容概率不低
指令遵循差——你让它"用简单语言解释"，它依然给大学教授级别的回答
幻觉严重——编造事实的自信程度堪比喝了三杯酒的销售冠军

💡 GPT-3 证明了"大力能出奇迹"，但也暴露了"光靠大力不够"——它成了连接 GPT（2018）与 ChatGPT（2022）的关键桥梁。

【2022】四、ChatGPT —— "对齐"不再是论文里的概念

1. 背景

GPT-3 很强，但也很难用。你问它"写一封请假的邮件"，它可能直接给你写篇小说——不是它不听话，是它不懂什么叫"听话"。

OpenAI 意识到：模型的能力已经够了，缺的是"可操控性"。 2022 年初的 InstructGPT 先验证了 RLHF 的效果，年底 ChatGPT 正式上线，目标是让模型有用、无害、诚实。

2. 架构：RLHF 三件套

基座还是 GPT-3.5/GPT-4 的 Decoder-only Transformer。架构本身没有颠覆性改动——成功不来自架构突破，来自数据工程和训练范式的进化。

核心增量是三阶段训练的文艺复兴：

阶段	名称	干什么
Step 1	SFT（监督微调）	人标一批优质问答对，让模型先学会"像个人一样回答"
Step 2	RM（奖励模型训练）	让人类对多个回答排序，训练一个打分器
Step 3	PPO（强化学习优化）	用奖励模型当教练，RL 优化策略——让模型学会说"好话"

简单来说：先看标准答案 → 学会分辨好坏 → 自我迭代。

ChatGPT 还熟练运用了 GPT-3 就有的 In-Context Learning——只需要在 prompt 里放几个例子，不需要微调就能引导模型行为。

3. 影响与评价

ChatGPT 首次让大模型从研究工具变成大众产品，上线 5 天用户破百万，2 个月破亿——历史上增长最快的产品。RLHF 从此成为对齐的标准范式。

客观评价：ChatGPT 的成功更多来自产品化与数据工程，而非架构突破。 Decoder-only + RLHF 的组合成为后续所有模型的默认配方。

【2023】五、LLaMA —— 开源生态的"奇点"

1. 背景

到 2023 年，GPT 系列证明了 Decoder-only 的最优性，但都是闭源的。学术界急需一个可复现的高性能基础模型。

Meta 发布了 LLaMA，目标是在有限算力预算下训练出能打的基础模型。7B、13B、33B、65B 四个尺寸，选择了一条反直觉的路——用小模型 + 好数据 + 久训练。

2. 架构：成熟的 Decoder-only

跟 GPT-3 比：

同：Decoder-only、Causal Mask、Pre-Norm
异：去掉了 GPT-3 的稀疏注意力，全面稠密 Transformer；用 RMSNorm（更轻量的 LayerNorm 简化版——去均质化、只保留缩放）；RoPE 旋转位置编码替代绝对位置编码；SwiGLU 激活函数替代 ReLU

RoPE 是什么？ 不是做寿司的 🤣。Rotary Position Embedding 的核心思想是通过旋转矩阵把位置信息编码进注意力计算。好处是：

长度外推能力强——训练时只有 2K，推理时能到 32K+
不需要额外的位置向量，省参数

3. 影响与评价

LLaMA 证明了**"小模型 + 好数据 + 久训练"** 的可行。引爆了开源大模型生态——Alpaca、Vicuna、Llama 2/3 全系列。在其之上长出了整个开源 LLM 的森林。

但稠密架构的天花板很明显：推理成本随参数线性增长。7B 占 14GB 显存，70B 就要 140GB。到几百亿参数，这个线性增长就不能忍了。

【2024/12】六、DeepSeek-V3 —— "穷人的雄心和富人的算法"

1. 背景

2024 年，行业共识是"算力即壁垒"——谁 GPU 多谁赢。DeepSeek 偏不信邪，选择了算法效率优先的路线。

2024 年 12 月，V3 发布。557.6 万美元训练成本——GPT-4 训练成本的零头。

671B 总参数，逼近 GPT-4o 的性能。整个 AI 圈都安静了。

2. 架构：MLA + MoE 的致命组合

MoE（混合专家） ——不是独家创新，但 DeepSeek 做得最好

总参数 671B，但每次推理只激活 37B
1 个共享专家（大家都用的通用知识）+ 8 个路由专家（按需分配）
成本降低到稠密架构的 1/18

MLA（多头潜在注意力） ——DeepSeek 的亲儿子发明传统 MHA 的 KV Cache 随上下文线性增长：128K 上下文的 KV Cache 在 671B 模型上能吃掉几百 GB 显存。

MLA 的骚操作是低秩压缩：

传统：K = x × W_K    → 存储完整 K（x hidden_dim × seq_len）
MLA：  K = x × W_KD   → 投影到低维 → 再展开
          ↑ 压缩！    ↑ 恢复

KV Cache 削减到传统 MHA 的 1/8 左右。长上下文推理不再被显存卡脖子。

FP8 混合精度训练——首次在超大规模模型上验证 FP8 可行的不是 NVIDIA，是 DeepSeek。

MTP（多 Token 预测）——每步不止预测下一个 token，还预测未来几个。有点"下棋想三步"的意思，数据效率和解码速度都上去了。

3. 影响与评价

DeepSeek-V3 证明了**"算法创新可以对冲算力劣势"**。MLA 与 MoE 的组合成为 2025 年所有新模型的参考模板。

客观评价：训练成本优势部分源于极致的工程优化（4090 集群、PTX 汇编手调），但 MoE 的负载均衡、通信开销仍是复杂挑战。MIT 协议开源的策略让其成为 2025 年全球最被复现的架构之一。至今已衍生出数百个微调版本。

【2025】七、DeepSeek-R1 & o1 —— 学会"先想清楚再说话"

1. 背景

ChatGPT 以来的模型侧重"快思考"——你问它就答，拼的是知识面和语言组织能力。但面对复杂推理（数学竞赛、逻辑谜题、代码调试），这些模型要么答错，要么消耗大量 token 反复纠错。

2024 年 9 月，OpenAI 推出 o1，首次将内化的长思考链（Chain-of-Thought） 引入推理过程——让模型在回答前先花时间"想清楚"。不是训练时，是推理时。

2. 关键突破

DeepSeek-R1（2025 年 1 月） 开源推理模型标杆。核心发现令人震惊：纯强化学习（RL）就能激发出推理能力，不需要 SFT 阶段。

传统：SFT（学知识）→ RL（学对齐）
R1：  RL（从零学思考）→ 自然涌现推理能力

R1 还引入了推理蒸馏——把大模型的推理链蒸馏到小模型里，让 7B 参数的小模型也能做复杂推理。

o1 / o3（OpenAI） 引入私有思维链（Private Chain-of-Thought）——模型内部生成隐藏推理步骤，推理完后输出答案，推理过程不暴露给用户。就像你用草稿纸算完数学题然后只告诉别人答案。

在数学竞赛（AIME）、编程竞赛（Codeforces）上比上一代模型高 30-50 个百分点。

Kimi K1.5（2025 年 1 月） 统一框架：长上下文 + RL。同时搞定推理深度和响应速度，不走极端。

3. 影响与评价

推理模型的兴起是"后 ChatGPT 时代"的第一个新维度。竞争焦点从"谁更会聊天"转向"谁更会思考"。 o1、R1 等的共同启示是：模型不需要更大的脑，而是需要更好的"思考方式"。

这也为后续 DeepSeek V4 和 Kimi K2 的 Agent 能力奠定了基础——推理能力内化后，Agent 才能真正做自主决策，而不只是"套个 prompt 调 API"。

【2025–2026】八、Kimi K2/K2.5 与 DeepSeek V4 —— "你中有我，我中有你"

1. 背景

进入 2025 年，中国两大开源模型团队的技术路线出现了有趣的技术交叉授粉：

Kimi 用了 DeepSeek 的 MLA——"这个注意力压缩方案真好用，我拿去训万亿参数"
DeepSeek 用了 Kimi 的 Muon 优化器——"Adam 你很好，但十年了该换换了"

一个省推理成本，一个省训练成本。 叠加在一起，万亿参数模型的训练和部署门槛大幅下降。

2. 共同技术底座

技术	Kimi K2/K2.5	DeepSeek V4	一起解决了什么
MoE	1T / 32B 激活，384 专家	1.6T，稀疏激活	参数量换能力，稀疏性换效率
MLA	DeepSeek 的发明，Kimi 发扬到万亿级	持续优化，KV Cache 缩到 1/10	长上下文推理不再需要堆显存
Muon 优化器	MuonClip（加了 QK-Clip），15.5T token 零 loss spike	全球第一个在旗舰模型上换掉 Adam 的大团队	训练更稳、收敛更快、token 效率更高
长上下文	Kimi Linear（混合线性注意力），256K–1M	百万 token 上下文普惠化	打破"上下文越长越慢"的诅咒
Agent	Agent Swarm（100+ 子 Agent 并行）	推理能力内化，Agent 层变薄	从聊天工具变生产力系统

Muon 优化器是什么？ 传统优化器 Adam 是一阶方法——只看梯度大小调整学习率。Muon 是二阶矩阵正交化——不仅看梯度大小，还看梯度方向，把参数更新路径拉直。

😲 可以这样理解：

Adam：你闭着眼睛摸黑下山，每一步试试脚感
Muon：你睁着眼睛看地图，知道哪条路最短

Kimi Linear（混合线性注意力）呢？ 传统注意力是 O(n²) 复杂度——1000 个 token 算 100 万次，100 万 token 就要算 ... 1 万亿次，复杂度是平方级增长的诅咒。

Kimi Linear 的思路是：短距离用精确注意力（O(n²) 但 n 很小），长距离用线性近似注意力（O(n)）。 像你交朋友——附近的朋友多花时间深入了解，远方的朋友保持联系但不用天天见面。

3. 影响与评价

Kimi 与 DeepSeek 的技术互嵌标志着中国开源模型从"单点突破"进入"共建底座"。

这一阶段的创新重心已经从"堆参数"转向**"堆效率"**——Token 效率、长上下文、Agent 协作成为新的 Scaling 维度。

当然，挑战依然存在：

MoE 的专家负载均衡——某些专家学成了"万能专家"，其他专家偷懒
线性注意力的精度损失——近似计算在长程关联上的误差
Muon 的泛化性——在超大规模上跑通确实厉害，换个架构还能否同样有效？

两家在开源上的竞合，正在共同定义下一代大模型的技术栈标准。

结语

从 2017 年 Transformer 的 Encoder-Decoder，到 2018 年 BERT/GPT 范式分叉，再到 GPT-3 验证 Scaling Laws、ChatGPT 完成对齐工程化、LLaMA 点燃开源、DeepSeek-V3 用 MLA+MoE 打破算力垄断、推理模型重新定义"智能"的维度，直至 Kimi 与 DeepSeek 共建万亿参数效率底座——

Transformer 的演进史，本质上是一部"用架构创新换效率"的历史。

当线性注意力与二阶优化器成为标配，当推理即服务普惠化，大模型的竞争将真正进入 "智能密度" 而非"参数规模"的维度。未来十年的大模型，可能会比过去这八年更精彩。

—— 从 Attention Is All You Need 到万亿参数 MoE，八章讲完八年。🧠