Transformer 演进史:从 Attention Is All You Need 到万亿参数 MoE

74 阅读19分钟

本文按架构演进的逻辑线展开,而非严格的时间排序。当多个重要工作发生在相近时期时,优先按技术继承关系组织。温馨提示:本文约 6000 字,有点像一部 AI 技术圈的历史纪录片——建议泡杯茶,慢慢看。


【2017】一、Transformer —— "首先,Attention 真的是 All You Need"

1. 背景:RNN 的痛,我们懂

2017 年以前,NLP 世界被 RNN 和 LSTM 统治着。

你输入一句 "I love cats",RNN 老实巴交地一个字一个字读:I → love → cats。读完第一个字才能读第二个。

串行。慢。健忘。

句子稍微长点——"I love cats but they scratched my sofa last Tuesday at 3pm when I was..."——RNN 读到后半句,已经忘了 cats 是什么了。这叫长程依赖衰减,是 RNN 的基因缺陷。

Google Brain 团队一拍桌子:能不能一次性看完,再找关联?

于是 Transformer 诞生了。它的核心思想简单到离谱:用自注意力(Self-Attention)完全取代循环结构。每个词和所有词做一次"相关性打分",没有先后顺序,所以可以并行计算。

2. 架构:四菜一汤的 Encoder-Decoder

经典 Encoder-Decoder 结构,每边 6 层一模一样的层叠。

Encoder(编码器)— 阅读理解满分选手 每层两件套:

组件干什么的用大白话说
Multi-Head Self-Attention多头自注意力让每个词"看"到所有词,找出谁和谁有关系
Position-wise FFN前馈神经网络每个位置自己做一次深度推理

Decoder(解码器)— 写作文的 多了两个东西:

  • Cross-Attention(交叉注意力):写下一句的时候回头看看原文说了什么
  • Masked Self-Attention:只能看前面已经写好的内容,不能偷看未来的词——需要点公平竞争的体育精神

🔬 深度拆解:Self-Attention 到底是怎么算的?

第一步:Q、K、V 三剑客

每个输入 token 会生成三个向量。它们不是凭空变出来的:

每个词向量 x → 乘 W_Q → Q(Query)
             → 乘 W_K → K(Key)
             → 乘 W_V → V(Value)

W_Q、W_K、W_V 是可学习的投影矩阵,相当于同一个演员在三部电影里扮演不同的角色——底子是同一个人的脸(词向量),但化妆(投影矩阵)让你看起来完全不一样。

用直觉理解 Q、K、V:

  • Q(Query):相当于你在问"我该关注谁?"
  • K(Key):相当于别人回答"我有什么值得关注的?"
  • V(Value):相当于"我的实际内容是啥?"

💡 一个不那么正经但很贴切的理解:Q 是"你想要什么?",K 是"我有什么?",V 是"哝,给你"。 渣男式注意力机制。

第二步:算 Attention Score

Attention(Q, K, V) = softmax(Q × K^T / √d_k) × V
                      ↑            ↑          ↑
                相关性矩阵      防爆炸散热器    加权求和

拆开看:

  1. Q × K^T:每个词和每个词算点积,得到一个 N×N 的相关性矩阵。如果画成热力图,"猫"和"沙发" 那个格子是深红色,而 "沙发"和"的" 可能只是浅黄。
  2. ÷ √d_k:点积的结果随维度增大而膨胀,除一个 d_k 的平方根,防止 softmax 进入饱和区——相当于 CPU 上加了散热器。
  3. softmax:把分数归一化成和为 1 的概率分布。
  4. × V:按关注度加权求和,得到最终的上下文表示。

第三步:多头并行

一个注意力头只能关注一种关系,那八个呢

MultiHead(Q, K, V) = Concat(head_1, ..., head_8) × W_O

每个 head 有自己独立的 W_Q、W_K、W_V,关注不同的语义维度:

  • 头 1 关注谁和谁的语法关系
  • 头 2 关注时间先后
  • 头 3 关注情感色彩
  • 头 4 关注指代关系

就像请了 8 个不同领域的专家同时分析同一段话,然后汇总意见。 这就是"多头"的威力。


3. 其他不得不提的三板斧

Positional Encoding(位置编码) 因为是并行读入,模型不知道"I"在前还是"cats"在后。Transformer 用了三角函数的巧妙设计——不同频率的正弦/余弦波叠加,给每个位置一个唯一的"指纹"。让模型能区分"猫在我前面"还是"我前面是猫"——这区别可大了。

残差连接(Residual Connection) 跨层直连:output = Layer(x) + x。寓意简单粗暴:"如果这层学不到啥,至少原样传下去不损失。" 这让 100+ 层的深层网络训练成为可能。

LayerNorm(层归一化) 原始 Transformer 用的是 Post-LN(LayerNorm 在残差连接之后)。后来大家发现 Post-LN 在深层训练时不够稳,GPT-3 改成了 Pre-LN(LayerNorm 放前面)。别看只是个"搬家"——训到 96 层的时候,这点稳定性差异就是天壤之别。

4. 影响与吐槽

Transformer 奠定了 LLM 时代的地基。完全并行、全局感受野——训练效率上了个数量级,长程依赖不再衰减。

但也要吐槽下:

  • Encoder-Decoder 对自回归生成任务来说有点"杀鸡用牛刀"——你要生成本来只需要 Decoder,Encoder 纯属占地方
  • 原始论文参数量才 6500 万——放到今天连个玩具模型都算不上,随便一个 LoRA 适配器都不止这点参数

当时没人能想到,这个 65M 的小东西会在 8 年后长成 万亿参数 的庞然大物。


【2018】二、BERT vs GPT —— Decoder-only 的"真香"之路

1. 背景:同一个起点,完全不同的方向

2018 年,NLP 圈开始探索"预训练 + 微调"范式。Google 和 OpenAI 同时发力,但选择了完全相反的技术路线:

  • BERT:我要你读一篇文章然后回答问题(理解任务)
  • GPT:我要你写点东西出来(生成任务)

两条路线从同一个岔路口分道扬镳,走向了截然不同的命运。

2. 架构对比

维度BERT(Encoder-only)GPT(Decoder-only)
Mask 方式MLM(双向遮罩)CLM(因果遮罩)
预训练任务完形填空 + 句子连续性判断预测下一个 token
注意力范围双向(前后文都能看)单向(只能看左边)
超能力深度理解语义、分类/抽取自回归生成、续写
诅咒没法自回归生成理解任务受限
学术类比🏫 高考学霸——看完卷子再作答🎤 即兴脱口秀演员——边说边想下一句

BERT(Encoder-only) 的关键创新是 Masked Language Model(MLM)

给你一句 "I [MASK] cats" ——猜猜 [MASK] 是什么? 正确答案:"love"

模型必须双向观察上下文来预测被遮住的词——左边是 "I",右边是 "cats",两个方向的信息都得用上。这让 BERT 被迫建立起对句子语义的深度理解。

额外加点料:Next Sentence Prediction(NSP)——给你两句话,判断它们是不是连续的。目标:强化句子级别的理解。不过后来 RoBERTa 发现 NSP 其实没啥用,直接把它砍了性能还更好——打脸来得如此之快。

GPT(Decoder-only) 的关键创新是 Causal Language Model(CLM)

给你 "I love",猜下一个词。"cats" 的概率应该远高于 "bananas"

每个 token 只能用前面的 token 来预测。看起来是给自己戴了枷锁——但恰恰是这层枷锁让它天然适配生成任务。生成时一个 token 一个 token 往前推,和预训练时的行为完全一致,没有"训练-推理不匹配"的问题。

3. 历史反转

当时大家都觉得 BERT 才是未来——在 GLUE 排行榜上全面碾压 GPT,BERT-Large 在 11 个任务中霸榜。看起来"理解"比"生成"重要得多。

结果呢?😏

GPT 那条看似狭窄的路,最后通向的是 AGI 的康庄大道。 Decoder-only 胜出的根本原因不是因为它比 BERT"好",而是生成任务比理解任务更接近通用智能——能写代码、能聊天、能推理的模型,比只能做分类的模型更通用。当然,如果你的需求就是分类 10 万条影评的情感倾向,BERT 到今天依然很能打。

客观说:Encoder-only 与 Decoder-only 的分野不是谁对谁错,而是任务导向的自然选择。


【2020】三、GPT-3 —— "大就是好"的暴力美学

1. 背景:当年所有人都傻眼了

2018 到 2020 年间,各路模型在 GLUE 上你争我夺,参数从 BERT-Large 的 340M 涨到 T5 的 11B。但大家并没有真正意识到规模的魔力——直到 OpenAI 在 2020 年扔出了 GPT-3。

1750 亿参数,96 层 Transformer 层,12288 维隐藏层,96 个注意力头。

对比一下:GPT-1 才 1.17 亿参数,GPT-2 也才 15 亿。GPT-3 的参数量是 GPT-2 的 116 倍。 如果 GPT-2 的大脑是老鼠级别,GPT-3 就是大象级别——而且不是一只大象,是 116 只大象叠在一起的大脑。

2. 架构与核心发现

架构上没什么革命性创新——延续 GPT-2 的 Decoder-only。除了两点值得提:

  • 稀疏注意力:在 175B 参数下,全注意力谁都付不起——用局部稀疏模式降本增效(后来被证明效果有限,后续模型抛弃了)
  • Pre-LN:前面提过的 LayerNorm"搬家",从 Post-LN 改到 Pre-LN,96 层的训练稳定性全靠它

真正的突破是 Scaling Laws 的实证发现——模型性能随参数、数据和算力按幂律增长,远没有看到天花板。 你给它更多,它就变得更强,朴素到令人害怕。

还有个惊艳的新能力:In-Context Learning(上下文学习)

问:法国的首都是?答:巴黎
问:日本的首都是?答:东京
问:澳大利亚的首都是?

它回答 "堪培拉",而不是"悉尼"。它理解了你在做问答。你没训练它做问答,你只是给了几个例子它就懂了。 像极了考试时偷看前面几道题答案然后悟出出题规律的学生——只是这个学生有 1750 亿个神经元。

3. 影响与吐槽

GPT-3 让整个 AI 界看到了**"大力出奇迹"**的可行性。Scaling Laws 从此成了大模型训练的圣经——训不动?加参数。还训不动?加数据。再训不动?加算力。

但 GPT-3 的问题和它的参数一样显眼:

  • 输出有毒有害——内部报告显示生成贬低特定群体的内容概率不低
  • 指令遵循差——你让它"用简单语言解释",它依然给大学教授级别的回答
  • 幻觉严重——编造事实的自信程度堪比喝了三杯酒的销售冠军

💡 GPT-3 证明了"大力能出奇迹",但也暴露了"光靠大力不够"——它成了连接 GPT(2018)与 ChatGPT(2022)的关键桥梁。


【2022】四、ChatGPT —— "对齐"不再是论文里的概念

1. 背景

GPT-3 很强,但也很难用。你问它"写一封请假的邮件",它可能直接给你写篇小说——不是它不听话,是它不懂什么叫"听话"。

OpenAI 意识到:模型的能力已经够了,缺的是"可操控性"。 2022 年初的 InstructGPT 先验证了 RLHF 的效果,年底 ChatGPT 正式上线,目标是让模型有用、无害、诚实

2. 架构:RLHF 三件套

基座还是 GPT-3.5/GPT-4 的 Decoder-only Transformer。架构本身没有颠覆性改动——成功不来自架构突破,来自数据工程和训练范式的进化。

核心增量是三阶段训练的文艺复兴:

阶段名称干什么
Step 1SFT(监督微调)人标一批优质问答对,让模型先学会"像个人一样回答"
Step 2RM(奖励模型训练)让人类对多个回答排序,训练一个打分器
Step 3PPO(强化学习优化)用奖励模型当教练,RL 优化策略——让模型学会说"好话"

简单来说:先看标准答案 → 学会分辨好坏 → 自我迭代。

ChatGPT 还熟练运用了 GPT-3 就有的 In-Context Learning——只需要在 prompt 里放几个例子,不需要微调就能引导模型行为。

3. 影响与评价

ChatGPT 首次让大模型从研究工具变成大众产品,上线 5 天用户破百万,2 个月破亿——历史上增长最快的产品。RLHF 从此成为对齐的标准范式。

客观评价:ChatGPT 的成功更多来自产品化与数据工程,而非架构突破。 Decoder-only + RLHF 的组合成为后续所有模型的默认配方。


【2023】五、LLaMA —— 开源生态的"奇点"

1. 背景

到 2023 年,GPT 系列证明了 Decoder-only 的最优性,但都是闭源的。学术界急需一个可复现的高性能基础模型

Meta 发布了 LLaMA,目标是在有限算力预算下训练出能打的基础模型。7B、13B、33B、65B 四个尺寸,选择了一条反直觉的路——用小模型 + 好数据 + 久训练

2. 架构:成熟的 Decoder-only

跟 GPT-3 比:

  • :Decoder-only、Causal Mask、Pre-Norm
  • :去掉了 GPT-3 的稀疏注意力,全面稠密 Transformer;用 RMSNorm(更轻量的 LayerNorm 简化版——去均质化、只保留缩放);RoPE 旋转位置编码替代绝对位置编码;SwiGLU 激活函数替代 ReLU

RoPE 是什么? 不是做寿司的 🤣。Rotary Position Embedding 的核心思想是通过旋转矩阵把位置信息编码进注意力计算。好处是:

  • 长度外推能力强——训练时只有 2K,推理时能到 32K+
  • 不需要额外的位置向量,省参数

3. 影响与评价

LLaMA 证明了**"小模型 + 好数据 + 久训练"** 的可行。引爆了开源大模型生态——Alpaca、Vicuna、Llama 2/3 全系列。在其之上长出了整个开源 LLM 的森林。

但稠密架构的天花板很明显:推理成本随参数线性增长。7B 占 14GB 显存,70B 就要 140GB。到几百亿参数,这个线性增长就不能忍了。


【2024/12】六、DeepSeek-V3 —— "穷人的雄心和富人的算法"

1. 背景

2024 年,行业共识是"算力即壁垒"——谁 GPU 多谁赢。DeepSeek 偏不信邪,选择了算法效率优先的路线。

2024 年 12 月,V3 发布。557.6 万美元训练成本——GPT-4 训练成本的零头。

671B 总参数,逼近 GPT-4o 的性能。整个 AI 圈都安静了。

2. 架构:MLA + MoE 的致命组合

MoE(混合专家) ——不是独家创新,但 DeepSeek 做得最好

  • 总参数 671B,但每次推理只激活 37B
  • 1 个共享专家(大家都用的通用知识)+ 8 个路由专家(按需分配)
  • 成本降低到稠密架构的 1/18

MLA(多头潜在注意力) ——DeepSeek 的亲儿子发明 传统 MHA 的 KV Cache 随上下文线性增长:128K 上下文的 KV Cache 在 671B 模型上能吃掉几百 GB 显存。

MLA 的骚操作是低秩压缩

传统:K = x × W_K    → 存储完整 K(x hidden_dim × seq_len)
MLA:  K = x × W_KD   → 投影到低维 → 再展开
          ↑ 压缩!    ↑ 恢复

KV Cache 削减到传统 MHA 的 1/8 左右。长上下文推理不再被显存卡脖子。

FP8 混合精度训练——首次在超大规模模型上验证 FP8 可行的不是 NVIDIA,是 DeepSeek。

MTP(多 Token 预测)——每步不止预测下一个 token,还预测未来几个。有点"下棋想三步"的意思,数据效率和解码速度都上去了。

3. 影响与评价

DeepSeek-V3 证明了**"算法创新可以对冲算力劣势"**。MLA 与 MoE 的组合成为 2025 年所有新模型的参考模板。

客观评价:训练成本优势部分源于极致的工程优化(4090 集群、PTX 汇编手调),但 MoE 的负载均衡、通信开销仍是复杂挑战。MIT 协议开源的策略让其成为 2025 年全球最被复现的架构之一。至今已衍生出数百个微调版本。


【2025】七、DeepSeek-R1 & o1 —— 学会"先想清楚再说话"

1. 背景

ChatGPT 以来的模型侧重"快思考"——你问它就答,拼的是知识面和语言组织能力。但面对复杂推理(数学竞赛、逻辑谜题、代码调试),这些模型要么答错,要么消耗大量 token 反复纠错。

2024 年 9 月,OpenAI 推出 o1,首次将内化的长思考链(Chain-of-Thought) 引入推理过程——让模型在回答前先花时间"想清楚"。不是训练时,是推理时。

2. 关键突破

DeepSeek-R1(2025 年 1 月) 开源推理模型标杆。核心发现令人震惊:纯强化学习(RL)就能激发出推理能力,不需要 SFT 阶段。

传统:SFT(学知识)→ RL(学对齐)
R1:  RL(从零学思考)→ 自然涌现推理能力

R1 还引入了推理蒸馏——把大模型的推理链蒸馏到小模型里,让 7B 参数的小模型也能做复杂推理。

o1 / o3(OpenAI) 引入私有思维链(Private Chain-of-Thought)——模型内部生成隐藏推理步骤,推理完后输出答案,推理过程不暴露给用户。就像你用草稿纸算完数学题然后只告诉别人答案。

在数学竞赛(AIME)、编程竞赛(Codeforces)上比上一代模型高 30-50 个百分点。

Kimi K1.5(2025 年 1 月) 统一框架:长上下文 + RL。同时搞定推理深度和响应速度,不走极端。

3. 影响与评价

推理模型的兴起是"后 ChatGPT 时代"的第一个新维度。竞争焦点从"谁更会聊天"转向"谁更会思考"。 o1、R1 等的共同启示是:模型不需要更大的脑,而是需要更好的"思考方式"。

这也为后续 DeepSeek V4 和 Kimi K2 的 Agent 能力奠定了基础——推理能力内化后,Agent 才能真正做自主决策,而不只是"套个 prompt 调 API"。


【2025–2026】八、Kimi K2/K2.5 与 DeepSeek V4 —— "你中有我,我中有你"

1. 背景

进入 2025 年,中国两大开源模型团队的技术路线出现了有趣的技术交叉授粉

  • Kimi 用了 DeepSeek 的 MLA——"这个注意力压缩方案真好用,我拿去训万亿参数"
  • DeepSeek 用了 Kimi 的 Muon 优化器——"Adam 你很好,但十年了该换换了"

一个省推理成本,一个省训练成本。 叠加在一起,万亿参数模型的训练和部署门槛大幅下降。

2. 共同技术底座

技术Kimi K2/K2.5DeepSeek V4一起解决了什么
MoE1T / 32B 激活,384 专家1.6T,稀疏激活参数量换能力,稀疏性换效率
MLADeepSeek 的发明,Kimi 发扬到万亿级持续优化,KV Cache 缩到 1/10长上下文推理不再需要堆显存
Muon 优化器MuonClip(加了 QK-Clip),15.5T token 零 loss spike全球第一个在旗舰模型上换掉 Adam 的大团队训练更稳、收敛更快、token 效率更高
长上下文Kimi Linear(混合线性注意力),256K–1M百万 token 上下文普惠化打破"上下文越长越慢"的诅咒
AgentAgent Swarm(100+ 子 Agent 并行)推理能力内化,Agent 层变薄从聊天工具变生产力系统

Muon 优化器是什么? 传统优化器 Adam 是一阶方法——只看梯度大小调整学习率。Muon 是二阶矩阵正交化——不仅看梯度大小,还看梯度方向,把参数更新路径拉直。

😲 可以这样理解:

  • Adam:你闭着眼睛摸黑下山,每一步试试脚感
  • Muon:你睁着眼睛看地图,知道哪条路最短

Kimi Linear(混合线性注意力)呢? 传统注意力是 O(n²) 复杂度——1000 个 token 算 100 万次,100 万 token 就要算 ... 1 万亿次,复杂度是平方级增长的诅咒

Kimi Linear 的思路是:短距离用精确注意力(O(n²) 但 n 很小),长距离用线性近似注意力(O(n))。 像你交朋友——附近的朋友多花时间深入了解,远方的朋友保持联系但不用天天见面。

3. 影响与评价

Kimi 与 DeepSeek 的技术互嵌标志着中国开源模型从"单点突破"进入"共建底座"

这一阶段的创新重心已经从"堆参数"转向**"堆效率"**——Token 效率、长上下文、Agent 协作成为新的 Scaling 维度。

当然,挑战依然存在:

  • MoE 的专家负载均衡——某些专家学成了"万能专家",其他专家偷懒
  • 线性注意力的精度损失——近似计算在长程关联上的误差
  • Muon 的泛化性——在超大规模上跑通确实厉害,换个架构还能否同样有效?

两家在开源上的竞合,正在共同定义下一代大模型的技术栈标准


结语

从 2017 年 Transformer 的 Encoder-Decoder,到 2018 年 BERT/GPT 范式分叉,再到 GPT-3 验证 Scaling Laws、ChatGPT 完成对齐工程化、LLaMA 点燃开源、DeepSeek-V3 用 MLA+MoE 打破算力垄断、推理模型重新定义"智能"的维度,直至 Kimi 与 DeepSeek 共建万亿参数效率底座——

Transformer 的演进史,本质上是一部"用架构创新换效率"的历史。

当线性注意力与二阶优化器成为标配,当推理即服务普惠化,大模型的竞争将真正进入 "智能密度" 而非"参数规模"的维度。未来十年的大模型,可能会比过去这八年更精彩。


—— 从 Attention Is All You Need 到万亿参数 MoE,八章讲完八年。🧠