本文按架构演进的逻辑线展开,而非严格的时间排序。当多个重要工作发生在相近时期时,优先按技术继承关系组织。温馨提示:本文约 6000 字,有点像一部 AI 技术圈的历史纪录片——建议泡杯茶,慢慢看。
【2017】一、Transformer —— "首先,Attention 真的是 All You Need"
1. 背景:RNN 的痛,我们懂
2017 年以前,NLP 世界被 RNN 和 LSTM 统治着。
你输入一句 "I love cats",RNN 老实巴交地一个字一个字读:I → love → cats。读完第一个字才能读第二个。
串行。慢。健忘。
句子稍微长点——"I love cats but they scratched my sofa last Tuesday at 3pm when I was..."——RNN 读到后半句,已经忘了 cats 是什么了。这叫长程依赖衰减,是 RNN 的基因缺陷。
Google Brain 团队一拍桌子:能不能一次性看完,再找关联?
于是 Transformer 诞生了。它的核心思想简单到离谱:用自注意力(Self-Attention)完全取代循环结构。每个词和所有词做一次"相关性打分",没有先后顺序,所以可以并行计算。
2. 架构:四菜一汤的 Encoder-Decoder
经典 Encoder-Decoder 结构,每边 6 层一模一样的层叠。
Encoder(编码器)— 阅读理解满分选手 每层两件套:
| 组件 | 干什么的 | 用大白话说 |
|---|---|---|
| Multi-Head Self-Attention | 多头自注意力 | 让每个词"看"到所有词,找出谁和谁有关系 |
| Position-wise FFN | 前馈神经网络 | 每个位置自己做一次深度推理 |
Decoder(解码器)— 写作文的 多了两个东西:
- Cross-Attention(交叉注意力):写下一句的时候回头看看原文说了什么
- Masked Self-Attention:只能看前面已经写好的内容,不能偷看未来的词——需要点公平竞争的体育精神
🔬 深度拆解:Self-Attention 到底是怎么算的?
第一步:Q、K、V 三剑客
每个输入 token 会生成三个向量。它们不是凭空变出来的:
每个词向量 x → 乘 W_Q → Q(Query)
→ 乘 W_K → K(Key)
→ 乘 W_V → V(Value)
W_Q、W_K、W_V 是可学习的投影矩阵,相当于同一个演员在三部电影里扮演不同的角色——底子是同一个人的脸(词向量),但化妆(投影矩阵)让你看起来完全不一样。
用直觉理解 Q、K、V:
- Q(Query):相当于你在问"我该关注谁?"
- K(Key):相当于别人回答"我有什么值得关注的?"
- V(Value):相当于"我的实际内容是啥?"
💡 一个不那么正经但很贴切的理解:Q 是"你想要什么?",K 是"我有什么?",V 是"哝,给你"。 渣男式注意力机制。
第二步:算 Attention Score
Attention(Q, K, V) = softmax(Q × K^T / √d_k) × V
↑ ↑ ↑
相关性矩阵 防爆炸散热器 加权求和
拆开看:
- Q × K^T:每个词和每个词算点积,得到一个 N×N 的相关性矩阵。如果画成热力图,"猫"和"沙发" 那个格子是深红色,而 "沙发"和"的" 可能只是浅黄。
- ÷ √d_k:点积的结果随维度增大而膨胀,除一个 d_k 的平方根,防止 softmax 进入饱和区——相当于 CPU 上加了散热器。
- softmax:把分数归一化成和为 1 的概率分布。
- × V:按关注度加权求和,得到最终的上下文表示。
第三步:多头并行
一个注意力头只能关注一种关系,那八个呢?
MultiHead(Q, K, V) = Concat(head_1, ..., head_8) × W_O
每个 head 有自己独立的 W_Q、W_K、W_V,关注不同的语义维度:
- 头 1 关注谁和谁的语法关系
- 头 2 关注时间先后
- 头 3 关注情感色彩
- 头 4 关注指代关系
就像请了 8 个不同领域的专家同时分析同一段话,然后汇总意见。 这就是"多头"的威力。
3. 其他不得不提的三板斧
Positional Encoding(位置编码) 因为是并行读入,模型不知道"I"在前还是"cats"在后。Transformer 用了三角函数的巧妙设计——不同频率的正弦/余弦波叠加,给每个位置一个唯一的"指纹"。让模型能区分"猫在我前面"还是"我前面是猫"——这区别可大了。
残差连接(Residual Connection)
跨层直连:output = Layer(x) + x。寓意简单粗暴:"如果这层学不到啥,至少原样传下去不损失。" 这让 100+ 层的深层网络训练成为可能。
LayerNorm(层归一化) 原始 Transformer 用的是 Post-LN(LayerNorm 在残差连接之后)。后来大家发现 Post-LN 在深层训练时不够稳,GPT-3 改成了 Pre-LN(LayerNorm 放前面)。别看只是个"搬家"——训到 96 层的时候,这点稳定性差异就是天壤之别。
4. 影响与吐槽
Transformer 奠定了 LLM 时代的地基。完全并行、全局感受野——训练效率上了个数量级,长程依赖不再衰减。
但也要吐槽下:
- Encoder-Decoder 对自回归生成任务来说有点"杀鸡用牛刀"——你要生成本来只需要 Decoder,Encoder 纯属占地方
- 原始论文参数量才 6500 万——放到今天连个玩具模型都算不上,随便一个 LoRA 适配器都不止这点参数
当时没人能想到,这个 65M 的小东西会在 8 年后长成 万亿参数 的庞然大物。
【2018】二、BERT vs GPT —— Decoder-only 的"真香"之路
1. 背景:同一个起点,完全不同的方向
2018 年,NLP 圈开始探索"预训练 + 微调"范式。Google 和 OpenAI 同时发力,但选择了完全相反的技术路线:
- BERT:我要你读一篇文章然后回答问题(理解任务)
- GPT:我要你写点东西出来(生成任务)
两条路线从同一个岔路口分道扬镳,走向了截然不同的命运。
2. 架构对比
| 维度 | BERT(Encoder-only) | GPT(Decoder-only) |
|---|---|---|
| Mask 方式 | MLM(双向遮罩) | CLM(因果遮罩) |
| 预训练任务 | 完形填空 + 句子连续性判断 | 预测下一个 token |
| 注意力范围 | 双向(前后文都能看) | 单向(只能看左边) |
| 超能力 | 深度理解语义、分类/抽取 | 自回归生成、续写 |
| 诅咒 | 没法自回归生成 | 理解任务受限 |
| 学术类比 | 🏫 高考学霸——看完卷子再作答 | 🎤 即兴脱口秀演员——边说边想下一句 |
BERT(Encoder-only) 的关键创新是 Masked Language Model(MLM):
给你一句 "I [MASK] cats" ——猜猜 [MASK] 是什么? 正确答案:"love"。
模型必须双向观察上下文来预测被遮住的词——左边是 "I",右边是 "cats",两个方向的信息都得用上。这让 BERT 被迫建立起对句子语义的深度理解。
额外加点料:Next Sentence Prediction(NSP)——给你两句话,判断它们是不是连续的。目标:强化句子级别的理解。不过后来 RoBERTa 发现 NSP 其实没啥用,直接把它砍了性能还更好——打脸来得如此之快。
GPT(Decoder-only) 的关键创新是 Causal Language Model(CLM):
给你 "I love",猜下一个词。"cats" 的概率应该远高于 "bananas"。
每个 token 只能用前面的 token 来预测。看起来是给自己戴了枷锁——但恰恰是这层枷锁让它天然适配生成任务。生成时一个 token 一个 token 往前推,和预训练时的行为完全一致,没有"训练-推理不匹配"的问题。
3. 历史反转
当时大家都觉得 BERT 才是未来——在 GLUE 排行榜上全面碾压 GPT,BERT-Large 在 11 个任务中霸榜。看起来"理解"比"生成"重要得多。
结果呢?😏
GPT 那条看似狭窄的路,最后通向的是 AGI 的康庄大道。 Decoder-only 胜出的根本原因不是因为它比 BERT"好",而是生成任务比理解任务更接近通用智能——能写代码、能聊天、能推理的模型,比只能做分类的模型更通用。当然,如果你的需求就是分类 10 万条影评的情感倾向,BERT 到今天依然很能打。
客观说:Encoder-only 与 Decoder-only 的分野不是谁对谁错,而是任务导向的自然选择。
【2020】三、GPT-3 —— "大就是好"的暴力美学
1. 背景:当年所有人都傻眼了
2018 到 2020 年间,各路模型在 GLUE 上你争我夺,参数从 BERT-Large 的 340M 涨到 T5 的 11B。但大家并没有真正意识到规模的魔力——直到 OpenAI 在 2020 年扔出了 GPT-3。
1750 亿参数,96 层 Transformer 层,12288 维隐藏层,96 个注意力头。
对比一下:GPT-1 才 1.17 亿参数,GPT-2 也才 15 亿。GPT-3 的参数量是 GPT-2 的 116 倍。 如果 GPT-2 的大脑是老鼠级别,GPT-3 就是大象级别——而且不是一只大象,是 116 只大象叠在一起的大脑。
2. 架构与核心发现
架构上没什么革命性创新——延续 GPT-2 的 Decoder-only。除了两点值得提:
- 稀疏注意力:在 175B 参数下,全注意力谁都付不起——用局部稀疏模式降本增效(后来被证明效果有限,后续模型抛弃了)
- Pre-LN:前面提过的 LayerNorm"搬家",从 Post-LN 改到 Pre-LN,96 层的训练稳定性全靠它
真正的突破是 Scaling Laws 的实证发现——模型性能随参数、数据和算力按幂律增长,远没有看到天花板。 你给它更多,它就变得更强,朴素到令人害怕。
还有个惊艳的新能力:In-Context Learning(上下文学习)。
问:法国的首都是?答:巴黎
问:日本的首都是?答:东京
问:澳大利亚的首都是?
它回答 "堪培拉",而不是"悉尼"。它理解了你在做问答。你没训练它做问答,你只是给了几个例子它就懂了。 像极了考试时偷看前面几道题答案然后悟出出题规律的学生——只是这个学生有 1750 亿个神经元。
3. 影响与吐槽
GPT-3 让整个 AI 界看到了**"大力出奇迹"**的可行性。Scaling Laws 从此成了大模型训练的圣经——训不动?加参数。还训不动?加数据。再训不动?加算力。
但 GPT-3 的问题和它的参数一样显眼:
- 输出有毒有害——内部报告显示生成贬低特定群体的内容概率不低
- 指令遵循差——你让它"用简单语言解释",它依然给大学教授级别的回答
- 幻觉严重——编造事实的自信程度堪比喝了三杯酒的销售冠军
💡 GPT-3 证明了"大力能出奇迹",但也暴露了"光靠大力不够"——它成了连接 GPT(2018)与 ChatGPT(2022)的关键桥梁。
【2022】四、ChatGPT —— "对齐"不再是论文里的概念
1. 背景
GPT-3 很强,但也很难用。你问它"写一封请假的邮件",它可能直接给你写篇小说——不是它不听话,是它不懂什么叫"听话"。
OpenAI 意识到:模型的能力已经够了,缺的是"可操控性"。 2022 年初的 InstructGPT 先验证了 RLHF 的效果,年底 ChatGPT 正式上线,目标是让模型有用、无害、诚实。
2. 架构:RLHF 三件套
基座还是 GPT-3.5/GPT-4 的 Decoder-only Transformer。架构本身没有颠覆性改动——成功不来自架构突破,来自数据工程和训练范式的进化。
核心增量是三阶段训练的文艺复兴:
| 阶段 | 名称 | 干什么 |
|---|---|---|
| Step 1 | SFT(监督微调) | 人标一批优质问答对,让模型先学会"像个人一样回答" |
| Step 2 | RM(奖励模型训练) | 让人类对多个回答排序,训练一个打分器 |
| Step 3 | PPO(强化学习优化) | 用奖励模型当教练,RL 优化策略——让模型学会说"好话" |
简单来说:先看标准答案 → 学会分辨好坏 → 自我迭代。
ChatGPT 还熟练运用了 GPT-3 就有的 In-Context Learning——只需要在 prompt 里放几个例子,不需要微调就能引导模型行为。
3. 影响与评价
ChatGPT 首次让大模型从研究工具变成大众产品,上线 5 天用户破百万,2 个月破亿——历史上增长最快的产品。RLHF 从此成为对齐的标准范式。
客观评价:ChatGPT 的成功更多来自产品化与数据工程,而非架构突破。 Decoder-only + RLHF 的组合成为后续所有模型的默认配方。
【2023】五、LLaMA —— 开源生态的"奇点"
1. 背景
到 2023 年,GPT 系列证明了 Decoder-only 的最优性,但都是闭源的。学术界急需一个可复现的高性能基础模型。
Meta 发布了 LLaMA,目标是在有限算力预算下训练出能打的基础模型。7B、13B、33B、65B 四个尺寸,选择了一条反直觉的路——用小模型 + 好数据 + 久训练。
2. 架构:成熟的 Decoder-only
跟 GPT-3 比:
- 同:Decoder-only、Causal Mask、Pre-Norm
- 异:去掉了 GPT-3 的稀疏注意力,全面稠密 Transformer;用 RMSNorm(更轻量的 LayerNorm 简化版——去均质化、只保留缩放);RoPE 旋转位置编码替代绝对位置编码;SwiGLU 激活函数替代 ReLU
RoPE 是什么? 不是做寿司的 🤣。Rotary Position Embedding 的核心思想是通过旋转矩阵把位置信息编码进注意力计算。好处是:
- 长度外推能力强——训练时只有 2K,推理时能到 32K+
- 不需要额外的位置向量,省参数
3. 影响与评价
LLaMA 证明了**"小模型 + 好数据 + 久训练"** 的可行。引爆了开源大模型生态——Alpaca、Vicuna、Llama 2/3 全系列。在其之上长出了整个开源 LLM 的森林。
但稠密架构的天花板很明显:推理成本随参数线性增长。7B 占 14GB 显存,70B 就要 140GB。到几百亿参数,这个线性增长就不能忍了。
【2024/12】六、DeepSeek-V3 —— "穷人的雄心和富人的算法"
1. 背景
2024 年,行业共识是"算力即壁垒"——谁 GPU 多谁赢。DeepSeek 偏不信邪,选择了算法效率优先的路线。
2024 年 12 月,V3 发布。557.6 万美元训练成本——GPT-4 训练成本的零头。
671B 总参数,逼近 GPT-4o 的性能。整个 AI 圈都安静了。
2. 架构:MLA + MoE 的致命组合
MoE(混合专家) ——不是独家创新,但 DeepSeek 做得最好
- 总参数 671B,但每次推理只激活 37B
- 1 个共享专家(大家都用的通用知识)+ 8 个路由专家(按需分配)
- 成本降低到稠密架构的 1/18
MLA(多头潜在注意力) ——DeepSeek 的亲儿子发明 传统 MHA 的 KV Cache 随上下文线性增长:128K 上下文的 KV Cache 在 671B 模型上能吃掉几百 GB 显存。
MLA 的骚操作是低秩压缩:
传统:K = x × W_K → 存储完整 K(x hidden_dim × seq_len)
MLA: K = x × W_KD → 投影到低维 → 再展开
↑ 压缩! ↑ 恢复
KV Cache 削减到传统 MHA 的 1/8 左右。长上下文推理不再被显存卡脖子。
FP8 混合精度训练——首次在超大规模模型上验证 FP8 可行的不是 NVIDIA,是 DeepSeek。
MTP(多 Token 预测)——每步不止预测下一个 token,还预测未来几个。有点"下棋想三步"的意思,数据效率和解码速度都上去了。
3. 影响与评价
DeepSeek-V3 证明了**"算法创新可以对冲算力劣势"**。MLA 与 MoE 的组合成为 2025 年所有新模型的参考模板。
客观评价:训练成本优势部分源于极致的工程优化(4090 集群、PTX 汇编手调),但 MoE 的负载均衡、通信开销仍是复杂挑战。MIT 协议开源的策略让其成为 2025 年全球最被复现的架构之一。至今已衍生出数百个微调版本。
【2025】七、DeepSeek-R1 & o1 —— 学会"先想清楚再说话"
1. 背景
ChatGPT 以来的模型侧重"快思考"——你问它就答,拼的是知识面和语言组织能力。但面对复杂推理(数学竞赛、逻辑谜题、代码调试),这些模型要么答错,要么消耗大量 token 反复纠错。
2024 年 9 月,OpenAI 推出 o1,首次将内化的长思考链(Chain-of-Thought) 引入推理过程——让模型在回答前先花时间"想清楚"。不是训练时,是推理时。
2. 关键突破
DeepSeek-R1(2025 年 1 月) 开源推理模型标杆。核心发现令人震惊:纯强化学习(RL)就能激发出推理能力,不需要 SFT 阶段。
传统:SFT(学知识)→ RL(学对齐)
R1: RL(从零学思考)→ 自然涌现推理能力
R1 还引入了推理蒸馏——把大模型的推理链蒸馏到小模型里,让 7B 参数的小模型也能做复杂推理。
o1 / o3(OpenAI) 引入私有思维链(Private Chain-of-Thought)——模型内部生成隐藏推理步骤,推理完后输出答案,推理过程不暴露给用户。就像你用草稿纸算完数学题然后只告诉别人答案。
在数学竞赛(AIME)、编程竞赛(Codeforces)上比上一代模型高 30-50 个百分点。
Kimi K1.5(2025 年 1 月) 统一框架:长上下文 + RL。同时搞定推理深度和响应速度,不走极端。
3. 影响与评价
推理模型的兴起是"后 ChatGPT 时代"的第一个新维度。竞争焦点从"谁更会聊天"转向"谁更会思考"。 o1、R1 等的共同启示是:模型不需要更大的脑,而是需要更好的"思考方式"。
这也为后续 DeepSeek V4 和 Kimi K2 的 Agent 能力奠定了基础——推理能力内化后,Agent 才能真正做自主决策,而不只是"套个 prompt 调 API"。
【2025–2026】八、Kimi K2/K2.5 与 DeepSeek V4 —— "你中有我,我中有你"
1. 背景
进入 2025 年,中国两大开源模型团队的技术路线出现了有趣的技术交叉授粉:
- Kimi 用了 DeepSeek 的 MLA——"这个注意力压缩方案真好用,我拿去训万亿参数"
- DeepSeek 用了 Kimi 的 Muon 优化器——"Adam 你很好,但十年了该换换了"
一个省推理成本,一个省训练成本。 叠加在一起,万亿参数模型的训练和部署门槛大幅下降。
2. 共同技术底座
| 技术 | Kimi K2/K2.5 | DeepSeek V4 | 一起解决了什么 |
|---|---|---|---|
| MoE | 1T / 32B 激活,384 专家 | 1.6T,稀疏激活 | 参数量换能力,稀疏性换效率 |
| MLA | DeepSeek 的发明,Kimi 发扬到万亿级 | 持续优化,KV Cache 缩到 1/10 | 长上下文推理不再需要堆显存 |
| Muon 优化器 | MuonClip(加了 QK-Clip),15.5T token 零 loss spike | 全球第一个在旗舰模型上换掉 Adam 的大团队 | 训练更稳、收敛更快、token 效率更高 |
| 长上下文 | Kimi Linear(混合线性注意力),256K–1M | 百万 token 上下文普惠化 | 打破"上下文越长越慢"的诅咒 |
| Agent | Agent Swarm(100+ 子 Agent 并行) | 推理能力内化,Agent 层变薄 | 从聊天工具变生产力系统 |
Muon 优化器是什么? 传统优化器 Adam 是一阶方法——只看梯度大小调整学习率。Muon 是二阶矩阵正交化——不仅看梯度大小,还看梯度方向,把参数更新路径拉直。
😲 可以这样理解:
- Adam:你闭着眼睛摸黑下山,每一步试试脚感
- Muon:你睁着眼睛看地图,知道哪条路最短
Kimi Linear(混合线性注意力)呢? 传统注意力是 O(n²) 复杂度——1000 个 token 算 100 万次,100 万 token 就要算 ... 1 万亿次,复杂度是平方级增长的诅咒。
Kimi Linear 的思路是:短距离用精确注意力(O(n²) 但 n 很小),长距离用线性近似注意力(O(n))。 像你交朋友——附近的朋友多花时间深入了解,远方的朋友保持联系但不用天天见面。
3. 影响与评价
Kimi 与 DeepSeek 的技术互嵌标志着中国开源模型从"单点突破"进入"共建底座"。
这一阶段的创新重心已经从"堆参数"转向**"堆效率"**——Token 效率、长上下文、Agent 协作成为新的 Scaling 维度。
当然,挑战依然存在:
- MoE 的专家负载均衡——某些专家学成了"万能专家",其他专家偷懒
- 线性注意力的精度损失——近似计算在长程关联上的误差
- Muon 的泛化性——在超大规模上跑通确实厉害,换个架构还能否同样有效?
两家在开源上的竞合,正在共同定义下一代大模型的技术栈标准。
结语
从 2017 年 Transformer 的 Encoder-Decoder,到 2018 年 BERT/GPT 范式分叉,再到 GPT-3 验证 Scaling Laws、ChatGPT 完成对齐工程化、LLaMA 点燃开源、DeepSeek-V3 用 MLA+MoE 打破算力垄断、推理模型重新定义"智能"的维度,直至 Kimi 与 DeepSeek 共建万亿参数效率底座——
Transformer 的演进史,本质上是一部"用架构创新换效率"的历史。
当线性注意力与二阶优化器成为标配,当推理即服务普惠化,大模型的竞争将真正进入 "智能密度" 而非"参数规模"的维度。未来十年的大模型,可能会比过去这八年更精彩。
—— 从 Attention Is All You Need 到万亿参数 MoE,八章讲完八年。🧠