🔬 具身之道 · 前沿解读
当我们谈论 LLM 时,到底在谈论什么样的架构?Sebastian Raschka 用一张张清晰的架构示意图,把从 GPT-2 到 2026 年最新模型的演进脉络讲得明明白白。本文是对其 LLM Architecture Gallery 的深度解读与梳理。
为什么需要这篇文章?
过去一年,开源大模型井喷式爆发:DeepSeek V3/R1、Llama 4、Gemma 3、Qwen3.5、GLM-5、Kimi K2.5……每隔几周就有新模型发布,架构名词也越来越多——MLA、GQA、MoE、Gated DeltaNet、Sliding Window Attention……
Sebastian Raschka(威斯康星大学麦迪逊分校教授,《Build a Large Language Model From Scratch》作者)做了一件极其有价值的事:他把 30+ 款主流 LLM 的架构拆解成统一格式的示意图,放在了 LLM Architecture Gallery 上,并配有详细的技术文章解读。
📌 推荐收藏:sebastianraschka.com/llm-archite…
这可能是目前互联网上最清晰、最全面的 LLM 架构对比资源。
一、架构演进的大脉络
从 2019 年的 GPT-2 到 2026 年初的 Qwen3.5,Transformer decoder 架构虽然"骨架"没变,但五大关键模块已经发生了显著进化:
1. 注意力机制:MHA → GQA → MLA → 混合注意力
MHA(Multi-Head Attention) — GPT-2, OLMo 2 经典全注意力,每个 head 都有独立的 K、V
GQA(Grouped-Query Attention) — Llama 3, Gemma 3, Mistral 多个 query head 共享一组 K、V,显著降低 KV cache
MLA(Multi-Head Latent Attention) — DeepSeek V3/R1, GLM-5, Kimi K2.5 将 K、V 压缩到低维潜空间再存入 cache,比 GQA 更省且效果更好
混合注意力 — Qwen3.5, Qwen3-Next, Ling 2.5 Gated DeltaNet / Lightning Attention + 少量全注意力层,兼顾效率与精度
💡 关键洞察:MLA 源自 DeepSeek V2(2024),现在被 GLM-5、Kimi K2.5、Mistral 3 Large、Sarvam 105B 等纷纷采用,正在成为大规模 MoE 模型的标配。而 Qwen 团队则走了另一条路——用 Gated DeltaNet 这种线性注意力替代大部分全注意力层,3:1 的混合比例在保持性能的同时大幅降低长上下文成本。
2. 稀疏化:Dense → MoE(Mixture of Experts)
Dense — Llama 3 (8B/70B), Gemma 3 (27B), OLMo 2:全参数激活
Sparse MoE — DeepSeek V3 (671B→37B), Llama 4 (400B→17B):大量 expert,每 token 仅激活少数
Hybrid MoE — Nemotron Nano (30B→3B), Nemotron Super (120B→12B):Mamba-2 + MoE 混合
💡 关键洞察:MoE 的核心理念是——用更多参数"装更多知识",但推理时只用一小部分。DeepSeek V3 的 256 expert + 1 shared expert 设计被广泛借鉴。Meta 的 Llama 4 Maverick 则用更少但更大的 expert(16 个 vs DeepSeek 的 256 个),走的是"粗粒度 MoE"路线。
3. 位置编码:Absolute → RoPE → Partial RoPE / NoPE
- GPT-2:learned absolute positional embeddings
- 主流:RoPE(Rotary Position Embedding),几乎所有 2024-2026 模型标配
- 新趋势:部分层不用位置编码(NoPE),如 SmolLM3 每 4 层去掉一次 RoPE;Arcee Trinity 在全局注意力层用 NoPE
4. 归一化:LayerNorm → RMSNorm → 多处放置 + QK-Norm
- Pre-Norm(GPT-2 以来的主流)→ Post-Norm(OLMo 2)→ Pre+Post Norm(Gemma 3)
- QK-Norm(对 Q、K 做 RMSNorm)已成为训练稳定性标配
- Sandwich Norm(Arcee Trinity):深度缩放的 RMSNorm,初始化时 gain ≈ 1/√L
5. 激活函数与 FFN
- GELU(GPT-2)→ SwiGLU(几乎所有现代模型)
- Parallel Transformer Block(Tiny Aya / Cohere):注意力和 MLP 并行计算后合并
二、2026 开年十大架构亮点
Sebastian Raschka 在最新文章 "A Dream of Spring for Open-Weight LLMs" 中详细拆解了 2026 年 1-2 月的 10+ 款新模型。以下是核心看点:
🏗️ Arcee Trinity Large (400B, 13B active)
- 首次出现:Gated Attention(在 scaled dot-product 后加 sigmoid 门控) + 3:1 Sliding Window + NoPE + Sandwich Norm
- 融合了 Gemma 3、DeepSeek V3、SmolLM3 等多家思路的"缝合怪",但训练稳定性出色
- MoE 采用 DeepSeek 风格的小 expert 设计,但做了粗粒度化以提升推理吞吐
- 性能与 GLM-4.5 (355B) 持平
🌙 Kimi K2.5 (1T, 32B active)
- DeepSeek V3 架构的放大版 + 原生多模态(vision early fusion)
- 发布时一度追平闭源旗舰模型(GPT-5.2, Gemini Pro 3)
- 有意思的消融实验:在预训练早期就混入 vision token 效果更好——固定总 vision token 数量下,早期少量混入 > 后期大量混入
- 架构上 MLA + MoE 完全继承 Kimi K2 / DeepSeek V3
⚡ Step 3.5 Flash (196B, 11B active)
- 性价比之王:比 DeepSeek V3.2 小 3 倍多,但 benchmark 略胜
- 关键秘诀:MTP-3(Multi-Token Prediction with 3 extra tokens),训练和推理都用
- 128K 上下文下达到 100 tokens/sec(DeepSeek V3.2 仅 33 tokens/sec on Hopper GPUs)
- 架构还包含 Gated Attention + 3:1 Sliding Window
💻 Qwen3-Coder-Next (80B, 3B active)
- 小模型打大模型:80B 的 MoE 在编码任务上超越 DeepSeek V3.2 (37B active) 和 Kimi K2.5 (32B active)
- SWE-Bench Pro 与 Claude Sonnet 4.5 持平,令人印象深刻
- 架构核心:Gated DeltaNet + Gated Attention 混合,3:1 比例
- 本地用 ollama 跑仅需 ~48 GB 存储 + 51 GB RAM
- 架构与 Qwen3-Next 80B 完全相同,差异在训练 recipe
🧠 GLM-5 (744B, 40B active)
- 发布时与 GPT-5.2 extra-high、Claude 4.6 Opus、Gemini Pro 3 处于同一梯队
- 关键架构升级:从 GLM-4.7 的 GQA 切换到 MLA + DeepSeek Sparse Attention
- 层数反而从 92 降到 78(减少串行延迟),宽度增加(expert 从 160 → 256)
- 独立 hallucination leaderboard 验证:GLM-5 ≈ Opus 4.5 ≈ GPT-5.2
- 比 Kimi K2.5 (1T) 小但 benchmark 略优
🔥 MiniMax M2.5 (230B, 10B active)
- OpenRouter 使用量最高的开源模型
- 架构最"保守":纯 GQA,无 sliding window,无 MLA,无线性注意力
- 无详细技术报告(唯一一个)
- 胜在性价比:小而精,推理便宜,bang for the buck
- SWE-Bench Verified 编码表现略优于 GLM-5
🌟 Qwen3.5 (397B, 17B active) — 重点解读
这是 Qwen 系列的重大更新,正式将 Qwen3-Next 的混合注意力纳入主线:
Qwen3.5 架构要点:
- 397B 总参数, 17B 激活
- 512 experts + shared expert
- 3:1 Gated DeltaNet : Gated Attention
- QK-Norm + partial RoPE
- 原生多模态支持
- 262K 原生上下文
为什么这很重要? Qwen3-Next 原本是效率实验分支,现在混合注意力被"转正"成主线设计,说明 Gated DeltaNet 这类线性注意力已经从"替代方案"变成了"主流选择" 。
Gated DeltaNet 简单理解:
- 传统注意力:每个 token 都要和所有其他 token 算相关性 → O(n²)
- DeltaNet:维护一个小型"快速权重记忆",用 delta rule 更新 → O(n),但检索精度不如全注意力
- 混合方案:3 层 DeltaNet + 1 层全注意力 → 长上下文省内存,短程精度不丢
Gated Attention 与普通 GQA 的区别:
- 输出门控:sigmoid 控制的逐通道门控,缩放注意力结果后再加到残差
- 零中心 RMSNorm 用于 QK-Norm(而非标准 RMSNorm)
- Partial RoPE(仅在部分维度上应用)
这些本质上是对 GQA 的稳定性改进。而 DeltaNet 层则是更根本的变化——用快速权重 delta rule 替代注意力计算,类比 Mamba 的状态空间滤波器。
后续发布的小尺寸版本:Qwen3.5-27B、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B,进一步扩展了适用范围。
🌊 Ling 2.5 (1T, 63B active)
- 蚂蚁集团出品,同样走混合注意力路线但用 Lightning Attention(比 DeltaNet 更简单的线性注意力)+ MLA
- 7:1 的线性注意力 : MLA 比例(比 Qwen3.5 的 3:1 更激进)
- 63B 激活参数,是目前"激活参数最多"的混合注意力模型
- 同等 1T 参数下,32K 上下文吞吐量是 Kimi K2 的 3.5 倍
🇮🇳 Sarvam 30B & 105B
- 来自印度的强力新秀,专注印度语言(4x token 效率提升)
- 30B 用 GQA(经典路线),105B 切换到 MLA(效率路线)
- 105B 在 agentic reasoning (Tau2) 上甚至超过 DeepSeek R1 0528
- Judge model 评估:印度语言文本中 90% 的情况下优于竞品
🌐 Tiny Aya (3.35B)
- Cohere 的多语言小模型,支持 23 种语言
- 架构亮点:Parallel Transformer Block——注意力和 MLP 从同一个归一化输入并行计算,然后单步加到残差
- 不使用 QK-Norm(Cohere 团队认为会影响长上下文性能)
- 适合端侧部署,但仅限非商业用途
三、架构趋势总结
Sebastian Raschka 制作了一张注意力机制使用汇总图,展示了各模型的技术选择。从中可以提炼出 2026 年初的五大趋势:
1. MLA 扩散 从 DeepSeek 独家 → GLM-5、Kimi K2.5、Mistral 3 Large、Sarvam 105B、Ling 2.5 纷纷采用。MLA 正在成为 700B+ 规模 MoE 模型的标准注意力机制。
2. 线性注意力混合兴起 Gated DeltaNet (Qwen3.5)、Lightning Attention (Ling 2.5)、Kimi Delta Attention (Kimi K2.5 后续版本) 三种方案争鸣。核心理念相同:大部分层用线性注意力省内存,少量层保留全注意力保精度。
3. MoE 成为大模型标配 400B+ 的模型几乎全是 MoE,只有 OLMo 3 (32B) 还在坚持 Dense。Expert 粒度设计成为新的架构决策维度。
4. Sliding Window 依然实用 Gemma 3 (5:1)、OLMo 3 (3:1)、Step 3.5 Flash (3:1)、Arcee Trinity (3:1) 都在用不同比例的 sliding window attention。但 MiniMax 和 Nanbeige 选择了不用——说明这不是必须的。
5. Multi-Token Prediction 兴起 DeepSeek V3 首创 MTP-1,Step 3.5 Flash 推到 MTP-3 且推理时也用(非常规做法),GLM-4.7 和 MiniMax M2.1 也跟进。MTP 正在从训练 trick 变成推理加速手段。
四、我的评价 🔬
Sebastian Raschka 的这个 Architecture Gallery 做到了几件事:
✅ 统一视角:所有模型用同一种图示风格呈现,让对比一目了然。过去你可能需要翻十几篇 paper 才能理清这些关系,现在一页搞定。
✅ 聚焦架构:不谈训练 trick,不吹 benchmark,纯粹拆解结构差异。这对工程师和研究者理解"到底改了什么"非常有价值。
✅ 持续更新:Gallery 最后更新日期是 2026-03-16,基本做到了和前沿同步。甚至可以买高清海报(14570×12490 像素,182 megapixels)。
⚠️ 局限性:正如 Raschka 自己说的——架构可能并不是模型性能差异的主要来源,数据质量和训练 recipe 才是。但架构决定了效率上限,这在部署成本越来越重要的今天至关重要。
💡 给研究者的建议:
- 如果你在做大规模预训练 → 关注 MLA vs GQA 的选择、MoE expert 粒度设计
- 如果你在做长上下文应用 → 关注 Gated DeltaNet / Lightning Attention 混合方案
- 如果你在做端侧部署 → 关注 Sliding Window Attention 比例 + Parallel Transformer Block
- 如果你纯粹想了解 LLM 架构 → 直接收藏 Gallery,比任何教程都直观
参考资源
📊 LLM Architecture Gallery(架构图集) sebastianraschka.com/llm-archite…
📝 The Big LLM Architecture Comparison magazine.sebastianraschka.com/p/the-big-l…
📝 From GPT-2 to gpt-oss: Analyzing the Architectural Advances magazine.sebastianraschka.com/p/from-gpt-…
📝 From DeepSeek V3 to V3.2: Architecture, Sparse Attention, and RL Updates magazine.sebastianraschka.com/p/technical…
📝 A Dream of Spring for Open-Weight LLMs magazine.sebastianraschka.com/p/a-dream-o…
📖 《Build a Large Language Model (From Scratch)》 amzn.to/4fqvn0D
本文由「具身之道」基于 Sebastian Raschka 的 LLM Architecture Gallery 系列文章整理编写。原作者保留所有权利,推荐关注其 Substack:Ahead of AI。
作者:旺德福 🔬 | 公众号:具身之道