一文看懂主流 LLM/VLM 架构演进：从 GPT-2 到 Qwen3.5｜Sebastian Raschka

🔬 具身之道 · 前沿解读

当我们谈论 LLM 时，到底在谈论什么样的架构？Sebastian Raschka 用一张张清晰的架构示意图，把从 GPT-2 到 2026 年最新模型的演进脉络讲得明明白白。本文是对其 LLM Architecture Gallery 的深度解读与梳理。

为什么需要这篇文章？

过去一年，开源大模型井喷式爆发：DeepSeek V3/R1、Llama 4、Gemma 3、Qwen3.5、GLM-5、Kimi K2.5……每隔几周就有新模型发布，架构名词也越来越多——MLA、GQA、MoE、Gated DeltaNet、Sliding Window Attention……

Sebastian Raschka（威斯康星大学麦迪逊分校教授，《Build a Large Language Model From Scratch》作者）做了一件极其有价值的事：他把 30+ 款主流 LLM 的架构拆解成统一格式的示意图，放在了 LLM Architecture Gallery 上，并配有详细的技术文章解读。

📌 推荐收藏：sebastianraschka.com/llm-archite…

这可能是目前互联网上最清晰、最全面的 LLM 架构对比资源。

一、架构演进的大脉络

从 2019 年的 GPT-2 到 2026 年初的 Qwen3.5，Transformer decoder 架构虽然"骨架"没变，但五大关键模块已经发生了显著进化：

1. 注意力机制：MHA → GQA → MLA → 混合注意力

MHA（Multi-Head Attention） — GPT-2, OLMo 2 经典全注意力，每个 head 都有独立的 K、V

GQA（Grouped-Query Attention） — Llama 3, Gemma 3, Mistral 多个 query head 共享一组 K、V，显著降低 KV cache

MLA（Multi-Head Latent Attention） — DeepSeek V3/R1, GLM-5, Kimi K2.5 将 K、V 压缩到低维潜空间再存入 cache，比 GQA 更省且效果更好

混合注意力 — Qwen3.5, Qwen3-Next, Ling 2.5 Gated DeltaNet / Lightning Attention + 少量全注意力层，兼顾效率与精度

💡 关键洞察：MLA 源自 DeepSeek V2（2024），现在被 GLM-5、Kimi K2.5、Mistral 3 Large、Sarvam 105B 等纷纷采用，正在成为大规模 MoE 模型的标配。而 Qwen 团队则走了另一条路——用 Gated DeltaNet 这种线性注意力替代大部分全注意力层，3:1 的混合比例在保持性能的同时大幅降低长上下文成本。

2. 稀疏化：Dense → MoE（Mixture of Experts）

Dense — Llama 3 (8B/70B), Gemma 3 (27B), OLMo 2：全参数激活

Sparse MoE — DeepSeek V3 (671B→37B), Llama 4 (400B→17B)：大量 expert，每 token 仅激活少数

Hybrid MoE — Nemotron Nano (30B→3B), Nemotron Super (120B→12B)：Mamba-2 + MoE 混合

💡 关键洞察：MoE 的核心理念是——用更多参数"装更多知识"，但推理时只用一小部分。DeepSeek V3 的 256 expert + 1 shared expert 设计被广泛借鉴。Meta 的 Llama 4 Maverick 则用更少但更大的 expert（16 个 vs DeepSeek 的 256 个），走的是"粗粒度 MoE"路线。

3. 位置编码：Absolute → RoPE → Partial RoPE / NoPE

GPT-2：learned absolute positional embeddings
主流：RoPE（Rotary Position Embedding），几乎所有 2024-2026 模型标配
新趋势：部分层不用位置编码（NoPE），如 SmolLM3 每 4 层去掉一次 RoPE；Arcee Trinity 在全局注意力层用 NoPE

4. 归一化：LayerNorm → RMSNorm → 多处放置 + QK-Norm

Pre-Norm（GPT-2 以来的主流）→ Post-Norm（OLMo 2）→ Pre+Post Norm（Gemma 3）
QK-Norm（对 Q、K 做 RMSNorm）已成为训练稳定性标配
Sandwich Norm（Arcee Trinity）：深度缩放的 RMSNorm，初始化时 gain ≈ 1/√L

5. 激活函数与 FFN

GELU（GPT-2）→ SwiGLU（几乎所有现代模型）
Parallel Transformer Block（Tiny Aya / Cohere）：注意力和 MLP 并行计算后合并

二、2026 开年十大架构亮点

Sebastian Raschka 在最新文章 "A Dream of Spring for Open-Weight LLMs" 中详细拆解了 2026 年 1-2 月的 10+ 款新模型。以下是核心看点：

🏗️ Arcee Trinity Large (400B, 13B active)

首次出现：Gated Attention（在 scaled dot-product 后加 sigmoid 门控） + 3:1 Sliding Window + NoPE + Sandwich Norm
融合了 Gemma 3、DeepSeek V3、SmolLM3 等多家思路的"缝合怪"，但训练稳定性出色
MoE 采用 DeepSeek 风格的小 expert 设计，但做了粗粒度化以提升推理吞吐
性能与 GLM-4.5 (355B) 持平

🌙 Kimi K2.5 (1T, 32B active)

DeepSeek V3 架构的放大版 + 原生多模态（vision early fusion）
发布时一度追平闭源旗舰模型（GPT-5.2, Gemini Pro 3）
有意思的消融实验：在预训练早期就混入 vision token 效果更好——固定总 vision token 数量下，早期少量混入 > 后期大量混入
架构上 MLA + MoE 完全继承 Kimi K2 / DeepSeek V3

⚡ Step 3.5 Flash (196B, 11B active)

性价比之王：比 DeepSeek V3.2 小 3 倍多，但 benchmark 略胜
关键秘诀：MTP-3（Multi-Token Prediction with 3 extra tokens），训练和推理都用
128K 上下文下达到 100 tokens/sec（DeepSeek V3.2 仅 33 tokens/sec on Hopper GPUs）
架构还包含 Gated Attention + 3:1 Sliding Window

💻 Qwen3-Coder-Next (80B, 3B active)

小模型打大模型：80B 的 MoE 在编码任务上超越 DeepSeek V3.2 (37B active) 和 Kimi K2.5 (32B active)
SWE-Bench Pro 与 Claude Sonnet 4.5 持平，令人印象深刻
架构核心：Gated DeltaNet + Gated Attention 混合，3:1 比例
本地用 ollama 跑仅需 ~48 GB 存储 + 51 GB RAM
架构与 Qwen3-Next 80B 完全相同，差异在训练 recipe

🧠 GLM-5 (744B, 40B active)

发布时与 GPT-5.2 extra-high、Claude 4.6 Opus、Gemini Pro 3 处于同一梯队
关键架构升级：从 GLM-4.7 的 GQA 切换到 MLA + DeepSeek Sparse Attention
层数反而从 92 降到 78（减少串行延迟），宽度增加（expert 从 160 → 256）
独立 hallucination leaderboard 验证：GLM-5 ≈ Opus 4.5 ≈ GPT-5.2
比 Kimi K2.5 (1T) 小但 benchmark 略优

🔥 MiniMax M2.5 (230B, 10B active)

OpenRouter 使用量最高的开源模型
架构最"保守"：纯 GQA，无 sliding window，无 MLA，无线性注意力
无详细技术报告（唯一一个）
胜在性价比：小而精，推理便宜，bang for the buck
SWE-Bench Verified 编码表现略优于 GLM-5

🌟 Qwen3.5 (397B, 17B active) — 重点解读

这是 Qwen 系列的重大更新，正式将 Qwen3-Next 的混合注意力纳入主线：

Qwen3.5 架构要点：

397B 总参数, 17B 激活
512 experts + shared expert
3:1 Gated DeltaNet : Gated Attention
QK-Norm + partial RoPE
原生多模态支持
262K 原生上下文

为什么这很重要？ Qwen3-Next 原本是效率实验分支，现在混合注意力被"转正"成主线设计，说明 Gated DeltaNet 这类线性注意力已经从"替代方案"变成了"主流选择" 。

Gated DeltaNet 简单理解：

传统注意力：每个 token 都要和所有其他 token 算相关性 → O(n²)
DeltaNet：维护一个小型"快速权重记忆"，用 delta rule 更新 → O(n)，但检索精度不如全注意力
混合方案：3 层 DeltaNet + 1 层全注意力 → 长上下文省内存，短程精度不丢

Gated Attention 与普通 GQA 的区别：

输出门控：sigmoid 控制的逐通道门控，缩放注意力结果后再加到残差
零中心 RMSNorm 用于 QK-Norm（而非标准 RMSNorm）
Partial RoPE（仅在部分维度上应用）

这些本质上是对 GQA 的稳定性改进。而 DeltaNet 层则是更根本的变化——用快速权重 delta rule 替代注意力计算，类比 Mamba 的状态空间滤波器。

后续发布的小尺寸版本：Qwen3.5-27B、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B，进一步扩展了适用范围。

🌊 Ling 2.5 (1T, 63B active)

蚂蚁集团出品，同样走混合注意力路线但用 Lightning Attention（比 DeltaNet 更简单的线性注意力）+ MLA
7:1 的线性注意力 : MLA 比例（比 Qwen3.5 的 3:1 更激进）
63B 激活参数，是目前"激活参数最多"的混合注意力模型
同等 1T 参数下，32K 上下文吞吐量是 Kimi K2 的 3.5 倍

🇮🇳 Sarvam 30B & 105B

来自印度的强力新秀，专注印度语言（4x token 效率提升）
30B 用 GQA（经典路线），105B 切换到 MLA（效率路线）
105B 在 agentic reasoning (Tau2) 上甚至超过 DeepSeek R1 0528
Judge model 评估：印度语言文本中 90% 的情况下优于竞品

🌐 Tiny Aya (3.35B)

Cohere 的多语言小模型，支持 23 种语言
架构亮点：Parallel Transformer Block——注意力和 MLP 从同一个归一化输入并行计算，然后单步加到残差
不使用 QK-Norm（Cohere 团队认为会影响长上下文性能）
适合端侧部署，但仅限非商业用途

三、架构趋势总结

Sebastian Raschka 制作了一张注意力机制使用汇总图，展示了各模型的技术选择。从中可以提炼出 2026 年初的五大趋势：

1. MLA 扩散 从 DeepSeek 独家 → GLM-5、Kimi K2.5、Mistral 3 Large、Sarvam 105B、Ling 2.5 纷纷采用。MLA 正在成为 700B+ 规模 MoE 模型的标准注意力机制。

2. 线性注意力混合兴起 Gated DeltaNet (Qwen3.5)、Lightning Attention (Ling 2.5)、Kimi Delta Attention (Kimi K2.5 后续版本) 三种方案争鸣。核心理念相同：大部分层用线性注意力省内存，少量层保留全注意力保精度。

3. MoE 成为大模型标配 400B+ 的模型几乎全是 MoE，只有 OLMo 3 (32B) 还在坚持 Dense。Expert 粒度设计成为新的架构决策维度。

4. Sliding Window 依然实用 Gemma 3 (5:1)、OLMo 3 (3:1)、Step 3.5 Flash (3:1)、Arcee Trinity (3:1) 都在用不同比例的 sliding window attention。但 MiniMax 和 Nanbeige 选择了不用——说明这不是必须的。

5. Multi-Token Prediction 兴起 DeepSeek V3 首创 MTP-1，Step 3.5 Flash 推到 MTP-3 且推理时也用（非常规做法），GLM-4.7 和 MiniMax M2.1 也跟进。MTP 正在从训练 trick 变成推理加速手段。

四、我的评价 🔬

Sebastian Raschka 的这个 Architecture Gallery 做到了几件事：

✅ 统一视角：所有模型用同一种图示风格呈现，让对比一目了然。过去你可能需要翻十几篇 paper 才能理清这些关系，现在一页搞定。

✅ 聚焦架构：不谈训练 trick，不吹 benchmark，纯粹拆解结构差异。这对工程师和研究者理解"到底改了什么"非常有价值。

✅ 持续更新：Gallery 最后更新日期是 2026-03-16，基本做到了和前沿同步。甚至可以买高清海报（14570×12490 像素，182 megapixels）。

⚠️ 局限性：正如 Raschka 自己说的——架构可能并不是模型性能差异的主要来源，数据质量和训练 recipe 才是。但架构决定了效率上限，这在部署成本越来越重要的今天至关重要。

💡 给研究者的建议：

如果你在做大规模预训练 → 关注 MLA vs GQA 的选择、MoE expert 粒度设计
如果你在做长上下文应用 → 关注 Gated DeltaNet / Lightning Attention 混合方案
如果你在做端侧部署 → 关注 Sliding Window Attention 比例 + Parallel Transformer Block
如果你纯粹想了解 LLM 架构 → 直接收藏 Gallery，比任何教程都直观

参考资源

📊 LLM Architecture Gallery（架构图集） sebastianraschka.com/llm-archite…

📝 The Big LLM Architecture Comparison magazine.sebastianraschka.com/p/the-big-l…

📝 From GPT-2 to gpt-oss: Analyzing the Architectural Advances magazine.sebastianraschka.com/p/from-gpt-…

📝 From DeepSeek V3 to V3.2: Architecture, Sparse Attention, and RL Updates magazine.sebastianraschka.com/p/technical…

📝 A Dream of Spring for Open-Weight LLMs magazine.sebastianraschka.com/p/a-dream-o…

📖 《Build a Large Language Model (From Scratch)》 amzn.to/4fqvn0D

作者：旺德福 🔬 | 公众号：具身之道