现代大语言模型注意力机制变体可视化指南

0 阅读24分钟

从 MHA、GQA 到 MLA、稀疏注意力与混合架构

我原本计划撰写关于 DeepSeek V4 的内容。由于该模型尚未发布,我便利用这段时间整理了一份搁置已久的资料:汇总、梳理并完善了过去几年中我介绍过的各类大语言模型架构。

在过去两周里,我将这些内容整理成了一份大语言模型架构图鉴(目前已收录 45 种架构),其中整合了我之前文章的内容,以及若干此前未记录的重要架构。每个条目都配有可视化模型卡片,我计划持续对这份图鉴进行更新。现在,Redbubble 平台已上线海报版本。

除了架构图鉴,我同时也在为几个核心大语言模型概念撰写简短说明。

因此,在本文中,我将回顾近年来在主流开源权重架构中被广泛采用的各类注意力机制变体。

我的目标是让这份汇总既能作为参考手册,也能成为轻量化的学习资料。希望对你有所帮助!

1. 多头注意力(MHA)

自注意力机制允许每个 token 关注序列中其他可见的 token,为其分配权重,并利用这些权重构建输入的上下文感知表示。

多头注意力(MHA)是 Transformer 架构的标准实现。它通过不同的可学习投影矩阵,并行运行多个自注意力头,再将它们的输出合并为一个更丰富的表示。

Image

图 3:以 Olmo 2 为例的 MHA 架构

下面的内容将快速回顾自注意力机制,为介绍分组查询注意力、滑动窗口注意力等相关概念做铺垫。如果你希望更深入、详细地学习自注意力,可以阅读我之前的长文:理解并实现大语言模型中的自注意力、多头注意力、因果注意力与交叉注意力。

典型架构GPT-2、OLMo 2 7B、OLMo 3 7B

1.2 历史背景:注意力机制为何被提出

注意力机制的出现早于 Transformer 和 MHA。它直接源于用于机器翻译的编码器-解码器 RNN 架构。

在早期系统中,编码器 RNN 逐词读取源语言句子,并将其压缩为一系列隐状态,最简单情况下仅保留一个最终隐状态。随后,解码器 RNN 必须从这个有限的摘要信息中生成目标语言句子。这在短文本、简单场景下可行,但当生成下一个词所需的关键信息位于输入句子的其他位置时,就会出现明显的瓶颈。

简而言之,其局限在于:隐状态无法存储无限多的信息与上下文,而在很多场景下,直接引用完整的输入序列会更高效。

下面的翻译示例展示了这一局限。例如,即便每个局部词的选择都相对合理,若模型过度采用逐词映射的方式,整句翻译仍可能失败。(上图展示了一个极端逐词翻译的例子,译文语法明显错误。)实际上,正确的下一个词依赖于句子级结构,以及当前步骤中哪些源语言词更重要。当然,这类句子用 RNN 仍可翻译,但在处理长序列或知识检索任务时会非常吃力,原因正是前面提到的隐状态存储容量有限。

Image

图 4:即便单个词选择合理,翻译仍可能失败,因为句子级结构至关重要(来源:LLMs-from-scratch)

下图更直观地展示了这一改进:解码器在生成输出 token 时,不应仅依赖单一压缩记忆,而应能直接回溯到更相关的输入 token。

Image

图 5:注意力机制打破了 RNN 的瓶颈,允许当前输出位置直接访问完整输入序列,而非仅依赖单一压缩状态(来源:LLMs-from-scratch)

Transformer 保留了上述注意力改进 RNN 的核心思想,同时移除了循环结构。在经典论文 Attention Is All You Need 中,注意力成为了序列处理的核心机制(而非仅作为 RNN 编码器-解码器的一部分)。

在 Transformer 中,这一机制被称为**自注意力:**序列中的每个 token 计算对所有其他 token 的权重,并利用这些权重将其他 token 的信息融合到自身新的表示中。多头注意力则是将这一机制并行运行多次。

1.3 掩码注意力矩阵

对于长度为 T 的 token 序列,每个 token 对应一行权重,最终得到一个 T × T 的矩阵。

每一行回答一个简单问题:在更新当前 token 时,每个可见 token 的重要程度如何?在仅解码器的大语言模型中,未来位置会被掩码遮挡,这也是下图中矩阵右上部分为灰色的原因。

自注意力的本质,就是在因果掩码下学习这些 token 之间的权重模式,并以此构建上下文感知的 token 表示。

Image

图 6:一个具体的掩码注意力矩阵。每行对应一个 token,每个值为注意力权重,未来 token 被因果掩码屏蔽(来源:理解并实现自注意力)

1.4 自注意力内部机制

下图展示了 Transformer 如何从输入嵌入 X 计算注意力矩阵 A,并生成变换后的输入 Z。

其中 Q、``K、``V 分别代表查询(Query)、键(Key)、值(Value)。一个 token 的查询表示它在“寻找什么”,键表示每个 token“可提供什么信息用于匹配”,值则表示在计算出注意力权重后,将被融合到输出中的信息。

计算步骤如下:

  • Wq、``Wk、``Wv

     是权重矩阵,将输入嵌入投影为 Q、``K、``V

  • QK^T

     得到原始 token 间相关度分数

  • Softmax 将这些分数归一化为注意力矩阵 A

  • 将 A 作用于 V,得到输出矩阵 Z

注意:注意力矩阵并非手动设计,而是由 Q、``K 和 Softmax 自然生成。

Image

图 7:单头注意力完整流程:从输入嵌入 X 到归一化注意力矩阵 A 与输出表示 Z(来源:理解并实现自注意力)

下图展示了相同概念,但将注意力矩阵计算封装在“缩放点积注意力”框内,且仅计算单个输入 token(而非全部)。目的是在扩展到多头注意力之前,先以紧凑形式展示单头自注意力。

Image

图 8:单个注意力头已是完整机制。一组可学习投影生成一个注意力矩阵与一条上下文感知输出流(来源:理解并实现自注意力)

1.5 从单头到多头注意力

一组 Wq/Wk/Wv 矩阵对应一个注意力头,即一个注意力矩阵和一个输出矩阵 Z(上一节已展示)。

多头注意力只是用不同的可学习投影矩阵并行运行多个这样的头。

这一设计的价值在于:不同头可以专注于不同的 token 关系。一个头可能关注短距离局部依赖,另一个关注更广泛的语义关联,还有的关注位置或句法结构。

Image

图 9:多头注意力保留基础注意力逻辑,并行扩展多个头,使模型能同时学习多种 token 关联模式(来源:理解并实现自注意力)

2. 分组查询注意力(GQA)

分组查询注意力是从标准 MHA 衍生出的注意力变体,由 Joshua Ainslie 等人在 2023 年论文 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 中提出。

它不再为每个查询头单独分配键和值,而是允许多个查询头**共享同一组键值投影,**这大幅降低了 KV 缓存 开销(主要是内存),同时基本不改变解码器整体结构。

Image

图 10:GQA 保留与 MHA 相同的整体注意力结构,但通过多查询头共享键值头来减少键值头数量(来源:大语言模型架构对比)

典型架构稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B、SmolLM3 3B、Tiny Aya 3.35B稀疏(混合专家):Llama 4 Maverick、Qwen3 235B-A22B、Step 3.5 Flash 196B、Sarvam 30B

2.1 GQA 为何流行

在我的架构对比文章中,我将 GQA 定义为**替代传统多头注意力(MHA)的新标准。**原因在于:标准 MHA 为每个头单独分配键值,建模效果更优,但在推理时将所有状态保存在 KV 缓存中开销极大。

在 GQA 中,我们保留较多查询头,但减少键值头数量,允许多个查询共享。这同时降低了参数量与 KV 缓存 流量,且无需像多头潜在注意力(MLA,后文介绍)那样大幅改动实现。

在实践中,对于希望比 MHA 更高效、又比 MLA 等新型压缩方案更易实现的实验室而言,GQA 一直是非常流行的选择。

2.2 GQA 的内存节省

GQA 能显著节省 KV 存储:每层保留的键值头越少,每个 token 所需的缓存状态就越少。因此,序列长度越长,GQA 优势越明显。

GQA 是一个**连续谱系:**如果压缩到仅保留 1 组共享 K/V,就等价于多查询注意力(MQA),开销更低,但建模性能下降更明显。最优平衡点通常在多查询注意力(1 组共享)与 MHA(K/V 组数等于查询数)之间:缓存节省显著,而相对 MHA 的性能损失可控。

Image

图 11:数值越低越好。上下文窗口扩大后,KV 缓存 节省效果更显著(来源:LLMs-from-scratch GQA 章节)

2.3 2026 年 GQA 为何依然重要

MLA 等更先进的变体正逐渐流行,因为它们能在相同 KV 效率下提供更好的建模效果(如 DeepSeek-V2 论文 消融实验所示),但 MLA 的实现与推理部署更复杂。

GQA 依然具有吸引力,因为它稳健、易实现、易训练(根据我的经验,所需超参调优更少)。

这也是为何部分新模型仍刻意选择经典方案。例如,我在春季架构一文中提到,MiniMax M2.5 和 Nanbeige 4.1 仍保持非常经典的设计,仅使用分组查询注意力,未叠加其他高效技巧。Sarvam 是一个很好的对比案例:30B 版本使用经典 GQA,105B 版本则切换为 MLA。

Image

图 12:使用 MLA 的 105B Sarvam、使用 GQA 的 30B Sarvam 与纯 MHA 的总 KV 缓存大小对比

3. 多头潜在注意力(MLA)

多头潜在注意力(MLA)的动机与分组查询注意力(GQA)相似:降低 KV 缓存内存需求。二者区别在于:MLA 通过压缩缓存内容节省空间,而非通过共享头减少 K/V 数量。

Image

图 13:与 GQA 不同,MLA 不通过分组头降低 KV 开销,而是缓存压缩潜在表示。为简化图示,查询端的压缩未画出(来源:大语言模型架构对比)

MLA 最初由 DeepSeek-V2 论文提出,成为 DeepSeek 时代的标志性设计(尤其在 DeepSeek-V3 和 R1 之后)。它比 GQA 更难实现与部署,但在模型规模与上下文长度大到缓存流量成为瓶颈时,往往更具优势——因为在相同内存压缩率下,它能保持更好的建模效果(后文详述)。

典型架构DeepSeek V3、Kimi K2、GLM-5、Ling 2.5、Mistral Large 3、Sarvam 105B

3.1 压缩而非共享

与 MHA 和 GQA 缓存全分辨率键值张量不同,MLA 存储潜在表示,并在需要时重建可用状态。本质上,它是一种嵌入在注意力内部的**缓存压缩策略,**如上图所示。

下图展示了其相对标准 MHA 的节省效果。

Image

图 14:上下文长度扩大后,缓存潜在表示而非完整 K/V 张量的节省效果非常明显(来源:LLMs-from-scratch MLA 章节)

3.2 MLA 消融实验

DeepSeek-V2 论文的消融实验显示:GQA 建模效果弱于 MHA,而 MLA 表现稳定,精心调优后甚至略优于 MHA。这比“节省内存”更具说服力。

换言之,DeepSeek 选择 MLA 不仅因为高效,更因为它在大规模场景下是兼顾性能与效率的方案。(但同事也提到,MLA 仅在一定规模下效果良好。对于较小模型,如<100B,GQA 效果更好,至少更容易调优。)

Image

图 15:GQA 效果低于 MHA,而 MLA 保持竞争力,甚至小幅超越。论文来源:DeepSeek-V2

下图再次对比 30B Sarvam(GQA)与 105B Sarvam(MLA)。

Image

图 16:GQA 与 MLA 从不同方向解决同一瓶颈:简单易实现 vs 大模型更好性能

3.3 MLA 在 DeepSeek 之后的普及

DeepSeek V3/R1、V3.1 等将这一设计标准化后,MLA 开始出现在第二批架构中。Kimi K2 沿用 DeepSeek 方案并扩展规模。GLM-5 采用 MLA + DeepSeek 稀疏注意力(来自 DeepSeek V3.2)。Ling 2.5 将 MLA 与线性注意力混合。Sarvam 发布两个版本:30B 用经典 GQA,105B 切换为 MLA。

最后一组对比尤其有价值:它抛开了技术复杂度讨论,直接体现工程选择——Sarvam 团队同时实现了两种方案,并刻意为不同规模模型选择不同策略。从这个角度看,MLA 不再是理论备选方案,而是模型家族扩展时的明确升级路径。

4. 滑动窗口注意力(SWA)

滑动窗口注意力通过限制每个位置可关注的前置 token 数量,降低长上下文推理的内存与计算开销。每个 token 不再关注完整前缀,仅关注其位置周围固定窗口内的最近 token。由于注意力被限制在局部 token 邻域,该机制常被称为局部注意力。

部分架构将这些局部层与少量全局注意力层结合,确保信息仍能在整个序列中传播。

Image

图 17:核心思路很简单:常规注意力是全局注意力,滑动窗口是局部注意力。全局注意力允许每个 token 看到完整前缀;SWA 将多数层改为局部注意力层(来源:大语言模型架构对比)

典型架构Gemma 3 27B、OLMo 3 32B、Xiaomi MiMo-V2-Flash、Arcee Trinity、Step 3.5 Flash、Tiny Aya

4.1 以 Gemma 3 为参考

Gemma 3 是目前最清晰的 SWA 案例之一,便于与 Gemma 2 对比。Gemma 2 已采用混合注意力:局部与全局层比例 1:1,窗口 4096 token。Gemma 3 进一步将比例提升至 5:1,窗口缩小至 1024。

关键结论并非“局部注意力更高效”(这早已被证实),而是 Gemma 3 消融实验显示:更激进的局部化对建模性能影响极小。

Image

Gemma 消融实验表明:更小窗口与更激进的局部/全局比对困惑度影响很小。论文来源:Gemma 3 文章(来源:大语言模型架构对比)

4.2 比例与窗口大小

实际中,“模型使用 SWA”并不意味着完全依赖 SWA。关键在于局部层与全局层的配比和**注意力窗口大小。**例如:

  • Gemma 3、小米:局部:全局 = 5:1

  • OLMo 3、Arcee Trinity:3:1

  • 小米窗口仅 128,远小于 Gemma 的 1024,策略更激进

SWA 本质是一个可调节激进程度的“旋钮”。

Image

图 18:长上下文节省来自将多数全注意力层改为局部层,减少这些层需要考虑的缓存上下文(来源:LLMs-from-scratch SWA 章节)

4.3 SWA 与 GQA 结合

SWA 常与 GQA 一同出现,因为二者解决推理问题的不同维度:SWA 减少局部层需要考虑的上下文量,GQA 减少每个 token 对缓存的键值状态贡献。

这也是为什么近年多数稠密模型同时使用二者,而非二选一。Gemma 3 是很好的参考:在同一架构中同时使用滑动窗口注意力与分组查询注意力。

5. DeepSeek 稀疏注意力(DSA)

DeepSeek 稀疏注意力是 DeepSeek V3.2 系列中出现的架构改进,后续也被 GLM-5 采用。

具体来说,DeepSeek V3.2 将其与 多头潜在注意力(MLA) 结合,GLM-5 出于相同原因采用同一组合:降低长上下文推理成本。

典型架构DeepSeek V3.2、GLM-5

5.1 相对滑动窗口注意力的改进

滑动窗口注意力中,当前 token 不关注完整前缀,仅关注固定局部窗口。DeepSeek 稀疏注意力思路相似:每个 token 仅关注部分前置 token。

但被选中的 token 不由固定宽度局部窗口决定,而是使用**可学习稀疏模式。**简单来说,它采用“索引器 + 选择器”结构:轻量索引器计算相关度分数,token 选择器仅保留少量高分历史位置。

选择子集的方式是与滑动窗口注意力的核心区别:滑动窗口注意力硬编码局部性,DeepSeek 稀疏注意力仍限制关注子集,但让模型决定哪些历史 token 值得回顾。

Image

图 19:与滑动窗口注意力类似,DeepSeek 稀疏注意力也将每个 token 限制在部分前置 token 中,但不使用固定局部窗口(来源:从 DeepSeek V3 到 V3.2:架构、稀疏注意力与强化学习更新)

5.2 DeepSeek 稀疏注意力与 MLA

DeepSeek V3.2 同时使用多头潜在注意力(MLA)与 DeepSeek 稀疏注意力。MLA 通过压缩缓存内容降低 KV 缓存 开销;稀疏注意力减少模型需要回顾的前置上下文量。简言之:一个优化缓存表示,一个优化上层注意力模式。

Image

图 20:DeepSeek V3.2 是最典型参考,因为该模型家族与稀疏注意力思想关联最紧密

稀疏模式并非随机。第一阶段是**轻量索引器,**为每个新查询 token 对历史 token 打分。它使用 MLA 压缩后的 token 表示,在历史上下文上计算可学习相似度分数,让模型排序哪些历史位置值得回顾。

第二阶段是token 选择器:仅保留少量高分子集,例如历史位置的 Top-k,将该子集转为稀疏注意力掩码。核心在于:DeepSeek 稀疏注意力**不硬编码稀疏模式,**而是学习保留哪些历史 token。

Image

图 21:机制包含轻量索引器(为历史 token 打分)与选择器(仅保留少量子集用于注意力)(来源:从 DeepSeek V3 到 V3.2:架构、稀疏注意力与强化学习更新)

DeepSeek 稀疏注意力较新且实现复杂,因此目前普及程度不如分组查询注意力(GQA)。

6. 门控注意力

门控注意力最好被理解为**改进版全注意力块,**而非独立的注意力家族。

它通常出现在混合架构中:仍保留少量全注意力层用于精确内容检索,但在熟悉的缩放点积注意力块上增加若干稳定性改进。

Image

图 22:Trinity Large 是很好的对比,因为门控注意力并非仅通义一家的思路(后文详述)。在另一长上下文架构中,门控出现在缩放点积注意力输出之后、输出投影之前(来源:开源大语言模型的春天之梦)

6.1 门控注意力的应用场景

Qwen3-Next 和 Qwen3.5 架构表明:近年混合架构(下一节介绍)并未完全替换注意力,而是将多数昂贵全注意力层替换为更廉价方案,仅在网络中保留少量全注意力层。

这些保留的全注意力层,正是门控注意力的典型位置。Qwen3-Next 和 Qwen3.5 以 3:1 比例搭配门控注意力与门控 DeltaNet。

除混合架构外,Trinity 在更传统的注意力栈中也使用了相关门控思路,如上图所示。

6.2 门控注意力相对标准注意力

通义风格混合架构或 Trinity(非混合架构)中的门控注意力块,本质是**标准缩放点积注意力 + 额外改进。**在原始 门控注意力论文 中,这些改进用于让保留的全注意力层在混合架构中表现更稳定。

该模块外观仍接近标准(全)注意力,但增加:

  1. 输出门:在注意力结果加入残差前进行缩放

  2. 零均值 QK 归一化:替代标准 RMSNorm 处理 Q 和 K

  3. 部分旋转位置编码(Partial RoPE)

这些改动幅度不及 MLA 或线性注意力,仅为在熟悉注意力块上增加稳定性与可控性。

Image

图 23:在 Qwen3-Next 和 Qwen3.5 中,门控注意力作为全注意力层,周期性打断连续的门控 DeltaNet 块

注意:上图也包含门控 DeltaNet,将在下一节介绍。

7. 混合注意力

混合注意力是一种宏观设计模式,而非特定单一机制。整体思路:保留类 Transformer 栈,但将多数昂贵全注意力层替换为更廉价的线性或状态空间序列模块。

动机是**长上下文效率:**全注意力复杂度随序列长度平方增长,当模型上下文达到 128k、256k 甚至 1M token 时,注意力内存与计算开销极大。更合理的方案是:在多数层使用廉价序列模块,仅保留少量较重的检索层。(注意:这会带来一定建模性能损失。)

在 Qwen3-Next 中,这一模式体现为**3:1 混合:**3 个门控 DeltaNet 块 + 1 个门控注意力块。门控 DeltaNet 与 Mamba-2 密切相关(参见论文 Gated Delta Networks: Improving Mamba2 with Delta Rule),可理解为结合 DeltaNet 风格快速权重更新与 Mamba 风格门控的机制。后续架构保留整体思路,仅替换轻量序列混合器,如 Kimi Delta 注意力、轻量注意力、标准 Mamba-2。

Image

图 24:基础混合模式:多数块为廉价序列混合器,每四个块恢复一个较重注意力层(来源:大语言模型架构对比)

7.1 Qwen3-Next 中的门控 DeltaNet

据我所知,2025 年的 Qwen3-Next 是首个接近旗舰级、采用混合注意力的知名大模型。它并未完全移除注意力,而是以 3 个门控 DeltaNet 块搭配 1 个门控注意力块。

其中,轻量门控 DeltaNet 块承担大部分长上下文工作,内存增长远平缓于全注意力。保留较重门控注意力层,是因为 DeltaNet 在基于内容的精确检索上能力较弱。

在门控 DeltaNet 块内部,模型计算查询、键、值向量与两个可学习门(α、β)。它不构建常见的 token-to-token 注意力矩阵,而是使用Delta 规则更新写入小型快速权重记忆。粗略来说,该记忆存储过去信息的压缩动态摘要,门控则控制新信息加入量与旧状态保留量。

这使门控 DeltaNet 属于**线性注意力/循环类机制,**而非仅对 MHA 的微调。相对 Mamba-2,二者同属线性时间门控序列建模家族,但门控 DeltaNet 使用 DeltaNet 风格快速权重记忆更新,而非 Mamba 状态空间更新。

Image

图 25:混合架构的实际动机体现在内存曲线中。含门控 DeltaNet 的混合栈,随上下文长度的增长远慢于普通全注意力(来源:LLMs-from-scratch DeltaNet 章节)

Qwen3.5 将原 Qwen3-Next 的混合架构纳入通义主流旗舰系列,这一信号意义重大:基本表明混合策略取得成功,未来可能出现更多此类架构。

Image

图 26:Qwen3.5 显示通义团队将原 Qwen3-Next 分支方案升级为主流模型线,而非仅作为一次性高效变体(来源:开源大语言模型的春天之梦)

7.2 Kimi 线性注意力与改进 Delta 注意力

Kimi Linear 保留相同的 Transformer 骨架与 3:1 配比,但两部分机制均做了修改。

轻量部分:Kimi Delta 注意力是门控 DeltaNet 的改进版。通义使用单头标量门控控制记忆衰减,Kimi 使用逐通道门控,对记忆更新控制更精细。 较重部分:Kimi 将 Qwen3-Next 的门控注意力层替换为门控 MLA 层。

整体模式仍与 Qwen3-Next、Qwen3.5 一致:多数层由廉价线性类机制处理,周期性保留较重层以增强检索能力。

Image

图 27:Kimi Linear 保留整体混合模式,同时修改轻量部分与较重注意力部分(来源:大语言模型架构对比)

7.3 Ling 2.5 与轻量注意力

Ling 2.5 在轻量部分做了另一项替换:不再使用门控 DeltaNet,而是采用更简单的循环线性注意力变体——**轻量注意力。**较重部分保留来自 DeepSeek 的 MLA。

多数序列混合工作在廉价线性注意力块中完成,少量较重层保留以维持强检索能力。区别仅在于:具体轻量机制变为轻量注意力,而非 DeltaNet 或 Kimi Delta 注意力。

Image

图 28:Ling 2.5 与 Qwen3.5 同属线性注意力混合架构,尽管 Ling 使用轻量注意力 + MLA 替代通义方案(来源:开源大语言模型的春天之梦)

Ling 2.5 更侧重长上下文效率,而非绝对基准榜性能。据 Ling 团队称,在 32k token 下吞吐量显著快于 Kimi K2,这正是这类混合架构追求的实际收益。

Image

图 29:Ling 2.5 被定位为强效率升级方案,在万亿参数规模下,32k token 吞吐量远高于 Kimi K2(来源:Ling 2.5 模型主页)

Nemotron 与 Mamba-2

Nemotron 将模式进一步远离 Transformer 基线。Nemotron 3 Nano 是 Mamba-Transformer 混合架构:将 Mamba-2 序列建模块与稀疏 MoE 层交错,仅在少量层中使用自注意力。

这是前述基本权衡的更极端版本:轻量序列模块为 Mamba-2 状态空间块,而非 DeltaNet 风格快速权重更新,但核心权衡相似。

Image

图 30:Nemotron 3 Nano 使用 Mamba-2 完成大部分序列建模,仅在少量层中使用自注意力(来源:大语言模型架构对比)

更大的 Nemotron 3 Super 保留 Mamba-2 混合注意力方案,并增加其他高效改进,如潜在 MoE 与共享权重多 token 预测(MTP)用于 speculative decoding。

Image

图 31:Nemotron 3 Super 保留 Mamba-2 混合注意力模式,同时叠加潜在 MoE 与共享权重 MTP(来源:大语言模型架构对比)

结论

当然,文献中还有更多(多数偏小众)的注意力变体未在本文覆盖。本文聚焦于当前主流开源权重模型中实际使用的方案。

我个人非常期待两点:

  1. 全新的 Mamba-3 层被整合到上述混合架构中(替换门控 DeltaNet)

  2. 注意力残差 得到更广泛应用

在实践中,你可能会问:目前“最好”的架构是什么?这很难回答,因为尚无公开实验在完全相同训练数据、训练方案下对比不同架构。

因此,我们目前只能回答:针对特定任务,已训练好的最优模型是什么。在我看来,混合架构仍属新颖方案,核心卖点主要是**长上下文效率,**而非单纯建模性能。因此,我认为它们非常适合智能体场景(如 OpenClaw)。

就个人体验而言,混合架构的问题还在于推理栈尚未完全优化。我在本地运行更经典的方案(如使用 GQA 的 GPT-OSS)时,能获得更高的 token/秒吞吐量。

无论如何,我很好奇 DeepSeek V4 会带来什么,毕竟过去两年 DeepSeek 一直是可靠的趋势引领者。

-------------------------------------------------------------

微信公众号:算子之心