Kimi 注意力残差（Attention Residuals）技术深度解读Kimi 注意力残差（Attention Re

Kimi 注意力残差（Attention Residuals）技术深度解读

作者：吴佳浩

撰稿时间：2026-3-17

最后更新：2026-3-18

在这里插入图片描述

Kimi 惊动马斯克

Kimi 发布 Attention Residuals（注意力残差） 技术

颠覆传统残差连接，给 AI 装"智能筛选器"

48B 参数模型训练效率提升 1.25 倍，科学推理提升 7.5%

马斯克转发点赞："令人印象深刻"

"推理模型之父" Jerry Tworek："深度学习 2.0 来了"

Kimi 幽默回应："你的火箭也不错！"

我只想说老马可太忙了每天都被惊动。。。。，中国AI的迭代速度不得不让人惊叹，但是从我个人日常的使用情况来看 kimi2.5的coding的能力还是和Claude有些许差距的当然这一点见仁见智，你也留言说说你的看法。但是中国记得AI创新确实快，果然劳动人民最光荣，作为我国AI浪潮的下的一员与有荣焉。

前言

在 2026 年英伟达 GTC 大会上，月之暗面（Moonshot AI）创始人杨植麟首次系统性披露了 Kimi K2.5 模型背后的技术路线图。其中，"注意力残差"（Attention Residuals）作为底层架构的核心创新之一，被认为是推动大模型智能突破的关键技术。

本文将用通俗易懂的方式，带你深入理解什么是注意力残差，以及它为何能让 Kimi 变得更强。

第一部分：Transformer 是如何"思考"的
- 1.1 注意力机制：模型的"焦点"
- 1.2 残差连接：让信息"抄近道"
第二部分：注意力残差的创新之处
- 2.1 传统注意力的问题
- 2.2 注意力残差的解决方案
第三部分：为什么这很重要
- 3.1 解决长上下文记忆问题
- 3.2 提升多模态理解能力
- 3.3 训练效率提升
第四部分：技术架构全景
- 4.1 Kimi K2.5 整体架构
- 4.2 关键参数对比
第五部分：实际效果
- 5.1 AttnRes 技术本身的提升
- 5.2 Kimi K2.5 产品级基准测试
- 5.3 Agent Swarm：注意力残差的扩展应用
第六部分：AttnRes 对整个大模型行业的影响与展望
- 6.1 一个低门槛的范式级改动
- 6.2 对主流模型架构的冲击
- 6.3 对算力与基础设施的影响
- 6.4 对中国 AI 格局的意义
- 6.5 未来可能的研究方向
总结

阅读前注意

本文涉及两个不同层次的概念：

Kimi Linear（48B 总参数 / 3B 激活参数）：论文中验证 Attention Residuals 技术效果的实验模型，在 1.4T tokens 上预训练

Kimi K2.5（1T 总参数 / 32B 激活参数）：应用了该技术的生产级产品模型

"1.25 倍效率提升"来自前者的 scaling law 实验，指的是在相同性能下所需计算量的对比，不是后者的整体训练加速。两者不要混淆。

第一部分：Transformer 是如何"思考"的

在了解注意力残差之前，我们需要先理解大语言模型的基础架构。

1.1 注意力机制：模型的"焦点"

想象你在阅读一段文字。你的大脑不会平等地处理每个字，而是有选择地关注某些关键词。比如这句话：

"因为天空下起了雨，所以地面变得湿滑了。"

人类会自然地把注意力放在"雨"和"湿滑"之间的关系上，而忽略"因为"、"所以"这样的连接词。

注意力机制（Attention Mechanism） 就是模拟这种人类认知过程的数学工具。它让模型在处理每个词时，能够"看清楚"与它相关的其他词。

flowchart TD
    subgraph Input["输入序列"]
        A["词1: 因为"]
        B["词2: 天空"]
        C["词3: 下起了"]
        D["词4: 雨"]
        E["词5: 所以"]
        F["词6: 地面"]
        G["词7: 变得"]
        H["词8: 湿滑了"]
    end
    
    subgraph Attention["注意力机制"]
        A -->|"关注"| D
        B -->|"关注"| D
        C -->|"关注"| D
        D -->|"导致"| F
        D -->|"导致"| H
        F -->|"关联"| H
    end
    
    subgraph Output["输出理解"]
        H
    end
    
    Input --> Attention
    Attention --> Output

1.2 残差连接：让信息"抄近道"

在传统的深度神经网络中，信息需要层层传递。就像接力赛一样，每一棒都不能出错。但随着层数增加，信息会在传递过程中逐渐"稀释"甚至"走样"。

残差连接（Residual Connection） 最早来自计算机视觉领域的 ResNet 技术。它的核心思想是：不要让信息只走"主路"，而是给信息留一条"捷径"。

flowchart LR
    subgraph Traditional["传统神经网络"]
        direction TB
        Input1["输入"] --> Layer1["层1"]
        Layer1 --> Layer2["层2"]
        Layer2 --> Layer3["层3"]
        Layer3 --> Output1["输出"]
    end
    
    subgraph Residual["残差网络"]
        direction TB
        Input2["输入"] --> Layer1R["层1"]
        Layer1R --> Layer2R["层2"]
        Layer2R --> Layer3R["层3"]
        Layer3R --> Add["+"]
        Input2 -.->|"快捷连接"| Add
        Add --> Output2["输出"]
    end
    
    Traditional -->|"对比"| Residual

图中虚线就是"残差边"（Residual Edge），它允许信息直接跳过某些层传递到后面。

第二部分：注意力残差的创新之处

2.1 传统注意力的问题

在标准 Transformer 架构中，注意力层的输出是直接传递给下一层的。研究团队识别出标准残差累加存在三个具体问题：

无选择性访问：所有层接收完全相同的聚合状态，无法针对性地提取某一历史层的信息，只能被动接受"平均混合"的结果。
层类型需求不同：注意力层（Attention Layer）和前馈/专家层（FFN/MoE Layer）对"历史层混合比例"的需求本质上不同，但传统残差对两者一视同仁，无法区分处理。
PreNorm 稀释问题：使用 PreNorm（前置归一化）时，隐状态的幅值会随深度线性增长（O(L)），导致早期层的信息被后续层的数值"淹没"，越埋越深。

flowchart TD
    subgraph Traditional_Attention["传统注意力堆叠"]
        Input["输入"] --> Attn1["注意力层1"]
        Attn1 --> Attn2["注意力层2"]
        Attn2 --> Attn3["注意力层3"]
        Attn3 --> Attn4["..."]
        Attn4 --> AttnN["注意力层N"]
        AttnN --> Output1["输出"]
        
        Attn1 -.->|"信息衰减"| AttnN
    end
    
    style Attn1 fill:#90EE90
    style AttnN fill:#FFB6C1

2.2 注意力残差的解决方案

Kimi 提出的"注意力残差"技术，本质上是将残差连接的理念引入注意力机制。其核心创新包括：

设计一：跨层注意力直连

不再让注意力信息只逐层传递，而是在相邻或间隔的注意力层之间建立"快捷通道"。

flowchart TD
    subgraph Attention_Residuals["注意力残差架构"]
        Input2["输入"] --> Attn1["注意力层1"]
        Attn1 --> Attn2["注意力层2"]
        Attn2 --> Attn3["注意力层3"]
        Attn3 --> Attn4["注意力层4"]
        Attn4 --> Attn5["..."]
        Attn5 --> AttnN2["注意力层N"]
        AttnN2 --> Output3["输出"]
        
        Attn1 -.->|"残差边1"| Attn3
        Attn2 -.->|"残差边2"| Attn4
        Attn3 -.->|"残差边3"| Attn5
        AttnN2 -.->|"残差边N"| Output3
    end
    
    style Attn1 fill:#87CEEB
    style Attn2 fill:#87CEEB
    style Attn3 fill:#87CEEB
    style Attn4 fill:#87CEEB
    style AttnN2 fill:#87CEEB

设计二：跨层 Softmax 注意力加权

每一层的输入，不再是简单地加上"上一层输出"，而是对所有前序层的输出（包括初始 token embedding）做 softmax 注意力加权求和：

第 l 层输入 = softmax_attention(Q_l, [h_0, h_1, ..., h_{l-1}])

其中 Q_l 是可学习的伪查询向量（pseudo-query vector），Key 和 Value 来自前序各层输出（经 RMSNorm 归一化）。

关键设计：温和启动（Warm Start）

伪查询向量初始化为零，使得训练初期注意力权重均匀分布，等效于普通残差连接，从而避免训练早期的不稳定。随着训练推进，模型逐步学会"选择性地记住哪些层更重要"。这一设计让架构改动对训练过程几乎透明，同时又保留了完整的表达能力。

flowchart LR
    subgraph Fusion["注意力残差融合"]
        direction TB
        Attn_Out1["注意力层1输出"] -->|"权重1"| Fusion1["Softmax 加权融合"]
        Attn_Out2["注意力层2输出"] -->|"权重2"| Fusion1
        Attn_Out3["注意力层3输出"] -->|"权重3"| Fusion1
        Embed["Token Embedding h_0"] -->|"权重0"| Fusion1
        
        Fusion1 --> Weighted["加权输出"]
        Weighted --> Next_Layer["下一层"]
    end
    
    style Fusion1 fill:#DDA0DD

第三部分：为什么这很重要

3.1 解决长上下文记忆问题

Kimi K2.5 支持高达 256K tokens 的上下文长度（约等于 40 万汉字）。这么长的上下文，对注意力机制是巨大挑战。

传统方法在处理长序列时，早期的关键信息往往被后续的大量 tokens"淹没"。注意力残差通过多条信息通道，让早期的重要信息能够更直接地影响最终输出。

flowchart LR
    subgraph Problem["问题示意"]
        direction TB

        Long_Context["长上下文（256K tokens）"]
        Tokens1["开头: 关键设定"]
        Tokens2["中间: 大段内容"]
        Tokens3["结尾: 当前问题"]

        Long_Context --> Tokens1
        Long_Context --> Tokens2
        Long_Context --> Tokens3

        Tokens1 -.->|传统: 信息被稀释| Output_A["输出"]
        Tokens2 -.->|传统: 信息被稀释| Output_A
        Tokens3 -->|传统: 强关联| Output_A

        Tokens1 ==> |注意力残差: 保持连接| Output_B["输出"]
    end

3.2 提升多模态理解能力

Kimi K2.5 是原生多模态模型，同时处理图像、视频和文本。注意力残差帮助模型更好地融合不同模态的信息：

文本的语义信息
图像的空间信息
视频的时序信息

这些信息通过不同的注意力路径传递，最终融合成统一理解。

flowchart TD
    subgraph Multimodal["多模态注意力残差"]
        Text["文本输入"] --> Text_Attn["文本注意力"]
        Image["图像输入"] --> Image_Attn["图像注意力"]
        Video["视频输入"] --> Video_Attn["视频注意力"]
        
        Text_Attn --> Fusion1["跨模态融合"]
        Image_Attn --> Fusion1
        Video_Attn --> Fusion1
        
        Fusion1 --> Attn_Residual["注意力残差模块"]
        Attn_Residual -->|"多模态理解"| Unified["统一理解"]
        
        Text_Attn -.->|"文本残差"| Unified
        Image_Attn -.->|"图像残差"| Unified
        Video_Attn -.->|"视频残差"| Unified
    end
    
    style Fusion1 fill:#FFD700
    style Attn_Residual fill:#FFA07A

3.3 训练效率提升

杨植麟在 GTC 演讲中提到，Kimi 的技术路线追求三个维度的协同：

Token 效率：用更少的计算完成同样的任务
长上下文：处理超长文本的能力
智能体集群：多 agent 协作

注意力残差对这三个维度都有贡献：

维度	注意力残差的贡献
Token 效率	减少冗余计算，信息传递更高效
长上下文	保持长距离依赖关系
智能体集群	多 agent 之间的注意力可以更好地残差连接

工程实现的开销几乎可以忽略：

训练额外开销：< 4%
推理延迟增加：< 2%

实现方式：缓存式流水线通信 + 两阶段计算策略，将跨层注意力计算与正常前向传播并行化。这意味着 AttnRes 是一个近乎零代价的架构升级，工程落地门槛极低。

第四部分：技术架构全景

4.1 Kimi K2.5 整体架构

Kimi K2.5 采用的是 MoE（混合专家） 架构，总参数 1 万亿，但每次推理只激活 320 亿参数。注意力残差是其中的重要组成部分。

flowchart TB
    subgraph Kimi_K25["Kimi K2.5 架构"]
        Input["输入向量"] --> Embedding["词嵌入层"]
        Embedding --> MoE_Block["MoE 专家混合块 × 60层"]
        
        subgraph MoE_Detail["MoE 内部结构"]
            direction LR
            Shared_Expert["共享专家\n(1个)"] 
            Route["路由器"] --> Expert1["专家1"]
            Route --> Expert2["专家2"]
            Route --> Expert3["..."]
            Route --> Expert384["专家384"]
            
            Expert1 --> Select["选择 Top-8"]
            Expert2 --> Select
            Expert384 --> Select
        end
        
        MoE_Block --> Attn_Residual["注意力残差"]
        Attn_Residual --> Output["输出预测"]
        
        MoE_Block -.->|"残差连接"| Attn_Residual
    end
    
    style MoE_Block fill:#E6E6FA
    style Attn_Residual fill:#98FB98

4.2 关键参数对比

参数	数值
总参数	1T（1万亿）
激活参数	32B（320亿）
层数	61 层（含 1 层 Dense）
注意力头数	64
注意力隐藏维度	7168
MoE 专家数	384
每 token 激活专家数	8
上下文长度	256K tokens

第五部分：实际效果

5.1 AttnRes 技术本身的提升

以下数据来自 Kimi Linear（48B 总参数，1.4T tokens 预训练），是 AttnRes 技术相对标准残差基线的净收益，排除了模型规模差异的影响：

基准测试	标准残差（Baseline）	+ AttnRes	提升
GPQA-Diamond（科学推理）	36.9%	44.4%	+7.5%
Math（数学）	53.5%	57.1%	+3.6%
HumanEval（代码）	59.1%	62.2%	+3.1%

提升在所有任务上保持一致，说明 AttnRes 是一项普适性的架构改进，而非针对特定任务的过拟合优化。

5.2 Kimi K2.5 产品级基准测试

在 Kimi Linear 验证技术可行性之后，K2.5 在多个权威基准测试中取得了开源模型最佳表现：

flowchart LR
    subgraph Benchmark["关键基准测试"]
        direction TB
        A["SWE-Bench 代码能力: 76.8%"]
        B["AIME 2025 数学推理: 96.1%"]
        C["MMMU-Pro 多模态理解: 78.5%"]
        D["BrowseComp 搜索增强: 78.4%"]
        E["VideoMMU 视频理解: 87.4%"]
    end
    
    Benchmark -->|"Agent Swarm\n模式"| Improvement["最高 4.5 倍\n加速"]
    
    style Improvement fill:#FFD700

5.3 Agent Swarm：注意力残差的扩展应用

Kimi K2.5 创新性地引入了"智能体集群"（Agent Swarm）模式。一个主 agent 可以动态创建最多 100 个子 agent，并行处理任务。

这种架构本质上也是注意力残差思想的扩展：

主 agent 的"注意力"可以残差传递给各个子 agent
子 agent 之间的结果通过残差方式融合
最终实现 4.5 倍的端到端加速

flowchart TD
    subgraph Agent_Swarm["Agent Swarm 架构"]
        Main["主 Agent"] -->|"任务分解"| Sub1["子 Agent 1"]
        Main -->|"任务分解"| Sub2["子 Agent 2"]
        Main -->|"任务分解"| Sub3["子 Agent 3"]
        Main -->|"..."| SubN["子 Agent N"]
        
        Sub1 -->|"结果融合"| Result["聚合结果"]
        Sub2 -->|"结果融合"| Result
        Sub3 -->|"结果融合"| Result
        SubN -->|"结果融合"| Result
        
        Main -.->|"注意力残差"| Result
    end
    
    style Main fill:#FF6B6B
    style Result fill:#4ECDC4

第六部分：AttnRes 对整个大模型行业的影响与展望

6.1 一个低门槛的范式级改动

AttnRes 最值得关注的地方，不只是它带来了多少个百分点的提升，而是它的改动成本极低。训练开销不到 4%，推理延迟增加不到 2%，伪查询向量零初始化保证训练稳定性——这意味着任何已有的 Transformer 架构，理论上都可以以极小的代价插入这一机制。

这与历史上真正影响深远的架构改动高度相似。残差连接（ResNet）当年在计算机视觉领域的普及，也正是因为它几乎不增加计算成本，却大幅提升了深层网络的可训练性。AttnRes 在大模型领域的潜在扩散路径，与之非常接近。

6.2 对主流模型架构的冲击

目前主流的开源和闭源大模型，从 LLaMA 系列到 DeepSeek、Qwen，底层残差机制的设计几乎都沿用了原始 Transformer 的标准做法。AttnRes 论文公开后，摆在这些团队面前的问题变得很直接：

沿用标准残差，意味着在架构层面已知存在 PreNorm 稀释和无选择性访问的缺陷
引入 AttnRes，改造成本低，但需要重新进行预训练或至少大规模的继续训练验证

对于尚在预训练阶段的新模型，AttnRes 几乎没有理由不采纳。对于已经训练完成的模型，如何通过架构蒸馏或增量训练将这一能力迁移进去，将是接下来研究的热点方向之一。

flowchart TD
    subgraph Impact["AttnRes 对行业的影响路径"]
        Paper["论文公开\n(MoonshotAI)"] --> NewModel["新模型预训练\n直接采纳 AttnRes"]
        Paper --> ExistModel["已有模型\n架构迁移研究"]
        Paper --> Research["学术界跟进\n变体与扩展研究"]

        NewModel --> Better["新一代模型\n智能上限更高"]
        ExistModel --> Distill["蒸馏 / 继续训练\n将能力注入旧模型"]
        Research --> Variants["AttnRes 变体\n针对不同场景优化"]

        Better --> Industry["行业整体\n智能水位抬升"]
        Distill --> Industry
        Variants --> Industry
    end

    style Paper fill:#87CEEB
    style Industry fill:#98FB98

6.3 对算力与基础设施的影响

AttnRes 的跨层注意力计算引入了层间依赖，这对推理框架的调度提出了新的要求。传统的逐层流水线调度在 AttnRes 下需要做出调整——每层的输入不再只依赖上一层，而是依赖所有前序层的缓存。

这意味着：

KV Cache 的管理粒度变细：不只是 token 维度的缓存，还需要维护层维度的历史状态
推理框架需要适配：vLLM、TensorRT-LLM 等主流推理框架需要针对 AttnRes 做专项优化
硬件内存带宽压力增加：跨层访问的数据量更大，对 HBM 带宽有更高要求

不过，论文中已经验证推理延迟增加不到 2%，说明工程团队已经找到了有效的实现路径，这一障碍在实践中是可以被克服的。

6.4 对中国 AI 格局的意义

AttnRes 是一项来自中国团队的基础架构创新，发表在全球顶级 AI 会议和平台上，并得到了马斯克等国际顶级人物的公开认可。这一事件的意义不只在于技术本身，更在于它传递出的信号：

中国 AI 团队的创新，已经从"追赶应用"进入"引领架构"的阶段。从 DeepSeek 的 MLA（多头潜在注意力）到 Kimi 的 AttnRes，底层机制的原创性探索正在持续产出。这种趋势一旦形成正循环，其复利效应将在未来三到五年内对全球 AI 格局产生深远影响。

6.5 未来可能的研究方向

AttnRes 本身仍有大量值得深入探索的空间：

方向	说明
AttnRes + 稀疏注意力	在超长上下文场景下，跨层注意力的计算量是否可以进一步稀疏化
AttnRes 在小模型上的效果	端侧模型（1B-7B 参数）是否同样受益，边际收益是否随规模变化
跨模型的残差连接	多模型协作时，注意力残差思想能否延伸到模型之间
AttnRes 与 RLHF 的结合	强化学习微调阶段，层级历史信息的保留是否有助于对齐稳定性
可解释性研究	伪查询向量学到了什么样的"层选择偏好"，能否从中提取可解释的推理路径

这些方向中，"AttnRes 在小模型上的效果"可能是最快被验证的一个。如果 1B 量级的小模型同样能以 <4% 的训练开销获得显著提升，AttnRes 就将成为几乎所有规模模型的标配组件。

总结

注意力残差技术是 Kimi K2.5 底层架构的核心创新之一。它借鉴了计算机视觉领域成熟的残差连接思想，创造性地引入到注意力机制中，解决了大模型在深层网络中的信息传递问题。

从更宏观的视角看，AttnRes 的本质可以这样理解：Transformer 用 attention 替代了序列维度上的固定递归（RNN），而 AttnRes 把同样的思想应用到了网络深度维度上——相当于在模型自身各层之间，再做一次 Transformer。这也是为什么有研究者将其称为"深度学习 2.0"——不是标题党，而是架构范式层面真实的递进。

核心价值：

更长记忆：更好地保持长距离依赖关系
更高效率：减少信息在传递过程中的衰减，工程开销极低（训练 <4%，推理 <2%）
更强多模态：跨模态信息更好地融合
更易扩展：为 Agent Swarm 等创新奠定基础
训练友好：伪查询向量零初始化，温和启动，不破坏现有训练稳定性

杨植麟在 GTC 2026 上强调："推动大模型智能上限的持续突破，必须从底层架构入手。"注意力残差正是这种理念的具体实践，它让 Kimi 在保持高效推理的同时，实现了更强的智能表现。

参考资料：

Kimi K2.5 技术报告 (Moonshot AI)
Attention Residuals 论文 (MoonshotAI/Attention-Residuals)
IT之家：月之暗面创始人杨植麟首度披露 Kimi 技术路线
GitHub: MoonshotAI/Kimi-K2.5

Kimi 注意力残差（Attention Residuals）技术深度解读