Kimi 注意力残差(Attention Residuals)技术深度解读
作者:吴佳浩
撰稿时间:2026-3-17
最后更新:2026-3-18
Kimi 惊动马斯克
- Kimi 发布 Attention Residuals(注意力残差) 技术
- 颠覆传统残差连接,给 AI 装"智能筛选器"
- 48B 参数模型训练效率提升 1.25 倍,科学推理提升 7.5%
- 马斯克转发点赞:"令人印象深刻"
- "推理模型之父" Jerry Tworek:"深度学习 2.0 来了"
- Kimi 幽默回应:"你的火箭也不错!"
我只想说老马可太忙了每天都被惊动。。。。,中国AI的迭代速度不得不让人惊叹,但是从我个人日常的使用情况来看 kimi2.5的coding的能力还是和Claude有些许差距的当然这一点见仁见智,你也留言说说你的看法。但是中国记得AI创新确实快,果然劳动人民最光荣,作为我国AI浪潮的下的一员与有荣焉。
前言
在 2026 年英伟达 GTC 大会上,月之暗面(Moonshot AI)创始人杨植麟首次系统性披露了 Kimi K2.5 模型背后的技术路线图。其中,"注意力残差"(Attention Residuals)作为底层架构的核心创新之一,被认为是推动大模型智能突破的关键技术。
本文将用通俗易懂的方式,带你深入理解什么是注意力残差,以及它为何能让 Kimi 变得更强。
目录
- 第一部分:Transformer 是如何"思考"的
- 1.1 注意力机制:模型的"焦点"
- 1.2 残差连接:让信息"抄近道"
- 第二部分:注意力残差的创新之处
- 2.1 传统注意力的问题
- 2.2 注意力残差的解决方案
- 第三部分:为什么这很重要
- 3.1 解决长上下文记忆问题
- 3.2 提升多模态理解能力
- 3.3 训练效率提升
- 第四部分:技术架构全景
- 4.1 Kimi K2.5 整体架构
- 4.2 关键参数对比
- 第五部分:实际效果
- 5.1 AttnRes 技术本身的提升
- 5.2 Kimi K2.5 产品级基准测试
- 5.3 Agent Swarm:注意力残差的扩展应用
- 第六部分:AttnRes 对整个大模型行业的影响与展望
- 6.1 一个低门槛的范式级改动
- 6.2 对主流模型架构的冲击
- 6.3 对算力与基础设施的影响
- 6.4 对中国 AI 格局的意义
- 6.5 未来可能的研究方向
- 总结
阅读前注意
本文涉及两个不同层次的概念:
- Kimi Linear(48B 总参数 / 3B 激活参数):论文中验证 Attention Residuals 技术效果的实验模型,在 1.4T tokens 上预训练
- Kimi K2.5(1T 总参数 / 32B 激活参数):应用了该技术的生产级产品模型
"1.25 倍效率提升"来自前者的 scaling law 实验,指的是在相同性能下所需计算量的对比,不是后者的整体训练加速。两者不要混淆。
第一部分:Transformer 是如何"思考"的
在了解注意力残差之前,我们需要先理解大语言模型的基础架构。
1.1 注意力机制:模型的"焦点"
想象你在阅读一段文字。你的大脑不会平等地处理每个字,而是有选择地关注某些关键词。比如这句话:
"因为天空下起了雨,所以地面变得湿滑了。"
人类会自然地把注意力放在"雨"和"湿滑"之间的关系上,而忽略"因为"、"所以"这样的连接词。
注意力机制(Attention Mechanism) 就是模拟这种人类认知过程的数学工具。它让模型在处理每个词时,能够"看清楚"与它相关的其他词。
flowchart TD
subgraph Input["输入序列"]
A["词1: 因为"]
B["词2: 天空"]
C["词3: 下起了"]
D["词4: 雨"]
E["词5: 所以"]
F["词6: 地面"]
G["词7: 变得"]
H["词8: 湿滑了"]
end
subgraph Attention["注意力机制"]
A -->|"关注"| D
B -->|"关注"| D
C -->|"关注"| D
D -->|"导致"| F
D -->|"导致"| H
F -->|"关联"| H
end
subgraph Output["输出理解"]
H
end
Input --> Attention
Attention --> Output
1.2 残差连接:让信息"抄近道"
在传统的深度神经网络中,信息需要层层传递。就像接力赛一样,每一棒都不能出错。但随着层数增加,信息会在传递过程中逐渐"稀释"甚至"走样"。
残差连接(Residual Connection) 最早来自计算机视觉领域的 ResNet 技术。它的核心思想是:不要让信息只走"主路",而是给信息留一条"捷径"。
flowchart LR
subgraph Traditional["传统神经网络"]
direction TB
Input1["输入"] --> Layer1["层1"]
Layer1 --> Layer2["层2"]
Layer2 --> Layer3["层3"]
Layer3 --> Output1["输出"]
end
subgraph Residual["残差网络"]
direction TB
Input2["输入"] --> Layer1R["层1"]
Layer1R --> Layer2R["层2"]
Layer2R --> Layer3R["层3"]
Layer3R --> Add["+"]
Input2 -.->|"快捷连接"| Add
Add --> Output2["输出"]
end
Traditional -->|"对比"| Residual
图中虚线就是"残差边"(Residual Edge),它允许信息直接跳过某些层传递到后面。
第二部分:注意力残差的创新之处
2.1 传统注意力的问题
在标准 Transformer 架构中,注意力层的输出是直接传递给下一层的。研究团队识别出标准残差累加存在三个具体问题:
- 无选择性访问:所有层接收完全相同的聚合状态,无法针对性地提取某一历史层的信息,只能被动接受"平均混合"的结果。
- 层类型需求不同:注意力层(Attention Layer)和前馈/专家层(FFN/MoE Layer)对"历史层混合比例"的需求本质上不同,但传统残差对两者一视同仁,无法区分处理。
- PreNorm 稀释问题:使用 PreNorm(前置归一化)时,隐状态的幅值会随深度线性增长(O(L)),导致早期层的信息被后续层的数值"淹没",越埋越深。
flowchart TD
subgraph Traditional_Attention["传统注意力堆叠"]
Input["输入"] --> Attn1["注意力层1"]
Attn1 --> Attn2["注意力层2"]
Attn2 --> Attn3["注意力层3"]
Attn3 --> Attn4["..."]
Attn4 --> AttnN["注意力层N"]
AttnN --> Output1["输出"]
Attn1 -.->|"信息衰减"| AttnN
end
style Attn1 fill:#90EE90
style AttnN fill:#FFB6C1
2.2 注意力残差的解决方案
Kimi 提出的"注意力残差"技术,本质上是将残差连接的理念引入注意力机制。其核心创新包括:
设计一:跨层注意力直连
不再让注意力信息只逐层传递,而是在相邻或间隔的注意力层之间建立"快捷通道"。
flowchart TD
subgraph Attention_Residuals["注意力残差架构"]
Input2["输入"] --> Attn1["注意力层1"]
Attn1 --> Attn2["注意力层2"]
Attn2 --> Attn3["注意力层3"]
Attn3 --> Attn4["注意力层4"]
Attn4 --> Attn5["..."]
Attn5 --> AttnN2["注意力层N"]
AttnN2 --> Output3["输出"]
Attn1 -.->|"残差边1"| Attn3
Attn2 -.->|"残差边2"| Attn4
Attn3 -.->|"残差边3"| Attn5
AttnN2 -.->|"残差边N"| Output3
end
style Attn1 fill:#87CEEB
style Attn2 fill:#87CEEB
style Attn3 fill:#87CEEB
style Attn4 fill:#87CEEB
style AttnN2 fill:#87CEEB
设计二:跨层 Softmax 注意力加权
每一层的输入,不再是简单地加上"上一层输出",而是对所有前序层的输出(包括初始 token embedding)做 softmax 注意力加权求和:
第 l 层输入 = softmax_attention(Q_l, [h_0, h_1, ..., h_{l-1}])
其中 Q_l 是可学习的伪查询向量(pseudo-query vector),Key 和 Value 来自前序各层输出(经 RMSNorm 归一化)。
关键设计:温和启动(Warm Start)
伪查询向量初始化为零,使得训练初期注意力权重均匀分布,等效于普通残差连接,从而避免训练早期的不稳定。随着训练推进,模型逐步学会"选择性地记住哪些层更重要"。这一设计让架构改动对训练过程几乎透明,同时又保留了完整的表达能力。
flowchart LR
subgraph Fusion["注意力残差融合"]
direction TB
Attn_Out1["注意力层1输出"] -->|"权重1"| Fusion1["Softmax 加权融合"]
Attn_Out2["注意力层2输出"] -->|"权重2"| Fusion1
Attn_Out3["注意力层3输出"] -->|"权重3"| Fusion1
Embed["Token Embedding h_0"] -->|"权重0"| Fusion1
Fusion1 --> Weighted["加权输出"]
Weighted --> Next_Layer["下一层"]
end
style Fusion1 fill:#DDA0DD
第三部分:为什么这很重要
3.1 解决长上下文记忆问题
Kimi K2.5 支持高达 256K tokens 的上下文长度(约等于 40 万汉字)。这么长的上下文,对注意力机制是巨大挑战。
传统方法在处理长序列时,早期的关键信息往往被后续的大量 tokens"淹没"。注意力残差通过多条信息通道,让早期的重要信息能够更直接地影响最终输出。
flowchart LR
subgraph Problem["问题示意"]
direction TB
Long_Context["长上下文(256K tokens)"]
Tokens1["开头: 关键设定"]
Tokens2["中间: 大段内容"]
Tokens3["结尾: 当前问题"]
Long_Context --> Tokens1
Long_Context --> Tokens2
Long_Context --> Tokens3
Tokens1 -.->|传统: 信息被稀释| Output_A["输出"]
Tokens2 -.->|传统: 信息被稀释| Output_A
Tokens3 -->|传统: 强关联| Output_A
Tokens1 ==> |注意力残差: 保持连接| Output_B["输出"]
end
3.2 提升多模态理解能力
Kimi K2.5 是原生多模态模型,同时处理图像、视频和文本。注意力残差帮助模型更好地融合不同模态的信息:
- 文本的语义信息
- 图像的空间信息
- 视频的时序信息
这些信息通过不同的注意力路径传递,最终融合成统一理解。
flowchart TD
subgraph Multimodal["多模态注意力残差"]
Text["文本输入"] --> Text_Attn["文本注意力"]
Image["图像输入"] --> Image_Attn["图像注意力"]
Video["视频输入"] --> Video_Attn["视频注意力"]
Text_Attn --> Fusion1["跨模态融合"]
Image_Attn --> Fusion1
Video_Attn --> Fusion1
Fusion1 --> Attn_Residual["注意力残差模块"]
Attn_Residual -->|"多模态理解"| Unified["统一理解"]
Text_Attn -.->|"文本残差"| Unified
Image_Attn -.->|"图像残差"| Unified
Video_Attn -.->|"视频残差"| Unified
end
style Fusion1 fill:#FFD700
style Attn_Residual fill:#FFA07A
3.3 训练效率提升
杨植麟在 GTC 演讲中提到,Kimi 的技术路线追求三个维度的协同:
- Token 效率:用更少的计算完成同样的任务
- 长上下文:处理超长文本的能力
- 智能体集群:多 agent 协作
注意力残差对这三个维度都有贡献:
| 维度 | 注意力残差的贡献 |
|---|---|
| Token 效率 | 减少冗余计算,信息传递更高效 |
| 长上下文 | 保持长距离依赖关系 |
| 智能体集群 | 多 agent 之间的注意力可以更好地残差连接 |
工程实现的开销几乎可以忽略:
- 训练额外开销:< 4%
- 推理延迟增加:< 2%
实现方式:缓存式流水线通信 + 两阶段计算策略,将跨层注意力计算与正常前向传播并行化。这意味着 AttnRes 是一个近乎零代价的架构升级,工程落地门槛极低。
第四部分:技术架构全景
4.1 Kimi K2.5 整体架构
Kimi K2.5 采用的是 MoE(混合专家) 架构,总参数 1 万亿,但每次推理只激活 320 亿参数。注意力残差是其中的重要组成部分。
flowchart TB
subgraph Kimi_K25["Kimi K2.5 架构"]
Input["输入向量"] --> Embedding["词嵌入层"]
Embedding --> MoE_Block["MoE 专家混合块 × 60层"]
subgraph MoE_Detail["MoE 内部结构"]
direction LR
Shared_Expert["共享专家\n(1个)"]
Route["路由器"] --> Expert1["专家1"]
Route --> Expert2["专家2"]
Route --> Expert3["..."]
Route --> Expert384["专家384"]
Expert1 --> Select["选择 Top-8"]
Expert2 --> Select
Expert384 --> Select
end
MoE_Block --> Attn_Residual["注意力残差"]
Attn_Residual --> Output["输出预测"]
MoE_Block -.->|"残差连接"| Attn_Residual
end
style MoE_Block fill:#E6E6FA
style Attn_Residual fill:#98FB98
4.2 关键参数对比
| 参数 | 数值 |
|---|---|
| 总参数 | 1T(1万亿) |
| 激活参数 | 32B(320亿) |
| 层数 | 61 层(含 1 层 Dense) |
| 注意力头数 | 64 |
| 注意力隐藏维度 | 7168 |
| MoE 专家数 | 384 |
| 每 token 激活专家数 | 8 |
| 上下文长度 | 256K tokens |
第五部分:实际效果
5.1 AttnRes 技术本身的提升
以下数据来自 Kimi Linear(48B 总参数,1.4T tokens 预训练),是 AttnRes 技术相对标准残差基线的净收益,排除了模型规模差异的影响:
| 基准测试 | 标准残差(Baseline) | + AttnRes | 提升 |
|---|---|---|---|
| GPQA-Diamond(科学推理) | 36.9% | 44.4% | +7.5% |
| Math(数学) | 53.5% | 57.1% | +3.6% |
| HumanEval(代码) | 59.1% | 62.2% | +3.1% |
提升在所有任务上保持一致,说明 AttnRes 是一项普适性的架构改进,而非针对特定任务的过拟合优化。
5.2 Kimi K2.5 产品级基准测试
在 Kimi Linear 验证技术可行性之后,K2.5 在多个权威基准测试中取得了开源模型最佳表现:
flowchart LR
subgraph Benchmark["关键基准测试"]
direction TB
A["SWE-Bench 代码能力: 76.8%"]
B["AIME 2025 数学推理: 96.1%"]
C["MMMU-Pro 多模态理解: 78.5%"]
D["BrowseComp 搜索增强: 78.4%"]
E["VideoMMU 视频理解: 87.4%"]
end
Benchmark -->|"Agent Swarm\n模式"| Improvement["最高 4.5 倍\n加速"]
style Improvement fill:#FFD700
5.3 Agent Swarm:注意力残差的扩展应用
Kimi K2.5 创新性地引入了"智能体集群"(Agent Swarm)模式。一个主 agent 可以动态创建最多 100 个子 agent,并行处理任务。
这种架构本质上也是注意力残差思想的扩展:
- 主 agent 的"注意力"可以残差传递给各个子 agent
- 子 agent 之间的结果通过残差方式融合
- 最终实现 4.5 倍的端到端加速
flowchart TD
subgraph Agent_Swarm["Agent Swarm 架构"]
Main["主 Agent"] -->|"任务分解"| Sub1["子 Agent 1"]
Main -->|"任务分解"| Sub2["子 Agent 2"]
Main -->|"任务分解"| Sub3["子 Agent 3"]
Main -->|"..."| SubN["子 Agent N"]
Sub1 -->|"结果融合"| Result["聚合结果"]
Sub2 -->|"结果融合"| Result
Sub3 -->|"结果融合"| Result
SubN -->|"结果融合"| Result
Main -.->|"注意力残差"| Result
end
style Main fill:#FF6B6B
style Result fill:#4ECDC4
第六部分:AttnRes 对整个大模型行业的影响与展望
6.1 一个低门槛的范式级改动
AttnRes 最值得关注的地方,不只是它带来了多少个百分点的提升,而是它的改动成本极低。训练开销不到 4%,推理延迟增加不到 2%,伪查询向量零初始化保证训练稳定性——这意味着任何已有的 Transformer 架构,理论上都可以以极小的代价插入这一机制。
这与历史上真正影响深远的架构改动高度相似。残差连接(ResNet)当年在计算机视觉领域的普及,也正是因为它几乎不增加计算成本,却大幅提升了深层网络的可训练性。AttnRes 在大模型领域的潜在扩散路径,与之非常接近。
6.2 对主流模型架构的冲击
目前主流的开源和闭源大模型,从 LLaMA 系列到 DeepSeek、Qwen,底层残差机制的设计几乎都沿用了原始 Transformer 的标准做法。AttnRes 论文公开后,摆在这些团队面前的问题变得很直接:
- 沿用标准残差,意味着在架构层面已知存在 PreNorm 稀释和无选择性访问的缺陷
- 引入 AttnRes,改造成本低,但需要重新进行预训练或至少大规模的继续训练验证
对于尚在预训练阶段的新模型,AttnRes 几乎没有理由不采纳。对于已经训练完成的模型,如何通过架构蒸馏或增量训练将这一能力迁移进去,将是接下来研究的热点方向之一。
flowchart TD
subgraph Impact["AttnRes 对行业的影响路径"]
Paper["论文公开\n(MoonshotAI)"] --> NewModel["新模型预训练\n直接采纳 AttnRes"]
Paper --> ExistModel["已有模型\n架构迁移研究"]
Paper --> Research["学术界跟进\n变体与扩展研究"]
NewModel --> Better["新一代模型\n智能上限更高"]
ExistModel --> Distill["蒸馏 / 继续训练\n将能力注入旧模型"]
Research --> Variants["AttnRes 变体\n针对不同场景优化"]
Better --> Industry["行业整体\n智能水位抬升"]
Distill --> Industry
Variants --> Industry
end
style Paper fill:#87CEEB
style Industry fill:#98FB98
6.3 对算力与基础设施的影响
AttnRes 的跨层注意力计算引入了层间依赖,这对推理框架的调度提出了新的要求。传统的逐层流水线调度在 AttnRes 下需要做出调整——每层的输入不再只依赖上一层,而是依赖所有前序层的缓存。
这意味着:
- KV Cache 的管理粒度变细:不只是 token 维度的缓存,还需要维护层维度的历史状态
- 推理框架需要适配:vLLM、TensorRT-LLM 等主流推理框架需要针对 AttnRes 做专项优化
- 硬件内存带宽压力增加:跨层访问的数据量更大,对 HBM 带宽有更高要求
不过,论文中已经验证推理延迟增加不到 2%,说明工程团队已经找到了有效的实现路径,这一障碍在实践中是可以被克服的。
6.4 对中国 AI 格局的意义
AttnRes 是一项来自中国团队的基础架构创新,发表在全球顶级 AI 会议和平台上,并得到了马斯克等国际顶级人物的公开认可。这一事件的意义不只在于技术本身,更在于它传递出的信号:
中国 AI 团队的创新,已经从"追赶应用"进入"引领架构"的阶段。从 DeepSeek 的 MLA(多头潜在注意力)到 Kimi 的 AttnRes,底层机制的原创性探索正在持续产出。这种趋势一旦形成正循环,其复利效应将在未来三到五年内对全球 AI 格局产生深远影响。
6.5 未来可能的研究方向
AttnRes 本身仍有大量值得深入探索的空间:
| 方向 | 说明 |
|---|---|
| AttnRes + 稀疏注意力 | 在超长上下文场景下,跨层注意力的计算量是否可以进一步稀疏化 |
| AttnRes 在小模型上的效果 | 端侧模型(1B-7B 参数)是否同样受益,边际收益是否随规模变化 |
| 跨模型的残差连接 | 多模型协作时,注意力残差思想能否延伸到模型之间 |
| AttnRes 与 RLHF 的结合 | 强化学习微调阶段,层级历史信息的保留是否有助于对齐稳定性 |
| 可解释性研究 | 伪查询向量学到了什么样的"层选择偏好",能否从中提取可解释的推理路径 |
这些方向中,"AttnRes 在小模型上的效果"可能是最快被验证的一个。如果 1B 量级的小模型同样能以 <4% 的训练开销获得显著提升,AttnRes 就将成为几乎所有规模模型的标配组件。
总结
注意力残差技术是 Kimi K2.5 底层架构的核心创新之一。它借鉴了计算机视觉领域成熟的残差连接思想,创造性地引入到注意力机制中,解决了大模型在深层网络中的信息传递问题。
从更宏观的视角看,AttnRes 的本质可以这样理解:Transformer 用 attention 替代了序列维度上的固定递归(RNN),而 AttnRes 把同样的思想应用到了网络深度维度上——相当于在模型自身各层之间,再做一次 Transformer。这也是为什么有研究者将其称为"深度学习 2.0"——不是标题党,而是架构范式层面真实的递进。
核心价值:
- 更长记忆:更好地保持长距离依赖关系
- 更高效率:减少信息在传递过程中的衰减,工程开销极低(训练 <4%,推理 <2%)
- 更强多模态:跨模态信息更好地融合
- 更易扩展:为 Agent Swarm 等创新奠定基础
- 训练友好:伪查询向量零初始化,温和启动,不破坏现有训练稳定性
杨植麟在 GTC 2026 上强调:"推动大模型智能上限的持续突破,必须从底层架构入手。"注意力残差正是这种理念的具体实践,它让 Kimi 在保持高效推理的同时,实现了更强的智能表现。
参考资料:
- Kimi K2.5 技术报告 (Moonshot AI)
- Attention Residuals 论文 (MoonshotAI/Attention-Residuals)
- IT之家:月之暗面创始人杨植麟首度披露 Kimi 技术路线
- GitHub: MoonshotAI/Kimi-K2.5