Kimi 注意力残差(Attention Residuals)技术深度解读

1 阅读13分钟

Kimi 注意力残差(Attention Residuals)技术深度解读

作者:吴佳浩

撰稿时间:2026-3-17

最后更新:2026-3-18

在这里插入图片描述

Kimi 惊动马斯克

  • Kimi 发布 Attention Residuals(注意力残差) 技术
  • 颠覆传统残差连接,给 AI 装"智能筛选器"
  • 48B 参数模型训练效率提升 1.25 倍,科学推理提升 7.5%
  • 马斯克转发点赞:"令人印象深刻"
  • "推理模型之父" Jerry Tworek:"深度学习 2.0 来了"
  • Kimi 幽默回应:"你的火箭也不错!"

我只想说老马可太忙了每天都被惊动。。。。,中国AI的迭代速度不得不让人惊叹,但是从我个人日常的使用情况来看 kimi2.5的coding的能力还是和Claude有些许差距的当然这一点见仁见智,你也留言说说你的看法。但是中国记得AI创新确实快,果然劳动人民最光荣,作为我国AI浪潮的下的一员与有荣焉。

前言

在 2026 年英伟达 GTC 大会上,月之暗面(Moonshot AI)创始人杨植麟首次系统性披露了 Kimi K2.5 模型背后的技术路线图。其中,"注意力残差"(Attention Residuals)作为底层架构的核心创新之一,被认为是推动大模型智能突破的关键技术。

本文将用通俗易懂的方式,带你深入理解什么是注意力残差,以及它为何能让 Kimi 变得更强。


目录

  • 第一部分:Transformer 是如何"思考"的
    • 1.1 注意力机制:模型的"焦点"
    • 1.2 残差连接:让信息"抄近道"
  • 第二部分:注意力残差的创新之处
    • 2.1 传统注意力的问题
    • 2.2 注意力残差的解决方案
  • 第三部分:为什么这很重要
    • 3.1 解决长上下文记忆问题
    • 3.2 提升多模态理解能力
    • 3.3 训练效率提升
  • 第四部分:技术架构全景
    • 4.1 Kimi K2.5 整体架构
    • 4.2 关键参数对比
  • 第五部分:实际效果
    • 5.1 AttnRes 技术本身的提升
    • 5.2 Kimi K2.5 产品级基准测试
    • 5.3 Agent Swarm:注意力残差的扩展应用
  • 第六部分:AttnRes 对整个大模型行业的影响与展望
    • 6.1 一个低门槛的范式级改动
    • 6.2 对主流模型架构的冲击
    • 6.3 对算力与基础设施的影响
    • 6.4 对中国 AI 格局的意义
    • 6.5 未来可能的研究方向
  • 总结

阅读前注意

本文涉及两个不同层次的概念:

  • Kimi Linear(48B 总参数 / 3B 激活参数):论文中验证 Attention Residuals 技术效果的实验模型,在 1.4T tokens 上预训练
  • Kimi K2.5(1T 总参数 / 32B 激活参数):应用了该技术的生产级产品模型

"1.25 倍效率提升"来自前者的 scaling law 实验,指的是在相同性能下所需计算量的对比,不是后者的整体训练加速。两者不要混淆。


第一部分:Transformer 是如何"思考"的

在了解注意力残差之前,我们需要先理解大语言模型的基础架构。

1.1 注意力机制:模型的"焦点"

想象你在阅读一段文字。你的大脑不会平等地处理每个字,而是有选择地关注某些关键词。比如这句话:

"因为天空下起了雨,所以地面变得湿滑了。"

人类会自然地把注意力放在"雨"和"湿滑"之间的关系上,而忽略"因为"、"所以"这样的连接词。

注意力机制(Attention Mechanism) 就是模拟这种人类认知过程的数学工具。它让模型在处理每个词时,能够"看清楚"与它相关的其他词。

flowchart TD
    subgraph Input["输入序列"]
        A["词1: 因为"]
        B["词2: 天空"]
        C["词3: 下起了"]
        D["词4: 雨"]
        E["词5: 所以"]
        F["词6: 地面"]
        G["词7: 变得"]
        H["词8: 湿滑了"]
    end
    
    subgraph Attention["注意力机制"]
        A -->|"关注"| D
        B -->|"关注"| D
        C -->|"关注"| D
        D -->|"导致"| F
        D -->|"导致"| H
        F -->|"关联"| H
    end
    
    subgraph Output["输出理解"]
        H
    end
    
    Input --> Attention
    Attention --> Output

1.2 残差连接:让信息"抄近道"

在传统的深度神经网络中,信息需要层层传递。就像接力赛一样,每一棒都不能出错。但随着层数增加,信息会在传递过程中逐渐"稀释"甚至"走样"。

残差连接(Residual Connection) 最早来自计算机视觉领域的 ResNet 技术。它的核心思想是:不要让信息只走"主路",而是给信息留一条"捷径"。

flowchart LR
    subgraph Traditional["传统神经网络"]
        direction TB
        Input1["输入"] --> Layer1["层1"]
        Layer1 --> Layer2["层2"]
        Layer2 --> Layer3["层3"]
        Layer3 --> Output1["输出"]
    end
    
    subgraph Residual["残差网络"]
        direction TB
        Input2["输入"] --> Layer1R["层1"]
        Layer1R --> Layer2R["层2"]
        Layer2R --> Layer3R["层3"]
        Layer3R --> Add["+"]
        Input2 -.->|"快捷连接"| Add
        Add --> Output2["输出"]
    end
    
    Traditional -->|"对比"| Residual

图中虚线就是"残差边"(Residual Edge),它允许信息直接跳过某些层传递到后面。


第二部分:注意力残差的创新之处

2.1 传统注意力的问题

在标准 Transformer 架构中,注意力层的输出是直接传递给下一层的。研究团队识别出标准残差累加存在三个具体问题:

  1. 无选择性访问:所有层接收完全相同的聚合状态,无法针对性地提取某一历史层的信息,只能被动接受"平均混合"的结果。
  2. 层类型需求不同:注意力层(Attention Layer)和前馈/专家层(FFN/MoE Layer)对"历史层混合比例"的需求本质上不同,但传统残差对两者一视同仁,无法区分处理。
  3. PreNorm 稀释问题:使用 PreNorm(前置归一化)时,隐状态的幅值会随深度线性增长(O(L)),导致早期层的信息被后续层的数值"淹没",越埋越深。
flowchart TD
    subgraph Traditional_Attention["传统注意力堆叠"]
        Input["输入"] --> Attn1["注意力层1"]
        Attn1 --> Attn2["注意力层2"]
        Attn2 --> Attn3["注意力层3"]
        Attn3 --> Attn4["..."]
        Attn4 --> AttnN["注意力层N"]
        AttnN --> Output1["输出"]
        
        Attn1 -.->|"信息衰减"| AttnN
    end
    
    style Attn1 fill:#90EE90
    style AttnN fill:#FFB6C1

2.2 注意力残差的解决方案

Kimi 提出的"注意力残差"技术,本质上是将残差连接的理念引入注意力机制。其核心创新包括:

设计一:跨层注意力直连

不再让注意力信息只逐层传递,而是在相邻或间隔的注意力层之间建立"快捷通道"。

flowchart TD
    subgraph Attention_Residuals["注意力残差架构"]
        Input2["输入"] --> Attn1["注意力层1"]
        Attn1 --> Attn2["注意力层2"]
        Attn2 --> Attn3["注意力层3"]
        Attn3 --> Attn4["注意力层4"]
        Attn4 --> Attn5["..."]
        Attn5 --> AttnN2["注意力层N"]
        AttnN2 --> Output3["输出"]
        
        Attn1 -.->|"残差边1"| Attn3
        Attn2 -.->|"残差边2"| Attn4
        Attn3 -.->|"残差边3"| Attn5
        AttnN2 -.->|"残差边N"| Output3
    end
    
    style Attn1 fill:#87CEEB
    style Attn2 fill:#87CEEB
    style Attn3 fill:#87CEEB
    style Attn4 fill:#87CEEB
    style AttnN2 fill:#87CEEB
设计二:跨层 Softmax 注意力加权

每一层的输入,不再是简单地加上"上一层输出",而是对所有前序层的输出(包括初始 token embedding)做 softmax 注意力加权求和:

第 l 层输入 = softmax_attention(Q_l, [h_0, h_1, ..., h_{l-1}])

其中 Q_l可学习的伪查询向量(pseudo-query vector),Key 和 Value 来自前序各层输出(经 RMSNorm 归一化)。

关键设计:温和启动(Warm Start)

伪查询向量初始化为零,使得训练初期注意力权重均匀分布,等效于普通残差连接,从而避免训练早期的不稳定。随着训练推进,模型逐步学会"选择性地记住哪些层更重要"。这一设计让架构改动对训练过程几乎透明,同时又保留了完整的表达能力。

flowchart LR
    subgraph Fusion["注意力残差融合"]
        direction TB
        Attn_Out1["注意力层1输出"] -->|"权重1"| Fusion1["Softmax 加权融合"]
        Attn_Out2["注意力层2输出"] -->|"权重2"| Fusion1
        Attn_Out3["注意力层3输出"] -->|"权重3"| Fusion1
        Embed["Token Embedding h_0"] -->|"权重0"| Fusion1
        
        Fusion1 --> Weighted["加权输出"]
        Weighted --> Next_Layer["下一层"]
    end
    
    style Fusion1 fill:#DDA0DD

第三部分:为什么这很重要

3.1 解决长上下文记忆问题

Kimi K2.5 支持高达 256K tokens 的上下文长度(约等于 40 万汉字)。这么长的上下文,对注意力机制是巨大挑战。

传统方法在处理长序列时,早期的关键信息往往被后续的大量 tokens"淹没"。注意力残差通过多条信息通道,让早期的重要信息能够更直接地影响最终输出。

flowchart LR
    subgraph Problem["问题示意"]
        direction TB

        Long_Context["长上下文(256K tokens)"]
        Tokens1["开头: 关键设定"]
        Tokens2["中间: 大段内容"]
        Tokens3["结尾: 当前问题"]

        Long_Context --> Tokens1
        Long_Context --> Tokens2
        Long_Context --> Tokens3

        Tokens1 -.->|传统: 信息被稀释| Output_A["输出"]
        Tokens2 -.->|传统: 信息被稀释| Output_A
        Tokens3 -->|传统: 强关联| Output_A

        Tokens1 ==> |注意力残差: 保持连接| Output_B["输出"]
    end

3.2 提升多模态理解能力

Kimi K2.5 是原生多模态模型,同时处理图像、视频和文本。注意力残差帮助模型更好地融合不同模态的信息:

  • 文本的语义信息
  • 图像的空间信息
  • 视频的时序信息

这些信息通过不同的注意力路径传递,最终融合成统一理解。

flowchart TD
    subgraph Multimodal["多模态注意力残差"]
        Text["文本输入"] --> Text_Attn["文本注意力"]
        Image["图像输入"] --> Image_Attn["图像注意力"]
        Video["视频输入"] --> Video_Attn["视频注意力"]
        
        Text_Attn --> Fusion1["跨模态融合"]
        Image_Attn --> Fusion1
        Video_Attn --> Fusion1
        
        Fusion1 --> Attn_Residual["注意力残差模块"]
        Attn_Residual -->|"多模态理解"| Unified["统一理解"]
        
        Text_Attn -.->|"文本残差"| Unified
        Image_Attn -.->|"图像残差"| Unified
        Video_Attn -.->|"视频残差"| Unified
    end
    
    style Fusion1 fill:#FFD700
    style Attn_Residual fill:#FFA07A

3.3 训练效率提升

杨植麟在 GTC 演讲中提到,Kimi 的技术路线追求三个维度的协同:

  1. Token 效率:用更少的计算完成同样的任务
  2. 长上下文:处理超长文本的能力
  3. 智能体集群:多 agent 协作

注意力残差对这三个维度都有贡献:

维度注意力残差的贡献
Token 效率减少冗余计算,信息传递更高效
长上下文保持长距离依赖关系
智能体集群多 agent 之间的注意力可以更好地残差连接

工程实现的开销几乎可以忽略:

  • 训练额外开销:< 4%
  • 推理延迟增加:< 2%

实现方式:缓存式流水线通信 + 两阶段计算策略,将跨层注意力计算与正常前向传播并行化。这意味着 AttnRes 是一个近乎零代价的架构升级,工程落地门槛极低。


第四部分:技术架构全景

4.1 Kimi K2.5 整体架构

Kimi K2.5 采用的是 MoE(混合专家) 架构,总参数 1 万亿,但每次推理只激活 320 亿参数。注意力残差是其中的重要组成部分。

flowchart TB
    subgraph Kimi_K25["Kimi K2.5 架构"]
        Input["输入向量"] --> Embedding["词嵌入层"]
        Embedding --> MoE_Block["MoE 专家混合块 × 60层"]
        
        subgraph MoE_Detail["MoE 内部结构"]
            direction LR
            Shared_Expert["共享专家\n(1个)"] 
            Route["路由器"] --> Expert1["专家1"]
            Route --> Expert2["专家2"]
            Route --> Expert3["..."]
            Route --> Expert384["专家384"]
            
            Expert1 --> Select["选择 Top-8"]
            Expert2 --> Select
            Expert384 --> Select
        end
        
        MoE_Block --> Attn_Residual["注意力残差"]
        Attn_Residual --> Output["输出预测"]
        
        MoE_Block -.->|"残差连接"| Attn_Residual
    end
    
    style MoE_Block fill:#E6E6FA
    style Attn_Residual fill:#98FB98

4.2 关键参数对比

参数数值
总参数1T(1万亿)
激活参数32B(320亿)
层数61 层(含 1 层 Dense)
注意力头数64
注意力隐藏维度7168
MoE 专家数384
每 token 激活专家数8
上下文长度256K tokens

第五部分:实际效果

5.1 AttnRes 技术本身的提升

以下数据来自 Kimi Linear(48B 总参数,1.4T tokens 预训练),是 AttnRes 技术相对标准残差基线的净收益,排除了模型规模差异的影响:

基准测试标准残差(Baseline)+ AttnRes提升
GPQA-Diamond(科学推理)36.9%44.4%+7.5%
Math(数学)53.5%57.1%+3.6%
HumanEval(代码)59.1%62.2%+3.1%

提升在所有任务上保持一致,说明 AttnRes 是一项普适性的架构改进,而非针对特定任务的过拟合优化。

5.2 Kimi K2.5 产品级基准测试

在 Kimi Linear 验证技术可行性之后,K2.5 在多个权威基准测试中取得了开源模型最佳表现:

flowchart LR
    subgraph Benchmark["关键基准测试"]
        direction TB
        A["SWE-Bench 代码能力: 76.8%"]
        B["AIME 2025 数学推理: 96.1%"]
        C["MMMU-Pro 多模态理解: 78.5%"]
        D["BrowseComp 搜索增强: 78.4%"]
        E["VideoMMU 视频理解: 87.4%"]
    end
    
    Benchmark -->|"Agent Swarm\n模式"| Improvement["最高 4.5 倍\n加速"]
    
    style Improvement fill:#FFD700

5.3 Agent Swarm:注意力残差的扩展应用

Kimi K2.5 创新性地引入了"智能体集群"(Agent Swarm)模式。一个主 agent 可以动态创建最多 100 个子 agent,并行处理任务。

这种架构本质上也是注意力残差思想的扩展:

  • 主 agent 的"注意力"可以残差传递给各个子 agent
  • 子 agent 之间的结果通过残差方式融合
  • 最终实现 4.5 倍的端到端加速
flowchart TD
    subgraph Agent_Swarm["Agent Swarm 架构"]
        Main["主 Agent"] -->|"任务分解"| Sub1["子 Agent 1"]
        Main -->|"任务分解"| Sub2["子 Agent 2"]
        Main -->|"任务分解"| Sub3["子 Agent 3"]
        Main -->|"..."| SubN["子 Agent N"]
        
        Sub1 -->|"结果融合"| Result["聚合结果"]
        Sub2 -->|"结果融合"| Result
        Sub3 -->|"结果融合"| Result
        SubN -->|"结果融合"| Result
        
        Main -.->|"注意力残差"| Result
    end
    
    style Main fill:#FF6B6B
    style Result fill:#4ECDC4

第六部分:AttnRes 对整个大模型行业的影响与展望

6.1 一个低门槛的范式级改动

AttnRes 最值得关注的地方,不只是它带来了多少个百分点的提升,而是它的改动成本极低。训练开销不到 4%,推理延迟增加不到 2%,伪查询向量零初始化保证训练稳定性——这意味着任何已有的 Transformer 架构,理论上都可以以极小的代价插入这一机制。

这与历史上真正影响深远的架构改动高度相似。残差连接(ResNet)当年在计算机视觉领域的普及,也正是因为它几乎不增加计算成本,却大幅提升了深层网络的可训练性。AttnRes 在大模型领域的潜在扩散路径,与之非常接近。

6.2 对主流模型架构的冲击

目前主流的开源和闭源大模型,从 LLaMA 系列到 DeepSeek、Qwen,底层残差机制的设计几乎都沿用了原始 Transformer 的标准做法。AttnRes 论文公开后,摆在这些团队面前的问题变得很直接:

  • 沿用标准残差,意味着在架构层面已知存在 PreNorm 稀释和无选择性访问的缺陷
  • 引入 AttnRes,改造成本低,但需要重新进行预训练或至少大规模的继续训练验证

对于尚在预训练阶段的新模型,AttnRes 几乎没有理由不采纳。对于已经训练完成的模型,如何通过架构蒸馏或增量训练将这一能力迁移进去,将是接下来研究的热点方向之一。

flowchart TD
    subgraph Impact["AttnRes 对行业的影响路径"]
        Paper["论文公开\n(MoonshotAI)"] --> NewModel["新模型预训练\n直接采纳 AttnRes"]
        Paper --> ExistModel["已有模型\n架构迁移研究"]
        Paper --> Research["学术界跟进\n变体与扩展研究"]

        NewModel --> Better["新一代模型\n智能上限更高"]
        ExistModel --> Distill["蒸馏 / 继续训练\n将能力注入旧模型"]
        Research --> Variants["AttnRes 变体\n针对不同场景优化"]

        Better --> Industry["行业整体\n智能水位抬升"]
        Distill --> Industry
        Variants --> Industry
    end

    style Paper fill:#87CEEB
    style Industry fill:#98FB98

6.3 对算力与基础设施的影响

AttnRes 的跨层注意力计算引入了层间依赖,这对推理框架的调度提出了新的要求。传统的逐层流水线调度在 AttnRes 下需要做出调整——每层的输入不再只依赖上一层,而是依赖所有前序层的缓存。

这意味着:

  • KV Cache 的管理粒度变细:不只是 token 维度的缓存,还需要维护层维度的历史状态
  • 推理框架需要适配:vLLM、TensorRT-LLM 等主流推理框架需要针对 AttnRes 做专项优化
  • 硬件内存带宽压力增加:跨层访问的数据量更大,对 HBM 带宽有更高要求

不过,论文中已经验证推理延迟增加不到 2%,说明工程团队已经找到了有效的实现路径,这一障碍在实践中是可以被克服的。

6.4 对中国 AI 格局的意义

AttnRes 是一项来自中国团队的基础架构创新,发表在全球顶级 AI 会议和平台上,并得到了马斯克等国际顶级人物的公开认可。这一事件的意义不只在于技术本身,更在于它传递出的信号:

中国 AI 团队的创新,已经从"追赶应用"进入"引领架构"的阶段。从 DeepSeek 的 MLA(多头潜在注意力)到 Kimi 的 AttnRes,底层机制的原创性探索正在持续产出。这种趋势一旦形成正循环,其复利效应将在未来三到五年内对全球 AI 格局产生深远影响。

6.5 未来可能的研究方向

AttnRes 本身仍有大量值得深入探索的空间:

方向说明
AttnRes + 稀疏注意力在超长上下文场景下,跨层注意力的计算量是否可以进一步稀疏化
AttnRes 在小模型上的效果端侧模型(1B-7B 参数)是否同样受益,边际收益是否随规模变化
跨模型的残差连接多模型协作时,注意力残差思想能否延伸到模型之间
AttnRes 与 RLHF 的结合强化学习微调阶段,层级历史信息的保留是否有助于对齐稳定性
可解释性研究伪查询向量学到了什么样的"层选择偏好",能否从中提取可解释的推理路径

这些方向中,"AttnRes 在小模型上的效果"可能是最快被验证的一个。如果 1B 量级的小模型同样能以 <4% 的训练开销获得显著提升,AttnRes 就将成为几乎所有规模模型的标配组件。


总结

注意力残差技术是 Kimi K2.5 底层架构的核心创新之一。它借鉴了计算机视觉领域成熟的残差连接思想,创造性地引入到注意力机制中,解决了大模型在深层网络中的信息传递问题。

从更宏观的视角看,AttnRes 的本质可以这样理解:Transformer 用 attention 替代了序列维度上的固定递归(RNN),而 AttnRes 把同样的思想应用到了网络深度维度上——相当于在模型自身各层之间,再做一次 Transformer。这也是为什么有研究者将其称为"深度学习 2.0"——不是标题党,而是架构范式层面真实的递进。

核心价值:

  1. 更长记忆:更好地保持长距离依赖关系
  2. 更高效率:减少信息在传递过程中的衰减,工程开销极低(训练 <4%,推理 <2%)
  3. 更强多模态:跨模态信息更好地融合
  4. 更易扩展:为 Agent Swarm 等创新奠定基础
  5. 训练友好:伪查询向量零初始化,温和启动,不破坏现有训练稳定性

杨植麟在 GTC 2026 上强调:"推动大模型智能上限的持续突破,必须从底层架构入手。"注意力残差正是这种理念的具体实践,它让 Kimi 在保持高效推理的同时,实现了更强的智能表现。


参考资料:

  • Kimi K2.5 技术报告 (Moonshot AI)
  • Attention Residuals 论文 (MoonshotAI/Attention-Residuals)
  • IT之家:月之暗面创始人杨植麟首度披露 Kimi 技术路线
  • GitHub: MoonshotAI/Kimi-K2.5