深度也像序列一样需要「注意力」？Kimi 团队这篇 AttnRes 在讲什么论文[1]：Kimi Team 技术报告（a

Attention Residuals（AttnRes）[1]：把 Transformer 里沿深度的残差累加，从「每层一票、均匀相加」改成「每层用 softmax 在深度上选人」——像当年用 Attention 换掉 RNN 的时间维瓶颈，这次对准的是 深度维的信息混合。

论文[1]：Kimi Team 技术报告（arXiv:2603.15031）
代码[2]：MoonshotAI/Attention-Residuals

一、痛点：PreNorm + 标准残差在「深度」上一直吃亏

你很熟残差：h_l = h_{l-1} + f_{l-1}(h_{l-1})[3]。它不仅是梯度高速公路，展开后还意味着：进入第 l 层的输入，本质上是 embedding 与前面所有层输出的加权和，且权重全是 1。

论文指出（与 PreNorm 及深层 Transformer 中的常见分析一致）[1][5]：

隐藏状态幅度会随层数加深而膨胀，每一层对最终表示的相对贡献被稀释（所谓 PreNorm dilution）。
序列混合（Attention）[4] 和专家路由早就是 输入相关、可学习 的加权了；唯独 沿深度的这条「残差溪流」 仍是固定单位权重。
形式上这有点像：RNN 在时间上把历史压进一个状态；Transformer 用 Attention 解放了时间维[4]，深度维却仍像均匀累加的递归。

于是作者在 深度维做 softmax attention[1]——让每一层显式地从「embedding + 前面各层输出」里按内容选人，而不是被动接受均匀和。

二、一图读懂：(a) 标准残差、(b) Full、(c) Block

下图即论文 Figure 1[1]。

（a）Standard Residuals
每层仍是经典的 residual merge[3]：信息流是 均匀的加法累积。

（b）Full Attention Residuals
每层输入前先过 AttnRes 算子 α：用可学习的伪 query（每层一个向量 w_l，文中配合 RMSNorm 等）对 前面所有层输出 做 softmax，再加权求和。直觉上：深度维第一次有了「看谁更重要」的机制[1]。

（c）Block Attention Residuals
大模型训练常有 激活重算、流水线并行，每层都保留全历史代价高。做法是：块内仍用常规方式把多层压成块表示，仅在块与块之间做跨深度 attention；文中将跨层显式存储从 O(Ld) 量级控制到 O(Nd)（N 为块数），再配合跨 stage 缓存、两阶段计算（Phase 1 块间 batch、Phase 2 块内 + 在线 softmax 合并[11]），做成可落地的 drop-in[1]。

flowchart LR
  sources[Embedding_and_prior_outputs] --> alpha[Depth_softmax_weights]
  alpha --> mix[Weighted_sum]
  mix --> nextBlock[Next_layer_or_block]

三、机制要点（写给想动手的人）

维度	Full AttnRes	Block AttnRes
跨层访问	每层 attend 之前所有层输出	主要 attend 块级表示
深度 L 的代价直觉	O(L²d) 量级算术（L 通常远小于序列长度 T）	内存/通信更友好，适合大规模训练
初始化	伪 query 需零初始化，使训练起初退化为近似均匀权重，减少训练不稳	同左

以上定义与细节见原文[1]。

工程侧（论文 §4）[1]：

流水线并行下，作者报告端到端训练 额外 wall-clock 约 <4%。
推理：两阶段设计后，典型负载上 端到端延迟开销 <2%（文中表述）。
与 mHC(-lite)[9] 等相比，残差机制本身的 每 token 每 layer I/O 在典型配置下可远低于部分多流设计（文中 Table 1：Block 方案约 5.5d vs mHC m=4 时约 34d）。

四、和常见残差变体放一张表（概念对齐）

论文 Table 5[1] 把多种写法统一成「混合系数是固定的 / 静态学的 / 输入相关的」以及「能否访问多层独立输出」。极简对比：

类型	代表	深度混合	选择性
标准残差	Residual [He et al.][3]	隐式均匀和	无
门控	Highway[7] 等	仍主要是相邻状态	有门，但非全局选人
跨层静态	DenseFormer[6] 等	可访问多层输出	系数静态
多流混合	Hyper-Connections / mHC[8][9]	矩阵态混合	与 AttnRes「逐层显式 access」路线不同
AttnRes	Full / Block[1]	可访问多层/多块表示	softmax，输入相关

五、实验数字（摘自论文[1]，便于你写进 slides）

Scaling law（拟合幂律）

Baseline：L = 1.891 × C^{-0.057}
Block AttnRes：L = 1.870 × C^{-0.058}
Full AttnRes：L = 1.865 × C^{-0.057}

在约 5.6 PFLOP/s-days 算力点上，Block AttnRes 验证集 loss 1.692，Baseline 1.714——作者表述为约等价于 1.25× 算力 的优势。

骨干为 Kimi Linear[10] 的主实验（48B 总参 / 约 3B 激活）
与相同训练配方对比，Table 3 中部分下游（节选）：MMLU 73.5→74.6，GPQA-Diamond 36.9→44.4，BBH 76.3→78.0，HumanEval 59.1→62.2（等；完整表见原文）。

训练动态（论文 Fig. 5 文字总结）
Block AttnRes 相对 Baseline：验证 loss 全程更低；输出幅度随深度的病态爬升被「块间选择性汇总」压成更有界、近周期模式；梯度幅度在层间分布更均匀。

六、延伸阅读 & 可以接着挖什么

按论文脉络[1]：残差与 PreNorm[3][5]、跨层 DenseFormer[6]、多流 Hyper-Connections / mHC[8][9]、Kimi Linear 骨架[10]、在线 softmax 合并[11]；原文 §6 另讨论序列–深度对偶与结构化混合矩阵视角。

（脑暴，非论文结论）

非 Transformer 是否也存在「深度维均匀混合瓶颈」？
与 结构性剪枝/层重要性 是否共用同一套「深度注意力图」语言？
产品上：<2% 推理延迟 换 下游若干基准提升，在端侧 vs 云侧是否值得——要看你的 SLA 与评测集是否接近论文设定。

七、一句话收尾

Attention Residuals[1] 把「深度」从固定加法轨迹，升级成 可学习的深度维 softmax 混合；Block AttnRes 用大厂训练中真的会遇到的 内存/流水线约束 把它做成能 scaler 的版本。适合关心 PreNorm 稀释、训练动态、MoE+深层 Transformer 的工程师与研究者精读原文。

有问题欢迎评论区交流。

参考文献

[1] papers.cool/arxiv/2603.…
[2] github.com/MoonshotAI/…
[3] papers.cool/arxiv/1512.…
[4] papers.cool/arxiv/1706.…
[5] papers.cool/arxiv/2002.…
[6] papers.cool/arxiv/2402.…
[7] papers.cool/arxiv/1505.…
[8] papers.cool/arxiv/2409.…
[9] papers.cool/arxiv/2512.…
[10] papers.cool/arxiv/2510.…
[11] papers.cool/arxiv/1805.…