Attention Residuals(AttnRes)[1]:把 Transformer 里沿深度的残差累加,从「每层一票、均匀相加」改成「每层用 softmax 在深度上选人」——像当年用 Attention 换掉 RNN 的时间维瓶颈,这次对准的是 深度维的信息混合。
论文[1]:Kimi Team 技术报告(arXiv:2603.15031)
代码[2]:MoonshotAI/Attention-Residuals
一、痛点:PreNorm + 标准残差在「深度」上一直吃亏
你很熟残差:h_l = h_{l-1} + f_{l-1}(h_{l-1})[3]。它不仅是梯度高速公路,展开后还意味着:进入第 l 层的输入,本质上是 embedding 与前面所有层输出的加权和,且权重全是 1。
论文指出(与 PreNorm 及深层 Transformer 中的常见分析一致)[1][5]:
- 隐藏状态幅度会随层数加深而膨胀,每一层对最终表示的相对贡献被稀释(所谓 PreNorm dilution)。
- 序列混合(Attention)[4] 和专家路由早就是 输入相关、可学习 的加权了;唯独 沿深度的这条「残差溪流」 仍是固定单位权重。
- 形式上这有点像:RNN 在时间上把历史压进一个状态;Transformer 用 Attention 解放了时间维[4],深度维却仍像均匀累加的递归。
于是作者在 深度维做 softmax attention[1]——让每一层显式地从「embedding + 前面各层输出」里按内容选人,而不是被动接受均匀和。
二、一图读懂:(a) 标准残差、(b) Full、(c) Block
下图即论文 Figure 1[1]。
(a)Standard Residuals
每层仍是经典的 residual merge[3]:信息流是 均匀的加法累积。
(b)Full Attention Residuals
每层输入前先过 AttnRes 算子 α:用可学习的伪 query(每层一个向量 w_l,文中配合 RMSNorm 等)对 前面所有层输出 做 softmax,再加权求和。直觉上:深度维第一次有了「看谁更重要」的机制[1]。
(c)Block Attention Residuals
大模型训练常有 激活重算、流水线并行,每层都保留全历史代价高。做法是:块内仍用常规方式把多层压成块表示,仅在块与块之间做跨深度 attention;文中将跨层显式存储从 O(Ld) 量级控制到 O(Nd)(N 为块数),再配合跨 stage 缓存、两阶段计算(Phase 1 块间 batch、Phase 2 块内 + 在线 softmax 合并[11]),做成可落地的 drop-in[1]。
flowchart LR
sources[Embedding_and_prior_outputs] --> alpha[Depth_softmax_weights]
alpha --> mix[Weighted_sum]
mix --> nextBlock[Next_layer_or_block]
三、机制要点(写给想动手的人)
| 维度 | Full AttnRes | Block AttnRes |
|---|---|---|
| 跨层访问 | 每层 attend 之前所有层输出 | 主要 attend 块级表示 |
| 深度 L 的代价直觉 | O(L²d) 量级算术(L 通常远小于序列长度 T) | 内存/通信更友好,适合大规模训练 |
| 初始化 | 伪 query 需零初始化,使训练起初退化为近似均匀权重,减少训练不稳 | 同左 |
以上定义与细节见原文[1]。
工程侧(论文 §4)[1]:
- 流水线并行下,作者报告端到端训练 额外 wall-clock 约 <4%。
- 推理:两阶段设计后,典型负载上 端到端延迟开销 <2%(文中表述)。
- 与 mHC(-lite)[9] 等相比,残差机制本身的 每 token 每 layer I/O 在典型配置下可远低于部分多流设计(文中 Table 1:Block 方案约 5.5d vs mHC m=4 时约 34d)。
四、和常见残差变体放一张表(概念对齐)
论文 Table 5[1] 把多种写法统一成「混合系数是固定的 / 静态学的 / 输入相关的」以及「能否访问多层独立输出」。极简对比:
| 类型 | 代表 | 深度混合 | 选择性 |
|---|---|---|---|
| 标准残差 | Residual [He et al.][3] | 隐式均匀和 | 无 |
| 门控 | Highway[7] 等 | 仍主要是相邻状态 | 有门,但非全局选人 |
| 跨层静态 | DenseFormer[6] 等 | 可访问多层输出 | 系数静态 |
| 多流混合 | Hyper-Connections / mHC[8][9] | 矩阵态混合 | 与 AttnRes「逐层显式 access」路线不同 |
| AttnRes | Full / Block[1] | 可访问多层/多块表示 | softmax,输入相关 |
五、实验数字(摘自论文[1],便于你写进 slides)
Scaling law(拟合幂律)
- Baseline:
L = 1.891 × C^{-0.057} - Block AttnRes:
L = 1.870 × C^{-0.058} - Full AttnRes:
L = 1.865 × C^{-0.057}
在约 5.6 PFLOP/s-days 算力点上,Block AttnRes 验证集 loss 1.692,Baseline 1.714——作者表述为约等价于 1.25× 算力 的优势。
骨干为 Kimi Linear[10] 的主实验(48B 总参 / 约 3B 激活)
与相同训练配方对比,Table 3 中部分下游(节选):MMLU 73.5→74.6,GPQA-Diamond 36.9→44.4,BBH 76.3→78.0,HumanEval 59.1→62.2(等;完整表见原文)。
训练动态(论文 Fig. 5 文字总结)
Block AttnRes 相对 Baseline:验证 loss 全程更低;输出幅度随深度的病态爬升被「块间选择性汇总」压成更有界、近周期模式;梯度幅度在层间分布更均匀。
六、延伸阅读 & 可以接着挖什么
按论文脉络[1]:残差与 PreNorm[3][5]、跨层 DenseFormer[6]、多流 Hyper-Connections / mHC[8][9]、Kimi Linear 骨架[10]、在线 softmax 合并[11];原文 §6 另讨论序列–深度对偶与结构化混合矩阵视角。
(脑暴,非论文结论)
- 非 Transformer 是否也存在「深度维均匀混合瓶颈」?
- 与 结构性剪枝/层重要性 是否共用同一套「深度注意力图」语言?
- 产品上:<2% 推理延迟 换 下游若干基准提升,在端侧 vs 云侧是否值得——要看你的 SLA 与评测集是否接近论文设定。
七、一句话收尾
Attention Residuals[1] 把「深度」从固定加法轨迹,升级成 可学习的深度维 softmax 混合;Block AttnRes 用大厂训练中真的会遇到的 内存/流水线约束 把它做成能 scaler 的版本。适合关心 PreNorm 稀释、训练动态、MoE+深层 Transformer 的工程师与研究者精读原文。
有问题欢迎评论区交流。
参考文献
[1] papers.cool/arxiv/2603.…
[2] github.com/MoonshotAI/…
[3] papers.cool/arxiv/1512.…
[4] papers.cool/arxiv/1706.…
[5] papers.cool/arxiv/2002.…
[6] papers.cool/arxiv/2402.…
[7] papers.cool/arxiv/1505.…
[8] papers.cool/arxiv/2409.…
[9] papers.cool/arxiv/2512.…
[10] papers.cool/arxiv/2510.…
[11] papers.cool/arxiv/1805.…