传统训练效率很低?我们靠 “给模型降噪” 重新审视长上下文建模难题
在人工智能飞速发展的今天,能够处理超长文本(数十万至上百万字)的大型语言模型,已成为智能助理、代码分析与复杂推理任务的核心。然而,这些模型始终面临一个根本性瓶颈:在处理长文本时,模型容易被大量无关信息(噪声)干扰,从而忽略关键内容。 想象一下,你需要在一间堆满档案的房间里,快速找到几页关键报告来完成总结。房间虽大(长上下文),但真正有用的信息(关键 token)却很少。更麻烦的是,房间里还散布着许多看似相关实则误导的文件(干扰信息)和大量无关的废纸(噪声信息)。当前的长上下文模型就处在这样的困境中。【AI大模型教程】
为了解决这个问题,我们对长上下文输入中的噪声进行了细粒度分析,并提出一种新的评估指标——(Integrated Gradient) IG 分数,以更有效地识别关键 token。实验表明,抑制上下文噪声可以显著提升模型对关键信息的关注能力。基于这一发现,我们提出了一种名为 “上下文去噪训练(Context Denoising Training, CDT)” 的新方法,该策略能够同步增强模型对关键 token 的注意力,并强化这些 token 对最终预测的影响。
我们在多种任务类型(包括短上下文与长上下文场景)以及不同模型上的实验结果(图1)表明,CDT 方法显著优于现有训练策略。更令人振奋的是,经过 CDT 训练后,一个开源的 80 亿参数模型在真实世界长上下文任务中达到了与 GPT-4o 相媲美的性能(50.92 分 vs. 51.00 分)。
图 1:现有生成式奖励模型在Long-RewardBench上的评估结果。我们在(a)单文档问答和(b)长程推理, 两种场景下使用奖励模型对两个模型回复进行偏好评估,报告了不同上下文长度区间的偏好评估准确率。
研究现状:LCMs的困境——“大海捞针”与“噪声干扰”
近期研究发现,长上下文模型在处理长文本任务时常常表现不佳[1]。开源社区主要通过使用足够高质量的长上下文合成数据对模型进行后训练来缓解此问题。然而,这些方法在资源有限的情况下被证明要么效率低下,要么效果不佳。 例如,如图 2 所示,Prolong-64K-Base(Gao 等人,2024b)取得了显著性能,但每使用 10 亿token仅提升 0.3 分。相比之下,LongCE(Fang 等人,2024b)提升较小,但每 10 亿token实现了近 13 分的提升,显示出显著更高的训练效率。
图2:不同训练方法在现实世界长上下文任务上的模型性能以及每十亿个token的性能增益的比较概述。气泡大小表示相对训练数据量。
一个可能的原因是,现有方法忽视了 LCMs 实际上是以一种隐式的 “检索-生成” 机制处理长输入:即首先识别上下文中的关键信息,然后利用"检索到的上下文"进行进一步生成。然而,机制面临着两个显著挑战:模型在定位关键信息时容易出现 “中间迷失” 现象[4],同时,“检索到的上下文”中的关键 token 容易被大量不相关 token 淹没[5]。
因此,提升长上下文建模能力的关键在于:有效检测关键token、削弱不相关token(上下文噪声)的影响,并加强关键token之间与模型预测之间的联系。但传统的语言建模训练策略依赖于通过交叉熵损失进行统一的token级监督,无法在冗长输入中区分关键token和不相关token,导致训练效率低下。 针对这一现状,我们提出了一个新的研究视角:从上下文去噪的角度重新审视关键信息定位。与以往仅关注“如何找到”关键信息的方法不同,我们更关注“如何消除噪声干扰”,从而帮助模型在检测到的关键 token 与最终预测之间建立更鲁棒、更紧密的关联。
训练过程中针对上下文进行监督
论文 & 代码(评测数据)传送门:
> 论文标题:Revisiting Long-context Modeling from Context Denoising Perspective> 论文链接:http://arxiv.org/abs/2510.05862> 代码:https://github.com/LCM-Lab/context-denoising-training)
下面将简要介绍一下我们的工作,更多细节还请参考我们的论文与源码(包括评测数据)。
上下文噪声抑制对长上下文建模的影响
为了系统研究上下文噪声抑制对长上下文建模的影响,我们设计了一种新的关键token检测指标,并构建了一个合成的长形式推理任务作为受控评估环境。实验基于上下文窗口为 128K 的 Llama3.1-8B-Instruct 模型进行。
图 3:合成任务的格式示例,要求模型在多跳支持事实中推理并预测答案,同时需区分干扰事实,并抵御无关文档和低频词的干扰。
该合成任务(图3)中包含四类 token:支持事实、干扰事实、低频词 和 不相关文档。模型的任务是基于支持事实推理出正确答案(如 “bathroom”)。干扰事实看似相关但会误导模型,无关文档和低频词则作为噪声存在。每个样本的上下文长度从 0K 到 64K 不等。
同时,我们设计了两个指标来评估噪声的影响:
(1)注意力分布指标:事实检索(FR)分数,用于量化模型对各类 token 的注意力分配。
(2)信息流指标:IG 分数 ,用于衡量 token 间的注意力交互。
图 4:FR分数和IG分数在定位关键token任务上的表现比较。结果显示,在关键令牌检测任务中,IG 分数相比 FR 分数能够更有效地过滤噪声令牌(不相关文档和低频词)。
如图4所示,可以发现,基于注意力分布的 FR 分数(图4a)存在明显局限:无论模型回答正确与否,其注意力都会显著分散到无关 token 上。相比之下,我们提出的 IG 分数(图4b)表现出更好的判别能力:无论模型响应正确与否,关键令牌的 IG 分数始终显著高于不相关令牌,显示出对关键信息更强的敏感性。
手动上下文噪声抑制的效果
考虑到直接在注意力中抑制上下文噪声非常具有挑战性,我们转而从输入层面对噪声进行控制。我们首先通过计算各令牌的 IG 分数识别出不相关令牌,将 IG 分数低于阈值的令牌标记为噪声令牌。随后,通过从对应的输入嵌入中减去相应梯度值来手动抑制其影响。
这一方法的理论基础在于:模型在噪声令牌上通常已经达到收敛状态,因此其梯度表现出较低的敏感性。如图 5 所示,经过手动上下文去噪处理后,模型对关键令牌的注意力分数提升了近10倍,而对不相关上下文令牌的关注度仅轻微下降。
图 5:手动上下文去噪前后的注意力分布。上下文去噪后,关键标记的注意力分数提高了10倍,并且不相关标记的注意力分数有所下降。
此操作可以粗略地类比于数字信号处理领域的去噪(Kopsinis & McLaughlin, 2009),因为它减少了输入序列中的噪声,使模型能够更有效地关注欠拟合的关键令牌。
解决方案:上下文去噪训练(CDT)策略
基于上述发现,我们提出了一种简单而有效的上下文去噪训练(CDT)策略。CDT 在传统语言建模目标的基础上,在训练过程中显式地抑制上下文噪声,以增强模型对关键token的注意力,并帮助强化关键 token 与预测结果之间的关联。该策略包括两个关键步骤:关键 token 检测 与 强调训练。
(1)关键token检测阶段:识别“信号”与“噪声”
为解决 IG 分数在长序列下计算成本高的问题,我们推导出 token 嵌入梯度与 IG 分数之间的比例关系(图 6),并采用 基于梯度的检测方法 作为高效替代方案——使用token嵌入梯度来近似 IG 分数。该方法通过比较各 token 嵌入梯度的 L2 范数与平均值,准确区分关键 token 与噪声 token。
图6:不同类型token上的注意力IG分数与L2归一化嵌入梯度之间具有比例相关性。
图 7:我们提出的 CDT(上下文去噪训练)方法。它包括两个步骤:(1)检测长上下文中的关键标记,(2)利用去噪上下文进一步强调训练。值得注意的是,CDT可以理解为期望最大化(EM)过程,其中模型基于信息流检测噪声,并通过消除噪声来改进训练,从而增强信息流。
如图 7 所示,给定输入序列 、标签 和模型 θ,我们首先冻结模型参数,仅保留输入 token 嵌入 ϕ的梯度。通过计算交叉熵损失并进行反向传播,获得每个 token 嵌入的梯度。我们通过以下方式标识噪声 token:
其中 表示 是不相关token(噪声);否则,它是关键token。
(2)强调训练阶段:增强信号,抑制噪声
对于识别出的噪声 token,我们在输入层面对其进行 梯度抑制,而非直接丢弃。去噪后的 token 嵌入表示为:
其中 是学习率,β 是控制去噪强度的超参数。随后,我们解冻模型,使用去噪后的嵌入进行训练,损失函数为:
θ
实验验证与结果
评估设置
我们在 上下文窗口扩展 和 长上下文对齐 两种主流训练场景下,对 CDT 进行了全面评估,涵盖真实世界任务、语言建模、合成任务和长文本推理四类任务。实验模型包括短上下文模型和长上下文模型,主要基于 Llama-3-8B-Base 、Llama3.1-8B-Base 和 Llama-3.1-8B-Instruct系列模型。
结果分析
图8:LongBench-E 基准测试的评估结果。CDT 在三种设置(上下文窗口缩放、语言建模和 SFT)下均取得最佳性能
- 真实世界长上下文理解任务:在 LongBench-E 上(图8),CDT 在所有子任务中表现最佳。对于 SCMs,CDT 在相同训练数据下平均分领先竞争对手(LongCE)近 4.7 分;对于 LCM-Base 模型,CDT 是唯一能保证所有子任务性能不下降甚至有所提升的方法;对于 LCM-Instruct 模型,CDT 相比骨干模型平均提升超过 2 分。
- 长合成任务与语言建模:在 RULER 基准测试中,CDT 在 32K 到 128K 的上下文长度下均取得最佳性能。在语言建模任务中,CDT 的 LongPPL 最低,表明其在定位关键 token 方面具有显著优势。
- 短上下文与长形式推理任务:在 BABILong 任务中,CDT 在各长度组别均取得最高总分,且未损害模型在短上下文任务上的性能。
消融分析与机理探究
关键token检测的比较
我们在合成任务上对比了三种检测方法:LongPPL、基于注意力的检测和 CDT。如图 9 所示,基于注意力的方法虽然能检测到大量关键 token,但同时也误检了许多不相关 token;LongPPL 虽能抑制噪声检测,但难以准确定位支持 token;而 CDT 不仅在关键 token 检测上表现最佳,还能有效抑制噪声 token。
图9:在我们的合成任务上,不同方法在关键token检测任务上的表现对比,CDT实现最佳性能。
上下文去噪强度的影响
我们可视化了不同学习率下 CDT 训练过程中关键 token 注意力分数的变化(图 10)。结果显示,在去噪步骤后,关键 token 的注意力分数显著提升,且在强调训练阶段后进一步增加。学习率越大,改进越明显,但在 8e-5 附近达到饱和。
图10:不同学习率下CDT对关键token注意力分数的影响。
训练成本与 EM 过程分析
与传统的长上下文训练相比,CDT 引入了一个额外的噪声检测步骤。虽然这会带来一定的计算开销(例如在 8×A100 GPU 上每 50 步多花费约 0.5 小时),但在 250 步训练内,CDT 持续显著提升模型性能(图 11)。在相同训练步数下,DPO 仅带来边际改进,而 SFT 甚至出现性能下降。
图11:每50步的性能提升与训练耗时对比,CDT以适度时间成本显著提升模型性能。
图 12:CDT训练过程中的EM过程示意图,信息流与注意力分布随训练步骤逐步改善。
我们这个方法能够具有如此巨大的改进效果,也归因于我们CDT 的训练过程符合如图 12所示的EM的特性:模型通过迭代识别关键 token 并优化训练,持续提升长上下文处理能力,最终在大约 250 步后收敛。
结论与展望
长上下文建模的“检索-生成”机制,其核心效能一直受困于噪声淹没信号的难题。传统训练方法在长文本场景下面临效率瓶颈,正是由于它们未能有效区分关键token与噪声token,导致模型注意力分散、预测关联弱化。 基于这一洞察,我们所提出的上下文去噪训练方法,从信息流动的角度重新审视了这一难题。我们通过积分梯度分析揭示了噪声对模型注意力的干扰机制,并据此设计出高效的梯度检测方案,实现了训练过程中对关键token的精准识别与噪声的主动抑制。实验证明,CDT不仅在多项长上下文任务中稳定提升模型表现,更以显著更高的训练效率实现了性能突破。 这项工作表明,与其盲目地扩大模型规模或堆砌数据,通过精细化的训练策略来“提质增效”,可能是一条更具潜力的发展路径。 模型能力的前沿,或许不在参数量的边界,而在我们理解与优化模型的方式中。