要训练出具备强大复杂推理能力的大型语言模型,高质量的思维链(Chain-of-Thought, CoT)微调数据集至关重要。 为了构建这样的数据集,业界通常采用一种被称为“基于自然度”(naturalness-based)的筛选策略。 其核心思想相当直观:让模型自己判断哪些数据更“自然”,也就是计算模型对每个候选样本给出的平均对数概率(average log probability),概率越高的样本被认为与模型的“知识偏好”越契合,质量也越高。
ArXiv URL:arxiv.org/abs/2604.06…
然而,来自阿里巴巴等机构的研究者在一篇论文中指出,这种看似合理的筛选方法存在一个严重的系统性偏差。 当应用于推理数据集时,它并不会稳定地选出推理质量更高的样本,反而会系统性地偏爱那些推理步骤更长(即每一步包含更多 Token)的样本。 研究者将这一现象命名为“步长混淆”(step length confounding)。
这个发现揭示了一个关键问题:我们以为通过模型概率筛选出的“好”数据,可能只是“看起来很长”的数据。这种混淆效应的根源在于推理步骤中第一个 Token 的低概率特性。 在一个推理链中,每一步的第一个 Token 往往是决策分支点,具有较高的不确定性(熵),因此模型给出的概率也相应较低。 当一个推理步骤变得很长时,这一个低概率 Token 的负面影响就被后续大量高概率 Token 的分数“稀释”了,从而拉高了整个步骤的平均对数概率。 为了解决这个问题,研究者提出了名为 ASLEC 的一系列新方法,通过两种不同的策略修正这一偏差,在多个模型和基准测试中,新方法比当前最优的自然度筛选方法平均准确率提升了最高约 9.08%。
“自然”的陷阱:为何基于概率的筛选会偏爱长步骤?
在深入探讨解决方案之前,我们有必要先理解“步长混淆”问题到底是如何发生的。基于自然度的筛选方法,无论是计算全局平均对数概率()还是局部上下文的平均对数概率(),其基本假设都是模型对于自己更“适应”或“偏好”的数据会表现出更高的置信度,即赋予更高的生成概率。
然而,实验证据清晰地展示了这一假设在推理数据上的脆弱性。研究者发现,使用现有方法筛选出的数据,其每个推理步骤的平均长度显著高于未被选中的数据。 如下图所示,被选中样本(Selected)的步长分布明显右偏,集中在更长的区间。
这一现象直接指向了“步长”这个混淆变量。为了探究其成因,研究者进一步分析了步长与步级平均对数概率之间的关系。结果表明,二者存在明显的正相关:步骤越长,其平均对数概率往往越高。
上图直观地揭示了问题的核心。那么,为什么会这样?答案就隐藏在每个推理步骤的内部 Token 概率分布中。研究者通过案例分析发现,推理步骤的第一个 Token 概率通常显著低于后续 Token。 这符合直觉,因为第一枚 Token 往往是开启新思路、做出决策的起点,模型在此面临的选择更多,不确定性更高。而一旦方向确定,后续的 Token 只是在既定轨道上进行填充和完善,因而更具确定性,概率也更高。
上图生动地展示了这一“稀释效应”。无论是短步骤还是长步骤,开头的第一个 Token(图中红色标记处)都呈现出明显的低谷。在一个很短的步骤中,这个低谷对平均分的拉低作用非常显著。然而,在一个非常长的步骤中,这个低谷的影响力被后面大量平稳的高分 Token 所摊薄,最终的平均分反而更高。 因此,基于平均分的筛选机制,就这样在无意中掉入了“越长分越高”的陷阱。
釜底抽薪:如何修正步长带来的混淆?
既然问题的根源在于第一个 Token 的低概率被步长稀释,那么解决方案也应直接针对这一点。论文提出了两种思路递进的修正方法:ASLEC-DROP 和 ASLEC-CASL。
ASLEC-DROP:简单直接,丢弃首位 Token
最直接的修正方法是 ASLEC-DROP。 它的逻辑非常简单:既然第一个 Token 是“问题儿童”,那在计算平均对数概率时,直接将它忽略掉即可。具体来说,计算分数 时,对每个推理步骤的求和都从第二个 Token 开始:
这种方法的优点是极致的简洁,几乎不增加任何计算开销。 但它也存在一个潜在的缺点:一刀切地丢弃了第一个 Token,可能也会丢掉其中包含的有效推理信息。
ASLEC-CASL:精细剥离,因果去偏
为了更精细地处理这个问题,研究者引入了因果推断的思想,提出了 ASLEC-CASL 方法。 该方法不再粗暴地丢弃信息,而是试图将步长引入的混淆效应从总分中“剥离”出去。
它首先将样本的平均对数概率 建模为一个线性回归方程,该方程的变量包括第一个 Token 的平均对数概率 、丢弃首位 Token 后的平均对数概率 ,以及一个关键的混淆因子 。 这个混淆因子被定义为“第一 Token 比例”,即总步数与总 Token 数之比 (),它直接量化了步长的影响。
通过对整个数据集进行线性回归,可以拟合出系数 的值。这个 值就代表了“第一 Token 比例”对最终分数的负面影响程度。得到 后,就可以计算出去除混淆效应之后的分数 :
这个分数才是更“纯粹”的、反映模型对内容本身自然度判断的分数。这种方法巧妙地保留了第一个 Token 的信息,同时通过数学手段移除了它因步长而产生的偏见,计算成本也仅是增加一个轻量级的线性回归,几乎可以忽略不计。
实验见真章:新方法带来了多大提升?
理论上的优雅最终需要实验结果来验证。研究团队在 LIMO-v2 和 AceReason-1.1-SFT 两个推理数据集上,使用了包括 Qwen、DeepSeek 等在内的四种不同模型家族作为数据源和训练目标,并在 MATH、OlympiadBench 等五个权威基准上进行了评测。
实验结果非常清晰。无论是在哪个数据集上,也无论针对哪种尺寸的目标模型,ASLEC-DROP 和 ASLEC-CASL 的表现都稳定优于之前的基线方法(如 GRACE 和 Local LP)。 综合来看,ASLEC-DROP 平均准确率提升了约 6.28%,而效果最好的 ASLEC-CASL 则带来了高达 9.08% 的平均准确率提升。
更重要的是,新方法确实有效地缓解了“步长混淆”问题。与旧方法筛选后数据步长分布的显著偏移不同,采用 ASLEC 方法后,被选中和未选中样本的步长分布变得非常接近,证明该方法成功地让筛选标准回归到了内容质量本身,而非长度。
此外,对线性回归系数的分析也提供了有趣的洞察。例如,在对所有 SFT 数据拟合时,系数 为 -0.680,这意味着第一 Token 比例每相差 0.05,就会对整体概率产生相当于每个 Token 概率降低 3.34% 的负面影响。 而对于 gpt-oss-120b 生成的数据, 值更是高达 -1.284,说明其生成的数据受步长混淆问题的影响尤为严重。
结语
这项工作系统地识别、解释并解决了大模型推理数据筛选中一个长期被忽视的“步长混淆”问题。 它提醒我们,在构建和筛选用于训练 AI 的海量数据时,看似客观的自动化指标背后可能隐藏着意想不到的偏差。模型认为“自然”的,或许并非我们所期望的“优质”,而可能只是某种统计伪影。
通过 ASLEC-DROP 和 ASLEC-CASL 这两种巧妙而高效的方法,研究者不仅显著提升了推理模型的性能,也为未来更高质量、更可靠的数据筛选范式提供了宝贵的思路。 从盲目追求数据规模到精细化地理解和雕琢数据质量,这项研究无疑是这一重要转变中的一个坚实脚印。越长越好?阿里揭示大模型推理数据筛选的“步长混淆”陷阱