越长越好？阿里揭示大模型推理数据筛选的“步长混淆”陷阱要训练出具备强大复杂推理能力的大型语言模型，高质量的思维链（Cha

要训练出具备强大复杂推理能力的大型语言模型，高质量的思维链（Chain-of-Thought, CoT）微调数据集至关重要。为了构建这样的数据集，业界通常采用一种被称为“基于自然度”（naturalness-based）的筛选策略。其核心思想相当直观：让模型自己判断哪些数据更“自然”，也就是计算模型对每个候选样本给出的平均对数概率（average log probability），概率越高的样本被认为与模型的“知识偏好”越契合，质量也越高。

ArXiv URL：arxiv.org/abs/2604.06…

然而，来自阿里巴巴等机构的研究者在一篇论文中指出，这种看似合理的筛选方法存在一个严重的系统性偏差。当应用于推理数据集时，它并不会稳定地选出推理质量更高的样本，反而会系统性地偏爱那些推理步骤更长（即每一步包含更多 Token）的样本。研究者将这一现象命名为“步长混淆”（step length confounding）。

这个发现揭示了一个关键问题：我们以为通过模型概率筛选出的“好”数据，可能只是“看起来很长”的数据。这种混淆效应的根源在于推理步骤中第一个 Token 的低概率特性。在一个推理链中，每一步的第一个 Token 往往是决策分支点，具有较高的不确定性（熵），因此模型给出的概率也相应较低。当一个推理步骤变得很长时，这一个低概率 Token 的负面影响就被后续大量高概率 Token 的分数“稀释”了，从而拉高了整个步骤的平均对数概率。为了解决这个问题，研究者提出了名为 ASLEC 的一系列新方法，通过两种不同的策略修正这一偏差，在多个模型和基准测试中，新方法比当前最优的自然度筛选方法平均准确率提升了最高约 9.08%。

“自然”的陷阱：为何基于概率的筛选会偏爱长步骤？

在深入探讨解决方案之前，我们有必要先理解“步长混淆”问题到底是如何发生的。基于自然度的筛选方法，无论是计算全局平均对数概率（ $s^{\\mathrm{logp}}$ ）还是局部上下文的平均对数概率（ $s^{\\mathrm{loc}}$ ），其基本假设都是模型对于自己更“适应”或“偏好”的数据会表现出更高的置信度，即赋予更高的生成概率。

然而，实验证据清晰地展示了这一假设在推理数据上的脆弱性。研究者发现，使用现有方法筛选出的数据，其每个推理步骤的平均长度显著高于未被选中的数据。如下图所示，被选中样本（Selected）的步长分布明显右偏，集中在更长的区间。

被现有自然度方法筛选和未筛选样本的步长分布对比

这一现象直接指向了“步长”这个混淆变量。为了探究其成因，研究者进一步分析了步长与步级平均对数概率之间的关系。结果表明，二者存在明显的正相关：步骤越长，其平均对数概率往往越高。

步长与步级平均对数概率的关系

上图直观地揭示了问题的核心。那么，为什么会这样？答案就隐藏在每个推理步骤的内部 Token 概率分布中。研究者通过案例分析发现，推理步骤的第一个 Token 概率通常显著低于后续 Token。这符合直觉，因为第一枚 Token 往往是开启新思路、做出决策的起点，模型在此面临的选择更多，不确定性更高。而一旦方向确定，后续的 Token 只是在既定轨道上进行填充和完善，因而更具确定性，概率也更高。

不同步长样本的 Token 级对数概率案例

上图生动地展示了这一“稀释效应”。无论是短步骤还是长步骤，开头的第一个 Token（图中红色标记处）都呈现出明显的低谷。在一个很短的步骤中，这个低谷对平均分的拉低作用非常显著。然而，在一个非常长的步骤中，这个低谷的影响力被后面大量平稳的高分 Token 所摊薄，最终的平均分反而更高。因此，基于平均分的筛选机制，就这样在无意中掉入了“越长分越高”的陷阱。

釜底抽薪：如何修正步长带来的混淆？

既然问题的根源在于第一个 Token 的低概率被步长稀释，那么解决方案也应直接针对这一点。论文提出了两种思路递进的修正方法：ASLEC-DROP 和 ASLEC-CASL。

ASLEC-DROP：简单直接，丢弃首位 Token

最直接的修正方法是 ASLEC-DROP。它的逻辑非常简单：既然第一个 Token 是“问题儿童”，那在计算平均对数概率时，直接将它忽略掉即可。具体来说，计算分数 $s\_i^{\\mathrm{drop}}$ 时，对每个推理步骤的求和都从第二个 Token 开始：

$s\_i^{\\mathrm{drop}}=\\frac{1}{|\\mathbf{o}*i|-|\\mathcal{S}*i|} \\sum*{\\mathbf{s}*i^l\\in\\mathcal{S}*i}\\sum*{t=2}^{|\\mathbf{s}*i^l|} \\log P*{\\boldsymbol{\\theta}}\\left(s*{i,t}^l\\mid\\mathbf{s}*{i,<t}^l,\\mathbf{s}\_i^{<l},\\mathbf{q}\_i\\right)$

这种方法的优点是极致的简洁，几乎不增加任何计算开销。但它也存在一个潜在的缺点：一刀切地丢弃了第一个 Token，可能也会丢掉其中包含的有效推理信息。

ASLEC-CASL：精细剥离，因果去偏

为了更精细地处理这个问题，研究者引入了因果推断的思想，提出了 ASLEC-CASL 方法。该方法不再粗暴地丢弃信息，而是试图将步长引入的混淆效应从总分中“剥离”出去。

它首先将样本的平均对数概率 $s\_i^{\\mathrm{logp}}$ 建模为一个线性回归方程，该方程的变量包括第一个 Token 的平均对数概率 $s\_i^{\\mathrm{first}}$ 、丢弃首位 Token 后的平均对数概率 $s\_i^{\\mathrm{drop}}$ ，以及一个关键的混淆因子 $\\mathcal{Z}\_i$ 。这个混淆因子被定义为“第一 Token 比例”，即总步数与总 Token 数之比 ( $|\\mathcal{S}\_i|/|\\mathbf{o}\_i|$ )，它直接量化了步长的影响。

$s\_i^{\\mathrm{logp}}=\\beta\_1s\_i^{\\mathrm{first}}+\\beta\_2s\_i^{\\mathrm{drop}}+\\gamma\\mathcal{Z}\_i+\\epsilon$

通过对整个数据集进行线性回归，可以拟合出系数 $\\gamma$ 的值。这个 $\\gamma$ 值就代表了“第一 Token 比例”对最终分数的负面影响程度。得到 $\\gamma$ 后，就可以计算出去除混淆效应之后的分数 $s\_i^{\\mathrm{casl}}$ ：

$s\_i^{\\mathrm{casl}} = s\_i^{\\mathrm{logp}} - \\gamma\\mathcal{Z}\_i$

这个分数才是更“纯粹”的、反映模型对内容本身自然度判断的分数。这种方法巧妙地保留了第一个 Token 的信息，同时通过数学手段移除了它因步长而产生的偏见，计算成本也仅是增加一个轻量级的线性回归，几乎可以忽略不计。

实验见真章：新方法带来了多大提升？

理论上的优雅最终需要实验结果来验证。研究团队在 LIMO-v2 和 AceReason-1.1-SFT 两个推理数据集上，使用了包括 Qwen、DeepSeek 等在内的四种不同模型家族作为数据源和训练目标，并在 MATH、OlympiadBench 等五个权威基准上进行了评测。

实验结果非常清晰。无论是在哪个数据集上，也无论针对哪种尺寸的目标模型，ASLEC-DROP 和 ASLEC-CASL 的表现都稳定优于之前的基线方法（如 GRACE 和 Local LP）。综合来看，ASLEC-DROP 平均准确率提升了约 6.28%，而效果最好的 ASLEC-CASL 则带来了高达 9.08% 的平均准确率提升。

更重要的是，新方法确实有效地缓解了“步长混淆”问题。与旧方法筛选后数据步长分布的显著偏移不同，采用 ASLEC 方法后，被选中和未选中样本的步长分布变得非常接近，证明该方法成功地让筛选标准回归到了内容质量本身，而非长度。

此外，对线性回归系数的分析也提供了有趣的洞察。例如，在对所有 SFT 数据拟合时，系数 $\\gamma$ 为 -0.680，这意味着第一 Token 比例每相差 0.05，就会对整体概率产生相当于每个 Token 概率降低 3.34% 的负面影响。而对于 gpt-oss-120b 生成的数据， $\\gamma$ 值更是高达 -1.284，说明其生成的数据受步长混淆问题的影响尤为严重。

结语

这项工作系统地识别、解释并解决了大模型推理数据筛选中一个长期被忽视的“步长混淆”问题。它提醒我们，在构建和筛选用于训练 AI 的海量数据时，看似客观的自动化指标背后可能隐藏着意想不到的偏差。模型认为“自然”的，或许并非我们所期望的“优质”，而可能只是某种统计伪影。

通过 ASLEC-DROP 和 ASLEC-CASL 这两种巧妙而高效的方法，研究者不仅显著提升了推理模型的性能，也为未来更高质量、更可靠的数据筛选范式提供了宝贵的思路。从盲目追求数据规模到精细化地理解和雕琢数据质量，这项研究无疑是这一重要转变中的一个坚实脚印。越长越好？阿里揭示大模型推理数据筛选的“步长混淆”陷阱