上海AI Lab：LLM合成困难数学问题🌟摘要大型推理模型 (LRMs) 在复杂问题解决方面表现出令人印象深刻的能力

🌟摘要大型推理模型 (LRMs) 在复杂问题解决方面表现出令人印象深刻的能力，通常受益于对刺激复杂推理的困难数学问题的训练。最近的工作通过从种子数据或固有的数学概念中提示专有模型或大规模开源模型来探索数学问题的自动合成。然而，由于这些方法的高计算/API成本、提示的复杂性以及生成问题的难度水平有限，扩大这些方法仍然具有挑战性。为了克服这些限制，我们提出了 ScaleDiff，这是一种简单而有效的管道，旨在扩展创建难题。我们使用自适应思维模型有效地从现有数据集中识别出困难问题，该模型只能感知问题难度，并在“Thinking”和“NoThinking”模式之间切换。然后，我们在这个过滤后的困难数据上训练一个专门的难题生成器（DiffGen-8B），它可以大规模产生新的难题，消除了对复杂、每个实例提示及其相关的高 API 成本的需求。在ScaleDiff-Math数据集上微调Qwen2.5-Math-7B-Instruct比原始数据集产生11.3%的显著性能提升，在AIME‘24、AIME’25、HMMT-Feb‘25、BRUMO’25和MATH500上的平均准确率为65.9%，优于最近的强LRMs，如OpenThinker3。值得注意的是，这种性能是使用具有成本效益的Qwen3-8B模型作为教师来实现的，这表明我们的管道可以有效地转移高级推理能力，而不依赖于更大、更昂贵的教师模型。此外，随着难题数量的增加，我们在困难基准上观察到模型性能的明显缩放现象。我们开源了 ScaleDiff-Math 数据集、微调 ScaleDiff 模型和实现代码，以促进进一步的研究并确保可重复性

🛎️文章简介 🔸研究问题：如何有效识别和生成具有挑战性的数学问题，以提高大型推理模型的复杂推理能力？ 🔸主要贡献：论文提出了ScaleDiff框架，通过精准识别和生成困难数学问题，显著提升了模型在复杂推理任务中的表现。

📝重点思路 🔸利用AdaptThink算法高效识别困难数学问题，通过单次正向推理判断问题难度。 🔸依据识别出的困难问题训练一个专门的问题生成器DiffGen-8B，以生成新的高难度数学问题。 🔸对生成的问题进行两阶段的解决方案提炼和过滤，以确保最终数据集的质量。 🔸在标准基准上对ScaleDiff模型进行性能测试，确保结果的鲁棒性和可重复性。

🔎分析总结 🔸实验结果表明，困难问题的识别方法相较于传统方法更加高效，且生成的困难问题显著提高了模型的推理能力。 🔸与现有的基线模型比较，ScaleDiff在多个数学推理基准上都表现出明显的性能提升，尤其是在复杂度较高的测试中，性能改善高达11.3%。 🔸通过对数据集规模进行调整，实验显示增加困难问题数量能持续提高模型性能，强调了数据扩充的重要性。 🔸最终的数据过滤过程去除了约43%的初步样本，确保了最终数据集的高质量和高效性。

💡个人观点论文核心在于识别困难问题，并训练专门的问题生成器。

🧩附录

————————————————

                        版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：blog.csdn.net/weixin_4673…