【大模型论文】S1: Simple Test-time Scaling|

2025-06-02 16 阅读3分钟

用最少的数据，做最强的推理！

今天给大家分享一个有意思的研究 ——如何用 1000 个样本就让语言模型学会「深度思考」。

先问大家一个问题：如果让 AI 解数学竞赛题，你觉得需要多少训练数据？

OpenAI 说要「大量 RL 训练」，DeepSeek 用了 80 万样本…… 但这篇论文说：只需要 1000 个高质量问题，加上一个「思考控制器」，就能让模型比肩闭源巨头！

🌟 核心奥秘：小数据 + 巧控制

论文的主角叫 s1-32B，它的成功靠两个「四两拨千斤」的设计：

挑数据比堆数据更重要：打造「黄金 1000 题」

作者从 5.9 万道题里精挑细选了 1000 道，标准就三个：难、全、好

难：先用两个小模型（Qwen7B/32B）筛掉「一看就会」的题，只留需要深度推理的「硬骨头」
全：覆盖 50 个领域（数学、物理、生物甚至脑经急转弯），避免模型「偏科」
好：人工检查格式和推理逻辑，确保数据「干净无杂质」

结果：这 1000 题里藏着博士级科学问题、数学竞赛题，甚至斯坦福统计博士资格考的题目！

让模型学会「好好思考」：预算强制（Budget Forcing）

你有没有遇到过 AI「急着下结论」或者「绕圈子」？作者发明了一个「思考调节器」：

该停就停：如果模型生成的推理字数超过上限，直接喊「停」，添加[Final Answer]，强制让模型输出答案
该想再想：如果模型想偷懒结束思考，就追加「Wait」让它再检查一遍

效果有多神奇？看个例子👇

模型一开始算错了字母「r」的数量，追加「Wait」后，它重新数了一遍，纠正了错误！

📊 效果炸裂：小模型逆袭大公司

训练完的 s1-32B 有多强？直接看数据

任务	s1-32B（1K 样本）	o1-preview（闭源）	普通 Qwen32B
AIME24 数学竞赛	56.7%	44.6%	26.7%
MATH500 难题	93.0%	85.5%	84.0%
博士级科学题	59.6%	73.3%	49.0%

💡 关键发现：

测试时扩展才是真・性价比之王：给模型更多「思考时间」（比如从 512 字加到 8192 字），准确率直接从 50% 涨到 57%。
数据质量＞数据量：用「难 + 全 + 好」的 1000 题，效果和 5.9 万题训练的模型基本一致，说明高质量的数据比数量更好
开源之光：所有代码、模型、数据都开源了！普通人也能复现「AI 解题高手」

🤔 为什么这很重要？

对开发者：不用买天价 GPU 堆数据了！1000 样本 + 简单微调，就能打造专业领域推理模型
对研究者：揭示了语言模型的「隐藏能力」—— 其实预训练模型已经「懂」很多，只需要用高质量数据「唤醒」它
对行业：降低了 AI 在医疗、科研等「高门槛领域」的应用成本，也许未来小团队也能做出专业级 AI 助手

🚀 如何上车？开源资源速览

代码 / 模型：https://github.com/simplescaling/s1
论文：https://arxiv.org/pdf/2501.19393
同时论文里有超多有趣的题目，比如「Alice 和 Bob 翻硬币游戏的必胜策略」「量子力学粒子的能谱计算」，感兴趣的可以去看看！