【大模型论文】S1: Simple Test-time Scaling|

16 阅读3分钟

用最少的数据,做最强的推理!

今天给大家分享一个有意思的研究 ——如何用 1000 个样本就让语言模型学会「深度思考」

先问大家一个问题:如果让 AI 解数学竞赛题,你觉得需要多少训练数据?

OpenAI 说要「大量 RL 训练」,DeepSeek 用了 80 万样本…… 但这篇论文说:只需要 1000 个高质量问题,加上一个「思考控制器」,就能让模型比肩闭源巨头!

🌟 核心奥秘:小数据 + 巧控制

论文的主角叫 s1-32B,它的成功靠两个「四两拨千斤」的设计:

  1. 挑数据比堆数据更重要:打造「黄金 1000 题」
  • 作者从 5.9 万道题里精挑细选了 1000 道,标准就三个:难、全、好
  • :先用两个小模型(Qwen7B/32B)筛掉「一看就会」的题,只留需要深度推理的「硬骨头」
  • :覆盖 50 个领域(数学、物理、生物甚至脑经急转弯),避免模型「偏科」
  • :人工检查格式和推理逻辑,确保数据「干净无杂质」
  • 结果:这 1000 题里藏着博士级科学问题、数学竞赛题,甚至斯坦福统计博士资格考的题目!
  1. 让模型学会「好好思考」:预算强制(Budget Forcing)
  • 你有没有遇到过 AI「急着下结论」或者「绕圈子」?作者发明了一个「思考调节器」:
  • 该停就停:如果模型生成的推理字数超过上限,直接喊「停」,添加[Final Answer],强制让模型输出答案
  • 该想再想:如果模型想偷懒结束思考,就追加「Wait」让它再检查一遍
  • 效果有多神奇?看个例子👇

模型一开始算错了字母「r」的数量,追加「Wait」后,它重新数了一遍,纠正了错误!

📊 效果炸裂:小模型逆袭大公司

训练完的 s1-32B 有多强?直接看数据

任务s1-32B(1K 样本)o1-preview(闭源)普通 Qwen32B
AIME24 数学竞赛56.7%44.6%26.7%
MATH500 难题93.0%85.5%84.0%
博士级科学题59.6%73.3%49.0%

💡 关键发现

  • 测试时扩展才是真・性价比之王:给模型更多「思考时间」(比如从 512 字加到 8192 字),准确率直接从 50% 涨到 57%。
  • 数据质量>数据量:用「难 + 全 + 好」的 1000 题,效果和 5.9 万题训练的模型基本一致,说明高质量的数据比数量更好
  • 开源之光:所有代码、模型、数据都开源了!普通人也能复现「AI 解题高手」

🤔 为什么这很重要?

  • 对开发者:不用买天价 GPU 堆数据了!1000 样本 + 简单微调,就能打造专业领域推理模型
  • 对研究者:揭示了语言模型的「隐藏能力」—— 其实预训练模型已经「懂」很多,只需要用高质量数据「唤醒」它
  • 对行业:降低了 AI 在医疗、科研等「高门槛领域」的应用成本,也许未来小团队也能做出专业级 AI 助手

🚀 如何上车?开源资源速览