Thinking Machine新研究RL+微调,小模型训练更具性价比

78 阅读9分钟

Thinking Machine新研究RL+微调,小模型训练更具性价比

大家好,我是AI算法工程师七月,曾在华为、阿里任职,技术栈广泛,爱好广泛,喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

  • 关注公众号:智启七月,获取最新观察、思考和文章推送。
  • 关注知乎:七月,获取最新观察、思考和文章推送。
  • 关注CSDN:智启七月,获取最新观察、思考和文章推送。
  • 关注稀土掘金:智启七月,获取最新观察、思考和文章推送。
  • 网站1 :七月
  • 网站2:zerodesk

我会在这里分享关于 编程技术、独立开发、行业资讯,思考感悟 等内容。爱好交友,想加群滴滴我,wx:swk15688532358,交流分享

如果本文能给你提供启发或帮助,欢迎动动小手指,一键三连 (点赞、评论、转发),给我一些支持和鼓励,谢谢。

作者:七月 链接:www.xinghehuimeng.com.cn 来源:七月 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

Thinking Machine新研究发布

2025 年 10 月下旬,前 OpenAI 首席技术官 Mira Murati 创办的 Thinking Machine Lab 公布一项革命性研究 ——“在线策略蒸馏”(On-Policy Distillation)技术,通过融合强化学习(RL)与监督微调优势,使小模型训练效率提升 50-100 倍,计算成本降低 9-30 倍,相关成果经 Murati 转发后迅速引爆 AI 圈。

img

添加图片注释,不超过 140 字(可选)

传送门

官方博客介绍:政策蒸馏 - Thinking Machines Lab

实现

传统 AI 训练长期陷入 “效率与灵活” 的两难:强化学习(RL)让模型自主试错但耗时耗力,监督微调(SFT)高效却易导致模型僵化。Thinking Machine 的新方法创造性地构建 “教师 - 学生动态指导框架”,其核心逻辑可概括为对学生的培训,对学生的指导,有点类似Moe的味道。

on-policy 蒸馏的核心思想是从学生模型中对轨迹进行采样,并使用一位表现出色的教师对每个轨迹的每个 token 进行评分。回到我们上面的数学示例,政策蒸馏将对解决方案的每个步骤进行评分,惩罚导致学生得出错误答案的错误,同时强化正确执行的错误。

这就类似学生-教师的关系,教师的监督、指导,学生的完成、奖励、分配;因此才会说是有点类似Moe。

他们参考了DAGGER,SFT算法,以类似过程奖励建模的强化学习方法,对学生模型思维联众的每一步进行评分。且是基于Qwen3的进行的训练。

KL(πθπteacher)=Exπθ[logπθ(xt+1x1..t)logπteacher(xt+1x1..t)]KL(π θ ∣∣π teacher )=E x∼π θ [logπ θ (x t+1 ∣x 1..t )−logπ teacher (x t+1 ∣x 1..t )]

官方选择的蒸馏的损失函数也是别具一格,他们采用每个标记的反向KL进行性实验。这促使学生在学生发现自己所处的每种状态下近似教师的行为。

这种方法可以节省大量计算。由于不需要推出来完成采样来计算奖励,因此可以使用较短或部分的推出来进行训练。查询教师的对数概率也只需要从较大的模型中进行一次前向传递,而轨迹则由较小且更便宜的学生生成。

由此,其核心逻辑可概括为 “实战 + 即时辅导”:

img

添加图片注释,不超过 140 字(可选)

  • 双策略融合:以 320 亿参数大模型(如 Qwen3-32B)为 “教练”,80 亿参数小模型(如 Qwen3-8B)为 “学员”,学员自主解题时,教练实时通过对数概率计算评估每一步输出,以负向 KL 散度衡量分歧并生成奖励信号;
  • 防作弊机制:通过逆向 KL 散度约束,确保学员模仿教练的推理路径而非直接抄袭答案,避免 “取巧得分”;
  • 并行化提效:教师模型的评分过程可高效并行处理,实际 GPU 小时成本较传统方法节省近 18 倍。

同时呢,研究团队通过两项关键实验验证技术价值:

  1. 数学能力迁移:在 AIME’24 数学基准测试中,将 8B 小模型从 60 分提升至 70 分,传统 SFT 需额外训练 200 万个样本,纯 RL 需 17920 个 GPU 小时,而新方法仅用 150 个训练步骤即达成目标,计算成本砍至 1/9-1/30;
  2. 修复 “灾难性遗忘” :企业场景中,模型学习内部文档后,通用能力从 79% 恢复至 83%,新知识得分同步从 36% 升至 41%,解决了传统微调 “学新忘旧” 的痛点。

这种方式的成本、效果使得很多中小企业也能够以小成本diy在某个特定领域中能打的小钢炮模型占据一席之地。

蒸馏

img

添加图片注释,不超过 140 字(可选)

该论文研究中发现,一个模型如果想要在特定重点领域发挥人类专家级的表现,是需要多种能力叠加才能实现这种结果:输入感知、只是检索、计算选择、可靠的执行。这可以概括为三大阶段:

  • 预培训教授一般能力,例如语言使用、广泛推理和世界知识。
  • 中期培训传授领域知识,例如代码、医学数据库或公司内部文档。
  • 训练后会引发有针对性的行为,例如遵循指令、通过数学问题进行推理或聊天。

本次的训练他们把目光聚焦在了后期的训练过程中,目前已有的后期训练的方法大致分为两种:

  • 策略训练从学生模型本身对推出进行采样,并为他们分配一些奖励。
  • 政策外培训依赖于学生学会模仿的来自某些外部来源的目标输出。

将监督的策略训练和策略外部训练的优点结合起来,他们制作了一种两全其美的方法也就是上文中说的on-policy 蒸馏

相关流程大致如下:

  • 初始化教师模型: 找一个实力强大的模型当老师(通用模型或经过专门训练的专家模型均可),它只负责计算概率,而不需要进行反向传播更新梯度。
  • 学生采样轨迹: 让学生模型自主解题,过程中需记录下它在每一步选择每个token的对数概率。
  • 教师逐步评分: 将学生模型生成的轨迹,原封不动地交给教师模型。教师模型会对这个轨迹的每一个token进行评估,计算出在相同的上下文下,它自己生成这个token的对数概率。然后,通过学生和教师的对数概率之差,可以计算出两者在每一步的分歧 (Divergence)。
  • 使用分歧作为奖励进行训练: 最后使用上述分歧作为奖励信号,来更新学生模型。

实验

为此他们进行了两次实验:

实验一

以数学推理能力迁移为核心目标,所有实验均基于Qwen3-8B-Base 经传统监督微调后,在 AIME’24 数学基准测试中已达 60 分,研究目标是突破 70 分大关:

传统监督微调中需额外投喂 200 万个训练样本,计算开销远超常规实验室承受范围;

纯强化学习,根据 Qwen3 团队公开技术报告,相似初始化模型仅提升至 67.6 分便消耗 17920 个 GPU 小时,成本与 200 万样本 SFT 基本持平;

在线策略蒸馏的方式仅用 150 个训练步骤即达成 70 分目标 —— 计算成本较 200 万样本 SFT 降低 9-30 倍,若计入教师模型并行化优势,实际 GPU 小时节省更接近 18 倍。

img

添加图片注释,不超过 140 字(可选)

img

添加图片注释,不超过 140 字(可选)

img

添加图片注释,不超过 140 字(可选)

“这种效率提升源于对‘试错 - 指导’循环的极致压缩。” 核心作者 Kevin Lu(前 OpenAI 4o-mini 项目负责人)在博客中解释,教师模型的实时评分让小模型无需海量探索即可锁定最优路径。

实验二

针对企业级模型训练“学新忘旧” 的灾难性遗忘的痛点:

目前传统微调的困境是例如向模型注入企业内部文档知识后,内部知识得分从 18% 升至 43%,但通用对话能力从 85% 暴跌至 45%,且调整数据配比无法平衡两项能力;

但是如果使用在线策略蒸馏的修复方案得分话就能实现让 “失忆” 模型以自身初始完整版本为教师,通过实时轨迹指导进行能力修复;

img

添加图片注释,不超过 140 字(可选)

img

添加图片注释,不超过 140 字(可选)

img

添加图片注释,不超过 140 字(可选)

至于效果也是恢复到了原始的水平,基本不会对于原来的模型造成影响,通用能力从 79% 回升至 83%(接近原始水平),同时内部知识得分从 36% 升至 41%,实现 “新旧能力双提升”。

img

添加图片注释,不超过 140 字(可选)

官方博客特别强调,这一结果为 AI “终身学习” 提供了可行路径 —— 模型可在持续吸收专业知识的同时,通过自我蒸馏保持核心能力稳定。