那个靠自学封神的DeepSeek,亲手把强化学习踢下了C位

0 阅读6分钟

朋友们,事情正在起变化。

去年DeepSeek R1发布的时候,整个AI圈都在为两个字沸腾——强化学习。那篇后来登上《自然》封面的论文,讲了一个近乎浪漫的故事:他们搞了个叫R1-Zero的模型,不给它任何人类解题范例,只告诉它最终答案对不对,让它自己通过大量试错去摸索解题思路。结果这哥们不仅学会了,还在解题过程中自己涌现出了类似人类“顿悟”的自我反思和自我修正能力。

不需要人类手把手教,自己就能“想明白”。这在当时是颠覆性的。全球的研究机构和开发者都疯了,掀起了复现R1的热潮。GRPO(R1用的强化学习算法)成了圈子里最时髦的词。

然后,时间来到2026年4月。DeepSeek V4发布了。

我翻来覆去读了那篇技术报告好几遍,发现一个让人头皮发麻的细节——在V4的最终训练流程里,强化学习消失了。

不是被弱化了,不是退居二线了,是直接从这个环节里被拿掉了。

取而代之的是一套叫OPD的东西,全称On-Policy Distillation,翻译过来叫“在策略蒸馏”。这名字拗口得让人没兴趣点开看,但正是这个东西,暴露了V4真正的野心。

R1的神话,在V4这里画了个句号

先别误会我的意思。RL没有被彻底抛弃。

V4的做法是在训练第一阶段,先为数学、编程、Agent、指令遵循等不同领域,分别独立训练了一批专家模型。这个阶段,RL(GRPO)依然是主力。每个专家模型都靠强化学习把自己那块领域吃透,做到极致。

这就像请一群天才去闭关修行,每人在自己山头苦练一门绝技。

等这批专家全部出关,问题来了:怎么把他们揉成一个全才?

以往的做法大致有两种。一种是直接把权重合并,结果往往是各个领域的能力在参数层面打架,到最后哪一门都不灵。另一种是搞混合RL,让一个模型同时在所有领域数据上做强化学习,各种能力之间的梯度互相撕扯,训练极不稳定,调参调到怀疑人生。

V4团队选的路很绝:

让这批专家当老师,直接去教一个学生。

这个学生就是最终发布的DeepSeek V4模型。它不再像R1那样自己摸黑探索,而是坐在教室里,听十个各怀绝技的老师轮流上课。老师在黑板上写什么,它就学什么——准确地说,是让学生的输出概率分布,尽量靠近老师的输出概率分布。

这就是OPD。

它把最困难的多能力融合问题,从“让模型自己探索”变成了“让模型去学习”。前者是冒险,后者是工程。

那个拗口的OPD,到底在做什么?

报告里给了一个公式,有意思的是,这次他们用的是反向KL散度(reverse KL divergence)来衡量学生和老师之间的差距。反向KL的核心特点是,它倾向于惩罚学生对老师的高概率答案置若罔闻,但对学生自己稳定输出的低概率内容相对宽容。这种特性让最终模型在继承老师核心能力的同时,保留着自己的生成风格。

更关键的是,他们坚持用全词汇表的logit蒸馏,而不是某些同类工作里为了省资源使用的逐Token近似估计。V4团队直言,那种近似估计的梯度方差太大、训练不稳定,在多专家融合时风险不可控。

为了落地这件事,他们在工程上做了大量外人看不到的脏活累活:所有老师权重存进集中式分布式存储、只缓存老师最后一层隐藏状态而不缓存完整logits、按老师索引对训练样本排序以降低显存占用……这些东西技术报告里一笔带过,但对于真正做大模型训练的人来说,看看那背后对极致效率的追求吧。

从“探索”到“融合”,哲学变了

R1时代的哲学是探索。给模型一个目标,让它自己去试错,去碰壁,去在黑暗中找到那条通往正确答案的路。这条路走通了,我们惊叹于模型涌现出来的能力。

V4时代的哲学是融合。先把探索的代价,限定在可控的单一领域专家模型内部。然后把复杂的多能力整合,交给更稳定、更可控的蒸馏技术。

这不是技术退步,是另一种维度的成熟。

想想看,当模型能力越来越强、需要覆盖的领域越来越广,直接在大模型上做端到端RL的成本和风险是指数级上升的。而“分领域专才+统一蒸馏”这条路,可拆分、可迭代、可调试——这些在软件工程领域早被证明极其重要的品质,正在大模型训练中慢慢变成刚需。

百万Token之外,真正值得关注的东西

V4发布后,大多数人的注意力被“100万Token上下文”“推理计算量降到V3.2的27%”这些数字吸走了。这些当然值得兴奋,但它们属于技术参数的线性进步——虽然极其惊艳,却在意料之中。

而OPD替代RL成为最终模型训练的主力,代表的是一种方法和哲学的转变。

这大概也是DeepSeek这家公司有意思的地方。R1靠强化学习封神,V4却在最终阶段亲手把它从C位踢到了替补席。他们好像对“自己曾经创造的神话”没什么执念,该换的时候,毫不留恋。

搞研究需要浪漫,搞工程需要务实。

V4的报告,把这两件事分得很清楚。强化学习依然在——它只是去了它更该待的地方,专门负责培养领域专家。而最终那个站在台前的统一模型,是靠蒸馏学出来的,不是靠自己摸索出来的。

这或许才是V4最被低估的王炸。不是某一个技术参数有多高,而是他们想明白了一件事:当模型走到万亿参数这个量级,把不同专家的本事安全、高效、稳定地融合在一起,可能比从头造一个全知全能的神,重要得多。

所以,你怎么看这件事?是觉得RL被边缘化了很可惜,还是觉得这种“专才+蒸馏”的路才是未来?欢迎在评论区聊聊。