最近DeepSeek-R1展现出了惊人的推理效果,在推理能力上达到了当前业内最新的水平。那么它是怎么训练出来的?为什么有这么好的效果呢?带着这些问题,我去阅读了下DeepSeek R1的相关论文。本文提取出了其中的一些关键信息进行说明。
训练流程
论文中提到了两个模型DeepSeek-R1-Zero和DeepSeek-R1。他们之间的关系如下:
相比于传统大模型的训练,DeepSeek-R1最大的创新点是使用大规模强化学习过程替代传统的依赖大量高质量数据的有监督微调了。这是一种新的尝试,并且通过在DeepSeek R1 Zero上进行实验来验证其有效性。这个创新的过程中存在两个模型:基于大规模强化学习的DeepSeek-R1-Zero和进一步优化可读性差、语言混合处理等问题的DeepSeek-R1。两个模型的训练处理流程如下:
提示词模板
训练过程中会预先设置好提示词模板,在DeepSeek-R1-Zero的训练过程中使用的提示词模板如下。通过提示词可以看到,在训练的过程中我们不仅要求模型给出回答,还要求将思考的过程也存储下来。这些信息会被要求写入到相应的tag中去,这种固定格式的写入最终也是通过一个格式奖励模型来优化完成的。
奖励模型
由于使用强化学习来进行训练,因此需要定义奖励模型。本文中前面提到的奖励模型基本都是基于规则的奖励模型,其中包括精确度模型(用于奖励精确度)和格式模型(用于奖励格式)。
顿悟时刻(Aha moment)
顾名思义,顿悟时刻是指模型思考的过程中突然发现当前的思考方向是错误的,然后开始反思前面的步骤,找到可能出错的位置,沿其他方向进行思考和尝试。这种能力并不是通过硬编码写入程序的,而是在强化学习的过程中模型自己发现的。这也提醒着我们未来可以更多的探索人工智能的自主性和适应性。感觉是一个很有意思的结论。
模型蒸馏
本文中另一个有意思的结论是:通过大模型训练出来的推理能力进行知识蒸馏到小模型上会比在小模型上进行RL学习获得的推理能力更强。这是基于一系列的实验得出的结论,在这里实验细节就不详细展开了,感兴趣的同学可以去看原文。
最后
以上就是论文中的一些主要的模型训练流程和结论信息。由于强化学习目前本人还不是特别的了解,因此这部分相关内容我没有展开来讲(后续等有详细的了解后可能再回来这里)。关于其中更多的信息感兴趣的同学可以去参考原文和相关源码。
参考论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning