北京大学第三弹：《DeepSeek-R1及类强推理模型开发解读》大家好，我是吾鳴。今天要给大家分享的是由北京大学出版的

大家好，我是吾鳴。

今天要给大家分享的是由北京大学出版的《DeepSeek-R1及类强推理模型开发解读》，这份教程是关于DeepSeek-R1及类强推理模型开发的解读，由北京大学的陈博远撰写。主要内容涉及模型的技术架构、强化学习（RL）的应用、与其他技术的对比、未来发展方向等。教程一共有76页，文末有完整版下载地址。

教程分为多个部分，包括DeepSeek-R1的技术剖析、RL算法的创新（如GRPO）、与其他模型（如Kimi K1.5）的对比、蒸馏与RL的讨论、多模态扩展、安全与对齐问题等。每个部分都有详细的技术细节和实验结果。

下面是对教程各个部分的一个简单的总结和介绍:

一、DeepSeek-R1模型的技术架构与创新

该模型基于大规模强化学习（RL）技术，无需依赖人工标注的监督微调（SFT），通过纯RL驱动实现强推理能力。其核心创新包括基于规则的奖励系统（准确率奖励+格式奖励）、GRPO（群组相对策略优化）算法，以及通过RL自然涌现的长文本推理和自我修正能力。模型在数学、代码等复杂任务中表现优异，如AIME2024竞赛中超越OpenAI o1系列。

二、技术对比分析

对比了不同技术路线，如基于STaR的方法与RL方法的差异，蒸馏与RL的优劣，以及MCTS和PRM的作用。例如，Kimi K1.5通过长文本思维链（Long-CoT）结合RL提升推理能力，而DeepSeek-R1更注重规则化奖励和基座模型的潜力激活。蒸馏可将大模型的高阶推理能力迁移至小模型，但在泛化性上受限。