Datawhale 大模型后训练学习笔记 task1这个教程是参考吴恩达的deeplearning.ai的课程编写的，

教程：github.com/datawhalech…

这个教程是参考吴恩达的deeplearning.ai的课程编写的，并介绍了三种大模型后训练方法：监督微调、DPO、Online RL。本次的内容比较简单，只对这三种方法进行了简要介绍，具体的原理和实现放在后面。

可以注意到，强化学习在本教程中占了两章，所以可以认为本教程的重点在于RL，此处推荐几个B站比较好的讲RL的视频：

Datawhale 大模型后训练 学习笔记 task1