Datawhale 大模型后训练 学习笔记 task1

43 阅读1分钟

教程:github.com/datawhalech…

这个教程是参考吴恩达的deeplearning.ai的课程编写的,并介绍了三种大模型后训练方法:监督微调、DPO、Online RL。本次的内容比较简单,只对这三种方法进行了简要介绍,具体的原理和实现放在后面。

可以注意到,强化学习在本教程中占了两章,所以可以认为本教程的重点在于RL,此处推荐几个B站比较好的讲RL的视频:

image.png