这个教程是参考吴恩达的deeplearning.ai的课程编写的,并介绍了三种大模型后训练方法:监督微调、DPO、Online RL。本次的内容比较简单,只对这三种方法进行了简要介绍,具体的原理和实现放在后面。
可以注意到,强化学习在本教程中占了两章,所以可以认为本教程的重点在于RL,此处推荐几个B站比较好的讲RL的视频:
- 【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导 www.bilibili.com/video/BV1ro…
- 零基础学习强化学习算法:ppo www.bilibili.com/video/BV1iz…
- DPO (Direct Preference Optimization) 算法讲解 www.bilibili.com/video/BV1GF…