接歌也

赞

50

|

搜索文章

Datawhale 大模型后训练学习笔记 task1

这个教程是参考吴恩达的deeplearning.ai的课程编写的，并介绍了三种大模型后训练方法：监督微调、DPO、Online RL。本次的内容比较简单，只对这三种方法进行了简要介绍，具体的原理和实现

7月前
96
点赞
评论

个人成就

文章被阅读 96

加入于

2022-08-17