从0开始训练一个大模型,跑通chatgpt训练所有流程

146 阅读1分钟

今天介绍一个我的github开源项目:Zero-Chatgpt(github.com/AI-Study-Ha…

v2-8c5d269b95edd2438d86b1836cdb3791_1440w.png

这个项目包含从 1、数据收集 -> 2、数据清洗和去重 -> 3、词表训练 -> 4、语言模型预训练 -> 5、指令微调 -> 6、强化学习(rlhf,ppo)所有需要的****数据(环境)介绍、运行脚本和代码,并且兼容huggingface格式。如果需要的话可以直接联系作者,运行的镜像也可以直接提供。根据这个项目,你只需要收集自己的数据就可以直接跑一个你自己的大模型,可以根据你自己手边的计算资源自由的缩放模型和数据大小。