Build Your Own Large Language Model From Zero to One

131 阅读3分钟
Build Your Own Large Language Model From Zero 2 One
  • 最近大模型很火,但是网上整理的资料都太过单一(要么只是整理了模型相关的东西,要么是只整理了某个方向的论文,或者提供了一个0到1训练LaMA的仓库,但是缺乏对所有数据的全局把控,例如训练自己的LLM需要从数据、模型结构、预训练任务、微调任务、推理、部署、应用、安全等多个维度进行解读,这里收集了一些公开的资料,并进行了整理,欢迎有兴趣的朋友一起参与构建。)

image.png

一、数据
  • 训练数据
  • 评估数据
    • 数据来源:公司整理,包含多种应用场景,长文本,事实、多模态、图像理解、文本理解,角色扮演等,具体参看:大模型评测数据集
二、模型
  • 模型结构主要采用两种(Encoder-Decoder和Decoder Only)
  • 现在开源的LLM的大都基于LaMA,
  • 模型主要分为通用大模型(如ChatGPT、GPT4等)和专用大模型(例如华佗、心理大模型、数学大模型等)
  • LLM资源
三、预训练
  • 预训练,也即使用开源或者闭源大模型用特定的数据集在特定的任务上进行训练
  • 这里有一些tricks,例如引入Flash Attention,MoE等结构
四、微调
  • 从头训练一个LLM成本太高,因此更多的公司选择在开源LLM上进行微调
  • 微调也有一些tricks,例如引入Adapter、LoRA、PEFT(参数高效微调)等技术来降低微调成本
五、推理
  • 推理主要考虑时效和精度问题,现在主要采用思维链、RAG方法等技术来加快推理速度,这里也收集了一些论文和代码,资源
六、部署
  • 部署主要考虑资源和速度的问题,现在主要采用量化、剪枝等技术来减少空间和计算开销,资源
七、应用
  • 应用主要用于QA,但是细分可以分为知识QA(例如ChatGPT),做学术研究(用于摘要生成,例如gpt_academic等),做其他专用大模型,例如(GirlGPT等),还有最近很火的AutoGPT、MetaGPT等,现在有很多的适配工具,可以将LLM用于各种应用平台用于提高生产力,详细见:资源
八、安全
  • LLM存在两个很严重的问题,一个是幻觉问题,也即模型会生成一些不符合事实的结果;另外一个是存在偏见,也即因为训练数据集中可能存在性别歧视、年龄歧视、地域歧视、肤色歧视等问题,因此LLM可能会存在偏见,最近也有论文开始研究这一话题,详情参见:资源
九、其他
  • 最近有很多github资源用于提供如何从0到1训练自己的LLM的教程,这里也对这些资源进行了收集,例如LLMZoo,llm_training_handbook等资源,详情参看项目:BYO-LLM-FZ2O