从零训练大模型

从零训练大模型

从零训练大模型

你是否也对那些聪明的大语言模型（LLM）是如何构建的充满好奇？是否也想过亲手打造一个属于自己的、能够理解并生成文本的模型？

等 1 人订阅共7篇文章创建于2025-07-07

从零训练大模型之模型升级版搭建及训练（中）：实现FlashAttention, GQA,RoPE, RMSNorm, SwiGLU

前言我们在《从零训练大模型之模型搭建》这篇文章中，按照《Attention Is All You Need》的内容进行了模型实现，也训练出了一个pre-train模型。也在上一篇文章《从零训练大模型

9月前
198
点赞
评论

从零训练大模型之模型升级版搭建及训练：FlashAttention, GQA,RoPE, RMSNorm, SwiGLU（上）

前言自2017年那篇石破天惊的论文《Attention Is All You Need》问世以来，Transformer架构便奠定了现代人工智能的基石。它彻底摒弃了循环和卷积，仅凭注意力机制就实现了

9月前
188
点赞
评论

从零训练大模型之模型训练总结

前言经过前面的努力，已经完成了训练前的所有准备。回顾下我们的模型代码MiniLlmsModel.py，主要包括几个关键部分： Token Embedding：将输入的文字（Token ID）转换成模

9月前
109
点赞
评论

从零开始训练大模型：搭建炼丹炉，详解训练脚本的每一行代码

引言继续我们的“从零开始训练自己的小参数量大模型”系列。在上几篇文章中，我们精心准备了数据集，相当于为我们的模型备好了“精神食粮”，而且训练好了我们的词库，并且使用PyTorch的API搭建好了我

9月前
248
点赞
评论

从零训练大模型之模型搭建

前言进过前两篇，我们已经完成数据集清洗以及BPE词表的训练，并且使用清洗后的数据集构建出 DataSet 类和 custom_collate_fn 方法。这一篇，我们终于要开始搭建模型了，如最开始所

9月前
130
点赞
评论

从零训练大模型之BPE词表构建及数据集加载管道搭建

前言上一篇我们已经对海量的OpenWebText数据完成了清洗去重，并选择将其存为高效的Arrow格式，这个步骤完成后，我们已经为训练自己的大语言模型（LLM）打下了坚实的基础。那么问题来了，存储为

9月前
207
点赞
评论

从零训练大模型之数据集清洗

# 从零训练大模型之数据集清洗 ## 1. 前言大型语言模型（LLM）的预训练效果在很大程度上取决于训练数据的质量和预处理方法。OpenWebText数据集作为一个广泛使用的公开语料库，为LL

9月前
308
点赞
评论