首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
从零训练大模型
JimmysAIPG
创建于2025-07-07
订阅专栏
你是否也对那些聪明的大语言模型(LLM)是如何构建的充满好奇?是否也想过亲手打造一个属于自己的、能够理解并生成文本的模型?
等 1 人订阅
共7篇文章
创建于2025-07-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
从零训练大模型之模型升级版搭建及训练(中):实现FlashAttention, GQA,RoPE, RMSNorm, SwiGLU
前言 我们在《从零训练大模型之模型搭建》这篇文章中,按照《Attention Is All You Need》的内容进行了模型实现,也训练出了一个pre-train模型。也在上一篇文章《从零训练大模型
从零训练大模型之模型升级版搭建及训练:FlashAttention, GQA,RoPE, RMSNorm, SwiGLU(上)
前言 自2017年那篇石破天惊的论文《Attention Is All You Need》问世以来,Transformer架构便奠定了现代人工智能的基石。它彻底摒弃了循环和卷积,仅凭注意力机制就实现了
从零训练大模型之模型训练总结
前言 经过前面的努力,已经完成了训练前的所有准备。回顾下我们的模型代码MiniLlmsModel.py,主要包括几个关键部分: Token Embedding:将输入的文字(Token ID)转换成模
从零开始训练大模型:搭建炼丹炉,详解训练脚本的每一行代码
引言 继续我们的“从零开始训练自己的小参数量大模型”系列。 在上几篇文章中,我们精心准备了数据集,相当于为我们的模型备好了“精神食粮”,而且训练好了我们的词库,并且使用PyTorch的API搭建好了我
从零训练大模型之模型搭建
前言 进过前两篇,我们已经完成数据集清洗以及BPE词表的训练,并且使用清洗后的数据集构建出 DataSet 类和 custom_collate_fn 方法。这一篇,我们终于要开始搭建模型了,如最开始所
从零训练大模型之BPE词表构建及数据集加载管道搭建
前言 上一篇我们已经对海量的OpenWebText数据完成了清洗去重,并选择将其存为高效的Arrow格式,这个步骤完成后,我们已经为训练自己的大语言模型(LLM)打下了坚实的基础。那么问题来了,存储为
从零训练大模型之数据集清洗
# 从零训练大模型之数据集清洗 ## 1. 前言 大型语言模型(LLM)的预训练效果在很大程度上取决于训练数据的质量和预处理方法。OpenWebText数据集作为一个广泛使用的公开语料库,为LL