首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
手搓大模型
kuo
创建于2025-07-12
订阅专栏
理解大模型最好的方式,应该是亲自动手、从零开始实现。 本系列文章将从头开始实现GPT2源码,后续将添加LLama2和LLama3。
等 1 人订阅
共8篇文章
创建于2025-07-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【手搓大模型】从零手写Llama3
在前文,我们从零手写了GPT2和Llama2的代码,现在将在Llama2代码的基础上改造,给出Llama3的模型代码。
【手搓大模型】从零手写Llama2
本文在GPT2源码的基础上,实现Llama2代码,理解RMSNorm,RoPE,SwiGLU,并从HuggingFace下载并加载公开权重。
【手搓大模型】GPT2系列前言
理解大模型最好的方式,应该是亲自动手、从零开始实现。本系列文章将带你从零开始实现GPT2源码,并学会训练与微调。
【手搓大模型】从零训练GPT2
理解Cross-Entropy,实现在数据集和批量上计算Loss;实现训练代码,并在超小数据集上训练;实现decode控制随机性的方式,包括temperature和top k;save和load模型。
【手搓大模型】从零手写GPT2 — Embedding
介绍如何从text到token,再到vector;理解BPE的思想;会用滑动窗口取样;理解Embedding的本质是查表操作;理解位置编码。
【手搓大模型】从零微调GPT2
实现手动load公开模型权重;利用超小数据集微调GPT2,让GPT2学会响应指令,而不是补全文本;利用本地运行llama3评估训练效果。
【手搓大模型】从零手写GPT2 — Model
【手搓大模型】从零手写GPT2 — Model:构建GPT2的完整骨架,理解LayerNorm和Relu激活,实现Transformer Block;使用未训练的GPT2补全文本。
【手搓大模型】从零手写GPT2 — Attention
【手搓大模型】从零手写GPT2 — Attention:理解注意力机制,Mask遮蔽未来词,Dropout随机丢弃,实现单一与多头注意力机制。