手搓大模型

手搓大模型

手搓大模型

理解大模型最好的方式，应该是亲自动手、从零开始实现。本系列文章将从头开始实现GPT2源码，后续将添加LLama2和LLama3。

等 1 人订阅共8篇文章创建于2025-07-12

【手搓大模型】从零手写Llama3

在前文，我们从零手写了GPT2和Llama2的代码，现在将在Llama2代码的基础上改造，给出Llama3的模型代码。

7月前
222
2
评论

【手搓大模型】从零手写Llama2

本文在GPT2源码的基础上，实现Llama2代码，理解RMSNorm，RoPE，SwiGLU，并从HuggingFace下载并加载公开权重。

7月前
172
点赞
评论

【手搓大模型】GPT2系列前言

理解大模型最好的方式，应该是亲自动手、从零开始实现。本系列文章将带你从零开始实现GPT2源码，并学会训练与微调。

7月前
291
点赞
评论

【手搓大模型】从零训练GPT2

理解Cross-Entropy，实现在数据集和批量上计算Loss；实现训练代码，并在超小数据集上训练；实现decode控制随机性的方式，包括temperature和top k；save和load模型。

7月前
197
点赞
评论

【手搓大模型】从零手写GPT2 — Embedding

介绍如何从text到token，再到vector；理解BPE的思想；会用滑动窗口取样；理解Embedding的本质是查表操作；理解位置编码。

7月前
321
2
评论

【手搓大模型】从零微调GPT2

实现手动load公开模型权重；利用超小数据集微调GPT2，让GPT2学会响应指令，而不是补全文本；利用本地运行llama3评估训练效果。

7月前
354
点赞
评论

【手搓大模型】从零手写GPT2 — Model

【手搓大模型】从零手写GPT2 — Model：构建GPT2的完整骨架，理解LayerNorm和Relu激活，实现Transformer Block；使用未训练的GPT2补全文本。

7月前
315
点赞
评论

【手搓大模型】从零手写GPT2 — Attention

【手搓大模型】从零手写GPT2 — Attention：理解注意力机制，Mask遮蔽未来词，Dropout随机丢弃，实现单一与多头注意力机制。

7月前
401
点赞
评论