我写了一本从零实现深度学习与大语言模型的入门教程:
从人工神经元到聊天机器人
一本 从零实现深度学习与大语言模型 的入门教程
从最基础的 人工神经元 开始,逐步构建完整的深度学习训练框架,并最终实现一个可以进行文本生成和对话的 GPT 聊天模型。
全部使用 NumPy 从零实现,不依赖于任何深度学习框架,帮助读者真正理解现代深度学习模型的内部原理。
1. 从零实现
所有模型与算法均使用 NumPy 实现:
不依赖深度学习框架,所有核心算法完全透明。
读者可以看到每一步计算的具体实现。
2. 逐步构建完整训练框架
本书不仅介绍模型,还会一步步构建一个深度学习框架,包括:
张量(Tensor),自动微分(Autodiff),优化器(Optimizer),数据集(Dataset),模型结构(Model)...
读者将从零实现一个简化版的 深度学习框架。
3. 覆盖完整深度学习发展路线
从最基础模型一直到现代 大语言模型(LLM):
人工神经元 → 多层感知机 (MLP) → 卷积神经网络 (CNN) → 循环神经网络 (RNN / LSTM) → Transformer → GPT
最终实现一个可以 生成文本的 GPT 模型。
4. 所有章节均可独立运行
本书的每一章均采用 Jupyter Notebook (.ipynb) 编写:
每个章节都可以 独立运行,代码与解释 紧密结合,方便读者实验与修改。
读者可以一步步运行代码,观察模型训练过程。
现代深度学习框架极大降低了使用门槛,但也隐藏了很多关键细节。这本书想做的事情只有一件:
理解每一行代码背后的数学与算法
GitHub 代码仓库:github.com/n2gpt/from-…
电子书地址(免费):从人工神经元到聊天机器人
欢迎 Star,也欢迎在评论区告诉我哪里讲得还不够清楚。
目录
第一部分:神经网络模型
- 多层感知机(已完成)
- 深度学习框架(已完成)
- 卷积神经网络(每天一章,进行中)
- 循环神经网络
第二部分:大语言模型
- 分词器
- 自注意力机制
- 预训练
- 微调
- 推理