我写了一本从零实现深度学习与大语言模型的入门教程

20 阅读2分钟

我写了一本从零实现深度学习与大语言模型的入门教程:

从人工神经元到聊天机器人

一本 从零实现深度学习与大语言模型 的入门教程

从最基础的 人工神经元 开始,逐步构建完整的深度学习训练框架,并最终实现一个可以进行文本生成和对话的 GPT 聊天模型

全部使用 NumPy 从零实现,不依赖于任何深度学习框架,帮助读者真正理解现代深度学习模型的内部原理。


1. 从零实现

所有模型与算法均使用 NumPy 实现

不依赖深度学习框架,所有核心算法完全透明。

读者可以看到每一步计算的具体实现。

2. 逐步构建完整训练框架

本书不仅介绍模型,还会一步步构建一个深度学习框架,包括:

张量(Tensor),自动微分(Autodiff),优化器(Optimizer),数据集(Dataset),模型结构(Model)...

读者将从零实现一个简化版的 深度学习框架

3. 覆盖完整深度学习发展路线

从最基础模型一直到现代 大语言模型(LLM)

人工神经元 → 多层感知机 (MLP) → 卷积神经网络 (CNN) → 循环神经网络 (RNN / LSTM) → Transformer → GPT

最终实现一个可以 生成文本的 GPT 模型

4. 所有章节均可独立运行

本书的每一章均采用 Jupyter Notebook (.ipynb) 编写:

每个章节都可以 独立运行,代码与解释 紧密结合,方便读者实验与修改。

读者可以一步步运行代码,观察模型训练过程。


现代深度学习框架极大降低了使用门槛,但也隐藏了很多关键细节。这本书想做的事情只有一件:

理解每一行代码背后的数学与算法

GitHub 代码仓库:github.com/n2gpt/from-…

电子书地址(免费):从人工神经元到聊天机器人

欢迎 Star,也欢迎在评论区告诉我哪里讲得还不够清楚。


目录

第一部分:神经网络模型

  1. 多层感知机(已完成)
  2. 深度学习框架(已完成)
  3. 卷积神经网络(每天一章,进行中)
  4. 循环神经网络

第二部分:大语言模型

  1. 分词器
  2. 自注意力机制
  3. 预训练
  4. 微调
  5. 推理