大语言模型入门：从N-gram到Transformer的进化之路大语言模型入门：从N-gram到Transformer的

大语言模型入门：从N-gram到Transformer的进化之路

想知道ChatGPT、Claude这些AI助手背后的原理吗？本文带你了解大语言模型的发展历程，从最简单的统计方法到革命性的Transformer架构。

一、什么是语言模型？

1. 核心定义

一个能够判断"这句话通不通顺"的数学模型

2. 核心任务

计算一个词序列（句子）出现的概率

3. 判断示例

"今天天气很好" → 概率很高（通顺）
"天气今天很好" → 概率较低（不太自然）
"很好天气今天" → 概率很低（不通顺）

4. 系统角色

在智能体系统中，是AI理解人类指令、生成回应的基础

二、第一代：N-gram模型（数数的方法）

2.1 核心思想

基本方法：深度学习兴起前最朴素的统计方法
核心假设：一个词的出现概率只与它前面有限的 n-1 个词有关
常见类型：
- Bigram（N=2）：只看前一个词
- Trigram（N=3）：看前两个词

2.2 计算示例

假设迷你语料库：

datawhale agent learns
datawhale agent works

计算句子"datawhale agent learns"的概率步骤：
- P(datawhale) = 2/6 ≈ 0.333（datawhale出现2次，总词数6）
- P(agent|datawhale) = 2/2 = 1（datawhale agent出现2次，datawhale出现2次）
- P(learns|agent) = 1/2 = 0.5（agent learns出现1次，agent出现2次）
- 最终概率 = 0.333 × 1 × 0.5 ≈ 0.167

2.3 致命缺陷

数据稀疏性：
- 没见过的词组合概率为0
泛化能力差：
- 无法理解词的语义相似性
- 示例：即使见过很多次"agent learns"，也无法理解"robot learns"
- 原因：robot和agent在语义上相似，但模型不知道

三、第二代：神经网络语言模型（向量的世界）

3.1 核心创新：词嵌入

提出背景：2003年由Bengio等人提出
核心思想：用连续的向量来表示词
空间概念：
- 想象一个高维空间，每个词都是这个空间中的一个点
- "agent"和"robot"向量靠得近（语义相似）
- "agent"和"apple"向量离得远（语义不相关）

3.2 向量运算的神奇之处

经典示例：

vector('King') - vector('Man') + vector('Woman') ≈ vector('Queen')

形象解释：
- 像语义的平移运算
- 从"国王"出发，减去"男性"，加上"女性"，得到"女王"

3.3 优点与缺点

✅ 优点：

解决了泛化能力差的问题
能理解语义相似性

❌ 缺点：

上下文窗口仍然是固定的
只能看前n-1个词

四、第三代：RNN与LSTM（记忆的诞生）

4.1 RNN：给网络加上记忆

出现背景：为了打破固定窗口的限制
核心思想：为网络增加"记忆"能力
关键机制：
- 引入隐藏状态（hidden state）作为短期记忆
- 每处理一个词，结合当前输入和上一刻的记忆
- 生成新的记忆传递下去

4.2 LSTM：解决长期依赖问题

解决的核心问题：RNN的梯度消失
- 当序列很长时，早期信息在传递中逐渐丢失
创新机制：
- 细胞状态：独立的信息通路
- 门控机制：
  - 遗忘门
  - 输入门
  - 输出门
核心效果：让信息在长距离之间顺畅传递

4.3 优点与缺点

✅ 优点：

能够处理任意长度的序列

❌ 缺点：

必须按顺序处理
无法并行计算
效率低下

五、第四代：Transformer（革命性的突破）

5.1 2017年的里程碑

提出团队：谷歌团队
核心创新：
- 完全抛弃循环结构
- 完全依赖注意力机制
- 实现真正的并行计算
地位：现代大语言模型（GPT、BERT等）的基础架构

5.2 Encoder-Decoder架构

编码器（Encoder） ：负责"理解"输入句子
- 读取所有输入词元
- 为每个词元生成富含上下文信息的向量表示
解码器（Decoder） ：负责"生成"目标句子
- 参考自己已经生成的前文
- "咨询"编码器的理解结果
- 生成下一个词

5.3 核心机制：注意力

1. 自注意力（Self-Attention）

模拟过程：人类的阅读理解过程
示例分析："The agent learns because it is intelligent."
- 读到"it"时，自动关注前面的"agent"
- "it"指代的就是"agent"
工作机制：
- 每个词有三个角色：Query（查询）、Key（键）、Value（值）
- 计算Query和Key的相似度，决定对Value的注意力权重
- 权重越高的词，对当前词的影响越大

2. 多头注意力

核心思想：从多个角度同时关注不同关系
不同注意力头的关注点：
- 语法关系
- 语义关系
- 指代关系
形象比喻：像一个人从多个角度观察同一个物体，得到更全面的理解

六、四代模型对比总结

模型	核心创新	优点	缺点
N-gram	统计概率	简单高效	数据稀疏、泛化差
神经网络LM	词嵌入	语义理解	固定窗口
RNN/LSTM	记忆能力	处理长序列	串行计算、效率低
Transformer	注意力机制	并行计算、性能强大	计算资源需求大

七、为什么Transformer这么重要？

开启新时代：开启了现代大语言模型的时代
关键优势： ✅ 并行计算：可以同时处理整个序列，训练速度快 ✅ 强大的表达能力：注意力机制能捕捉复杂的长距离依赖 ✅ 可扩展性：可以堆叠更多层，训练更大的模型
具体产物：
- GPT系列：强大的文本生成能力
- BERT：强大的文本理解能力
- ChatGPT、Claude：能够进行对话、推理、创作的AI助手

八、写在最后

发展历程：从最简单的"数数"方法，到革命性的注意力机制
技术进步：语言模型的发展展示了AI技术的快速进步
学习意义：
- 理解这些基础原理，能帮助我们更好地使用和开发AI应用
- 只有知道工具是如何工作的，才能更好地发挥它的潜力
结语：
- 希望这篇文章对你有所帮助！
- 如果你对某个细节感兴趣，欢迎继续深入探索

本文基于《Hello-Agents》第三章内容整理，旨在用通俗易懂的方式介绍大语言模型的基础知识。