大语言模型入门:从N-gram到Transformer的进化之路
想知道ChatGPT、Claude这些AI助手背后的原理吗?本文带你了解大语言模型的发展历程,从最简单的统计方法到革命性的Transformer架构。
一、什么是语言模型?
1. 核心定义
- 一个能够判断"这句话通不通顺"的数学模型
2. 核心任务
- 计算一个词序列(句子)出现的概率
3. 判断示例
- "今天天气很好" → 概率很高(通顺)
- "天气今天很好" → 概率较低(不太自然)
- "很好天气今天" → 概率很低(不通顺)
4. 系统角色
- 在智能体系统中,是AI理解人类指令、生成回应的基础
二、第一代:N-gram模型(数数的方法)
2.1 核心思想
-
基本方法:深度学习兴起前最朴素的统计方法
-
核心假设:一个词的出现概率只与它前面有限的 n-1 个词有关
-
常见类型:
- Bigram(N=2):只看前一个词
- Trigram(N=3):看前两个词
2.2 计算示例
-
假设迷你语料库:
datawhale agent learns datawhale agent works -
计算句子"datawhale agent learns"的概率步骤:
- P(datawhale) = 2/6 ≈ 0.333(datawhale出现2次,总词数6)
- P(agent|datawhale) = 2/2 = 1(datawhale agent出现2次,datawhale出现2次)
- P(learns|agent) = 1/2 = 0.5(agent learns出现1次,agent出现2次)
- 最终概率 = 0.333 × 1 × 0.5 ≈ 0.167
2.3 致命缺陷
-
数据稀疏性:
- 没见过的词组合概率为0
-
泛化能力差:
- 无法理解词的语义相似性
- 示例:即使见过很多次"agent learns",也无法理解"robot learns"
- 原因:robot和agent在语义上相似,但模型不知道
三、第二代:神经网络语言模型(向量的世界)
3.1 核心创新:词嵌入
-
提出背景:2003年由Bengio等人提出
-
核心思想:用连续的向量来表示词
-
空间概念:
- 想象一个高维空间,每个词都是这个空间中的一个点
- "agent"和"robot"向量靠得近(语义相似)
- "agent"和"apple"向量离得远(语义不相关)
3.2 向量运算的神奇之处
-
经典示例:
vector('King') - vector('Man') + vector('Woman') ≈ vector('Queen') -
形象解释:
- 像语义的平移运算
- 从"国王"出发,减去"男性",加上"女性",得到"女王"
3.3 优点与缺点
✅ 优点:
- 解决了泛化能力差的问题
- 能理解语义相似性
❌ 缺点:
- 上下文窗口仍然是固定的
- 只能看前n-1个词
四、第三代:RNN与LSTM(记忆的诞生)
4.1 RNN:给网络加上记忆
-
出现背景:为了打破固定窗口的限制
-
核心思想:为网络增加"记忆"能力
-
关键机制:
- 引入隐藏状态(hidden state)作为短期记忆
- 每处理一个词,结合当前输入和上一刻的记忆
- 生成新的记忆传递下去
4.2 LSTM:解决长期依赖问题
-
解决的核心问题:RNN的梯度消失
- 当序列很长时,早期信息在传递中逐渐丢失
-
创新机制:
-
细胞状态:独立的信息通路
-
门控机制:
- 遗忘门
- 输入门
- 输出门
-
-
核心效果:让信息在长距离之间顺畅传递
4.3 优点与缺点
✅ 优点:
- 能够处理任意长度的序列
❌ 缺点:
- 必须按顺序处理
- 无法并行计算
- 效率低下
五、第四代:Transformer(革命性的突破)
5.1 2017年的里程碑
-
提出团队:谷歌团队
-
核心创新:
- 完全抛弃循环结构
- 完全依赖注意力机制
- 实现真正的并行计算
-
地位:现代大语言模型(GPT、BERT等)的基础架构
5.2 Encoder-Decoder架构
-
编码器(Encoder) :负责"理解"输入句子
- 读取所有输入词元
- 为每个词元生成富含上下文信息的向量表示
-
解码器(Decoder) :负责"生成"目标句子
- 参考自己已经生成的前文
- "咨询"编码器的理解结果
- 生成下一个词
5.3 核心机制:注意力
1. 自注意力(Self-Attention)
-
模拟过程:人类的阅读理解过程
-
示例分析:"The agent learns because it is intelligent."
- 读到"it"时,自动关注前面的"agent"
- "it"指代的就是"agent"
-
工作机制:
- 每个词有三个角色:Query(查询)、Key(键)、Value(值)
- 计算Query和Key的相似度,决定对Value的注意力权重
- 权重越高的词,对当前词的影响越大
2. 多头注意力
-
核心思想:从多个角度同时关注不同关系
-
不同注意力头的关注点:
- 语法关系
- 语义关系
- 指代关系
-
形象比喻:像一个人从多个角度观察同一个物体,得到更全面的理解
六、四代模型对比总结
| 模型 | 核心创新 | 优点 | 缺点 |
|---|---|---|---|
| N-gram | 统计概率 | 简单高效 | 数据稀疏、泛化差 |
| 神经网络LM | 词嵌入 | 语义理解 | 固定窗口 |
| RNN/LSTM | 记忆能力 | 处理长序列 | 串行计算、效率低 |
| Transformer | 注意力机制 | 并行计算、性能强大 | 计算资源需求大 |
七、为什么Transformer这么重要?
-
开启新时代:开启了现代大语言模型的时代
-
关键优势: ✅ 并行计算:可以同时处理整个序列,训练速度快 ✅ 强大的表达能力:注意力机制能捕捉复杂的长距离依赖 ✅ 可扩展性:可以堆叠更多层,训练更大的模型
-
具体产物:
- GPT系列:强大的文本生成能力
- BERT:强大的文本理解能力
- ChatGPT、Claude:能够进行对话、推理、创作的AI助手
八、写在最后
-
发展历程:从最简单的"数数"方法,到革命性的注意力机制
-
技术进步:语言模型的发展展示了AI技术的快速进步
-
学习意义:
- 理解这些基础原理,能帮助我们更好地使用和开发AI应用
- 只有知道工具是如何工作的,才能更好地发挥它的潜力
-
结语:
- 希望这篇文章对你有所帮助!
- 如果你对某个细节感兴趣,欢迎继续深入探索
本文基于《Hello-Agents》第三章内容整理,旨在用通俗易懂的方式介绍大语言模型的基础知识。