大语言模型入门:从N-gram到Transformer的进化之路

4 阅读5分钟

大语言模型入门:从N-gram到Transformer的进化之路

想知道ChatGPT、Claude这些AI助手背后的原理吗?本文带你了解大语言模型的发展历程,从最简单的统计方法到革命性的Transformer架构。


一、什么是语言模型?

1. 核心定义

  • 一个能够判断"这句话通不通顺"的数学模型

2. 核心任务

  • 计算一个词序列(句子)出现的概率

3. 判断示例

  • "今天天气很好" → 概率很高(通顺)
  • "天气今天很好" → 概率较低(不太自然)
  • "很好天气今天" → 概率很低(不通顺)

4. 系统角色

  • 在智能体系统中,是AI理解人类指令、生成回应的基础

二、第一代:N-gram模型(数数的方法)

2.1 核心思想

  1. 基本方法:深度学习兴起前最朴素的统计方法

  2. 核心假设:一个词的出现概率只与它前面有限的 n-1 个词有关

  3. 常见类型

    • Bigram(N=2):只看前一个词
    • Trigram(N=3):看前两个词

2.2 计算示例

  1. 假设迷你语料库

    datawhale agent learns
    datawhale agent works
    
  2. 计算句子"datawhale agent learns"的概率步骤

    • P(datawhale) = 2/6 ≈ 0.333(datawhale出现2次,总词数6)
    • P(agent|datawhale) = 2/2 = 1(datawhale agent出现2次,datawhale出现2次)
    • P(learns|agent) = 1/2 = 0.5(agent learns出现1次,agent出现2次)
    • 最终概率 = 0.333 × 1 × 0.5 ≈ 0.167

2.3 致命缺陷

  1. 数据稀疏性

    • 没见过的词组合概率为0
  2. 泛化能力差

    • 无法理解词的语义相似性
    • 示例:即使见过很多次"agent learns",也无法理解"robot learns"
    • 原因:robot和agent在语义上相似,但模型不知道

三、第二代:神经网络语言模型(向量的世界)

3.1 核心创新:词嵌入

  1. 提出背景:2003年由Bengio等人提出

  2. 核心思想:用连续的向量来表示词

  3. 空间概念

    • 想象一个高维空间,每个词都是这个空间中的一个点
    • "agent"和"robot"向量靠得近(语义相似)
    • "agent"和"apple"向量离得远(语义不相关)

3.2 向量运算的神奇之处

  1. 经典示例

    vector('King') - vector('Man') + vector('Woman') ≈ vector('Queen')
    
  2. 形象解释

    • 像语义的平移运算
    • 从"国王"出发,减去"男性",加上"女性",得到"女王"

3.3 优点与缺点

优点

  1. 解决了泛化能力差的问题
  2. 能理解语义相似性

缺点

  1. 上下文窗口仍然是固定的
  2. 只能看前n-1个词

四、第三代:RNN与LSTM(记忆的诞生)

4.1 RNN:给网络加上记忆

  1. 出现背景:为了打破固定窗口的限制

  2. 核心思想:为网络增加"记忆"能力

  3. 关键机制

    • 引入隐藏状态(hidden state)作为短期记忆
    • 每处理一个词,结合当前输入和上一刻的记忆
    • 生成新的记忆传递下去

4.2 LSTM:解决长期依赖问题

  1. 解决的核心问题:RNN的梯度消失

    • 当序列很长时,早期信息在传递中逐渐丢失
  2. 创新机制

    • 细胞状态:独立的信息通路

    • 门控机制

      • 遗忘门
      • 输入门
      • 输出门
  3. 核心效果:让信息在长距离之间顺畅传递

4.3 优点与缺点

优点

  1. 能够处理任意长度的序列

缺点

  1. 必须按顺序处理
  2. 无法并行计算
  3. 效率低下

五、第四代:Transformer(革命性的突破)

5.1 2017年的里程碑

  1. 提出团队:谷歌团队

  2. 核心创新

    • 完全抛弃循环结构
    • 完全依赖注意力机制
    • 实现真正的并行计算
  3. 地位:现代大语言模型(GPT、BERT等)的基础架构

5.2 Encoder-Decoder架构

  1. 编码器(Encoder) :负责"理解"输入句子

    • 读取所有输入词元
    • 为每个词元生成富含上下文信息的向量表示
  2. 解码器(Decoder) :负责"生成"目标句子

    • 参考自己已经生成的前文
    • "咨询"编码器的理解结果
    • 生成下一个词

5.3 核心机制:注意力

1. 自注意力(Self-Attention)

  • 模拟过程:人类的阅读理解过程

  • 示例分析:"The agent learns because it is intelligent."

    • 读到"it"时,自动关注前面的"agent"
    • "it"指代的就是"agent"
  • 工作机制

    • 每个词有三个角色:Query(查询)、Key(键)、Value(值)
    • 计算Query和Key的相似度,决定对Value的注意力权重
    • 权重越高的词,对当前词的影响越大

2. 多头注意力

  • 核心思想:从多个角度同时关注不同关系

  • 不同注意力头的关注点

    • 语法关系
    • 语义关系
    • 指代关系
  • 形象比喻:像一个人从多个角度观察同一个物体,得到更全面的理解


六、四代模型对比总结

模型核心创新优点缺点
N-gram统计概率简单高效数据稀疏、泛化差
神经网络LM词嵌入语义理解固定窗口
RNN/LSTM记忆能力处理长序列串行计算、效率低
Transformer注意力机制并行计算、性能强大计算资源需求大

七、为什么Transformer这么重要?

  1. 开启新时代:开启了现代大语言模型的时代

  2. 关键优势: ✅ 并行计算:可以同时处理整个序列,训练速度快 ✅ 强大的表达能力:注意力机制能捕捉复杂的长距离依赖 ✅ 可扩展性:可以堆叠更多层,训练更大的模型

  3. 具体产物

    • GPT系列:强大的文本生成能力
    • BERT:强大的文本理解能力
    • ChatGPT、Claude:能够进行对话、推理、创作的AI助手

八、写在最后

  1. 发展历程:从最简单的"数数"方法,到革命性的注意力机制

  2. 技术进步:语言模型的发展展示了AI技术的快速进步

  3. 学习意义

    • 理解这些基础原理,能帮助我们更好地使用和开发AI应用
    • 只有知道工具是如何工作的,才能更好地发挥它的潜力
  4. 结语

    • 希望这篇文章对你有所帮助!
    • 如果你对某个细节感兴趣,欢迎继续深入探索

本文基于《Hello-Agents》第三章内容整理,旨在用通俗易懂的方式介绍大语言模型的基础知识。