AI 新纪元:大语言模型的崛起

112 阅读6分钟

大语言模型(LLM)正在重塑我们与计算机交互的方式。本文回顾这一技术革命的历程,展望未来趋势。


引言

2022年11月30日,ChatGPT 横空出世,两个月内用户突破1亿。这不是一个简单的产品发布,而是一个时代的开端。大语言模型从实验室走向大众,AI 从"象牙塔"技术变成人人可用的工具。

三年过去了,我们正站在 AI 历史的转折点。让我们一起回顾这段波澜壮阔的历程。


一、前 LLM 时代:从规则到统计

1.1 早期聊天机器人

早在1966年,MIT 的 Joseph Weizenbaum 创造了 ELIZA——一个模拟心理治疗师的简单程序。它通过模式匹配和模板回复与用户对话:

用户:我很沮丧
ELIZA:你为什么感到沮丧?
用户:我的老板总是批评我
ELIZA:你的老板总是批评你,这让你有什么感觉?

这本质上是关键词替换,毫无"智能"可言。但它揭示了一个深刻的事实:人类倾向于赋予机器人性

1.2 统计语言模型

2000年代,统计方法占据主流。n-gram 模型通过计算词序列概率来预测下一个词:

P(今天|天气) > P(香蕉|天气)

但这种方法面临严重的数据稀疏问题——训练语料中没有出现的词组合,模型就"不知所措"。

1.3 神经语言模型的萌芽

2013年,Word2Vec 问世。它将词映射到连续向量空间:

# 经典的词向量类比
king - man + woman ≈ queen

这是第一次,机器"理解"了词与词之间的语义关系。


二、Transformer 革命

2.1 Attention Is All You Need

2017年,Google 发表论文《Attention Is All You Need》,提出 Transformer 架构。核心创新是自注意力机制

# 简化的注意力计算
Attention(Q, K, V) = softmax(QK^T / √d) V

这让模型能够:

  • 并行处理序列(不再需要 RNN 的顺序计算)
  • 捕捉长距离依赖(无论多远都能"看见")
  • 灵活关注重要信息(动态权重分配)

2.2 GPT:生成式预训练的诞生

2018年,OpenAI 发布 GPT-1,提出"生成式预训练"范式:

  1. 预训练:在海量文本上学习语言规律
  2. 微调:在特定任务上适应
参数量:1.17亿
训练数据:BookCorpus(约7000本书)

2.3 BERT:双向理解的突破

同年,Google 发布 BERT,采用双向编码:

# GPT:从左到右
"The cat sat on the [MASK]" → 预测 MASK
​
# BERT:双向上下文
"The cat [MASK] on the mat" → 预测 MASK(同时看到前后)

BERT 刷新了多项 NLP 基准,证明了预训练 + 微调范式的强大。


三、规模法则:越大越强

3.1 GPT-2:规模的力量

2019年,GPT-2 发布:

版本参数量
小型1.17亿
中型3.45亿
大型7.62亿
超大15亿

OpenAI 发现:模型越大,生成质量越好。这开启了"参数军备竞赛"。

3.2 GPT-3:涌现能力的出现

2020年,GPT-3 横空出世:

参数量:1750亿
训练成本:约1200万美元
训练数据:45TB 文本

GPT-3 展现了惊人的涌现能力——小模型不具备、大模型突然出现的能力:

  • Few-shot Learning:只需几个示例就能学习新任务
  • Chain of Thought:能进行复杂的推理
  • 代码生成:能编写简单程序
# GPT-3 的 few-shot 示例
Prompt:
将英文翻译成法语:
Hello → Bonjour
Goodbye → Au revoir
Thank you →
​
Output: Merci

3.3 Chinchilla 定律:规模的最优解

2022年,DeepMind 提出 Chinchilla 定律:给定计算预算,模型大小和训练数据量应该同步增长

最优计算分配:
模型参数 × 训练 Token 数 ≈ 常数

这解释了为什么 Llama 2 用更小的参数(70B)能达到接近 GPT-3.5 的效果——因为它用了更多训练数据。


四、ChatGPT 时刻:RLHF 的魔法

4.1 InstructGPT:让模型听懂人话

2022年初,OpenAI 发布 InstructGPT,引入RLHF(基于人类反馈的强化学习):

训练流程:
1. 有监督微调(SFT):用人类示范数据训练
2. 奖励模型(RM):训练一个打分器
3. 强化学习(PPO):用奖励模型优化策略

这让模型学会了:

  • 遵循指令
  • 拒绝不恰当请求
  • 提供有帮助的回答

4.2 ChatGPT:现象级产品

2022年11月,ChatGPT 发布。它与 InstructGPT 技术相近,但产品化做得极好:

  • 简洁的对话界面
  • 流畅的多轮交互
  • 合理的错误处理
  • 持续的模型迭代

4.3 GPT-4:多模态与推理

2023年3月,GPT-4 发布:

能力提升
模拟律师考试前10% → 前10名
图像理解新增能力
上下文长度4K → 32K → 128K
推理能力显著提升

GPT-4 的具体参数至今未公开,据推测约1.8万亿参数。


五、百花齐放:大模型生态

5.1 Claude:安全优先的挑战者

Anthropic 由前 OpenAI 员工创立,主打宪法 AI(Constitutional AI):

# Claude 的核心价值观
values = [
    "有益无害",
    "诚实守信",
    "尊重隐私",
    "拒绝有害请求"
]

Claude 3.5 Sonnet 在编程和推理任务上表现卓越,成为许多开发者的首选。

5.2 Gemini:Google 的反击

Google 推出 Gemini 系列:

模型特点
Gemini Ultra最强能力
Gemini Pro平衡性能
Gemini Nano端侧运行

Gemini 原生支持多模态,能直接处理图像、音频、视频。

5.3 开源力量:Llama、Mistral、Qwen

Meta Llama 系列

  • Llama 2(2023.7):商用友好的开源模型
  • Llama 3(2024.4):性能大幅提升
  • Llama 3.1(2024.7):首个开源的 405B 模型

Mistral AI

  • Mistral 7B:小参数,高性能
  • Mixtral 8x7B:混合专家架构(MoE)

阿里 Qwen

  • Qwen2.5:开源模型中的佼佼者
  • 支持中英双语,代码能力强

六、技术趋势展望

6.1 更长的上下文

2022: 2K tokens (GPT-3)
2023: 32K tokens (GPT-4)
2024: 1M+ tokens (Gemini 1.5 Pro)
2025: 10M+ tokens (部分模型)

长上下文带来新可能:整本书分析、大型代码库理解、长视频处理。

6.2 更强的推理

OpenAI o1 系列引入"思考链"推理,在复杂任务上显著提升:

  • 数学竞赛:AIME 正确率 13% → 83%
  • 编程竞赛:Codeforces 百分位 11% → 89%
  • 科学问答:GPQA 人类专家水平

6.3 更低的成本

模型推理成本持续下降:

2022: $0.06 / 1K tokens (GPT-3.5)
2024: $0.15 / 1M tokens (GPT-4o-mini)
2025: 开源模型本地免费运行

6.4 多模态融合

未来的大模型将统一处理:

  • 文本、图像、音频、视频
  • 代码、数学公式、结构化数据
  • 3D 模型、物理世界信息

七、总结

回顾大语言模型的发展历程,我们看到:

  1. 架构创新:Transformer 是基石
  2. 规模法则:量变引发质变
  3. 对齐技术:让 AI 听懂人话
  4. 生态繁荣:开源与闭源并行

我们正处于 AI 历史的黄金时代。每个开发者、每个企业都有机会参与这场变革。

下一篇预告:我们将深入探讨聊天机器人的60年演进史,从 ELIZA 到 ChatGPT。


参考资料


欢迎关注的我的公众号《码上未来》,一起交流AI前沿技术!

码上未来.jpg

扫码二维码加我微信进群聊AI

image.png