第 1 章 大模型的前世今生
"历史不会重复,但会押韵。" —— 马克·吐温
作为一名后端工程师,你大概已经经历过几次技术浪潮:从 J2EE 到 Spring,从单体应用到微服务,从 REST API 到 GraphQL,从 MySQL 到分布式数据库……每一次浪潮,都让一批"没跟上"的工程师感到焦虑,也让一批"跟上了"的工程师获得了新的竞争优势。
现在,大模型(Large Language Model,LLM)这波浪潮来了,而且比以往任何一次都猛。
这一章不会让你去推导数学公式,也不会让你背神经网络的层数。我们只做一件事:彻底搞清楚大模型是怎么来的、为什么现在才来、它到底能干什么。有了这些认知,你后续学习和使用大模型才不会迷失方向。
1.1 AI 的演进脉络:从规则系统到深度学习
1.1.1 第一代 AI:写规则
早期的 AI,本质上是人类把自己的"经验"翻译成计算机能执行的规则,然后让计算机照着执行。
你可以把它理解成一个巨大的 if-else 树:
if 用户说"你好":
回复"您好,请问有什么可以帮助您?"
elif 用户说"退款":
if 订单状态 == "已发货":
回复"已发货订单不支持退款"
else:
回复"请提供订单号"
...
这套方法在特定场景下确实有效,比如早期的专家系统、规则引擎、决策树。但问题很快暴露出来:规则写不完。
现实世界的语言太灵活了。"帮我退个货"和"这东西我不想要了",意思完全一样,但规则引擎认不出来。更麻烦的是,随着业务复杂度提升,规则之间开始相互冲突,维护成本指数级上升。
对后端开发者的类比:规则系统就像没有 ORM、全靠手写 SQL 的年代——能用,但扩展性差,维护噩梦。
1.1.2 第二代 AI:让机器自己学规则
既然人写规则写不完,那能不能让机器自己从数据中总结规则?
这就是**机器学习(Machine Learning)**的核心思想。
机器学习的方式是:给机器大量的"输入-输出"样本(训练数据),让它自己找出输入到输出的映射规律。找到之后,遇到新的输入,就能预测出对应的输出。
举个例子:给机器看 10 万条评论,每条评论都标注"正面"或"负面",机器学习之后,能自动判断新评论是正面还是负面——这叫情感分析。
机器学习让 AI 从"人工写规则"进化到了"数据驱动总结规则",能力大幅提升,但它有一个硬伤:特征工程。
要想让模型效果好,你得先告诉它"哪些特征重要"。比如做垃圾邮件检测,你得提取"是否包含'免费'""发件人域名"等特征。这个过程很依赖专家经验,而且针对每个任务都得重来一遍。
1.1.3 第三代 AI:深度学习,特征也让机器自己提取
**深度学习(Deep Learning)**的核心突破是:连特征提取这件事,也让机器自己来做。
通过多层神经网络,模型能自动从原始数据中提取从低级到高级的特征。比如在图像识别中,底层网络识别"边缘",中层识别"形状",高层识别"物体"——全程不需要人告诉它。
2012 年,深度学习模型 AlexNet 在 ImageNet 图像识别比赛中大幅领先传统方法,标志着深度学习时代的正式到来。
此后几年,深度学习横扫了计算机视觉、语音识别、游戏博弈等领域。但在**自然语言处理(NLP)**领域,深度学习遇到了一个特殊的难题……
📌 插图 1-1:AI 技术演进时间线
1950s-1980s 1990s-2010s 2012-2017 2017-至今 ┌──────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ 规则系统 │ ───► │ 机器学习 │───►│ 深度学习 │──►│ 大模型时代 │ │ Expert │ │ 特征工程+分类 │ │ CNN/RNN │ │ Transformer │ │ System │ │ SVM/随机森林 │ │ 自动特征提取 │ │ GPT/BERT │ └──────────┘ └──────────────┘ └──────────────┘ └──────────────┘ 手写规则 数据驱动 端到端学习 规模即能力
1.2 语言模型的进化:Word2Vec → RNN → Attention → Transformer
处理语言,比处理图像难得多。图像的每个像素是独立的,但语言中的每个词都和上下文紧密相关——"我爱北京"和"我不爱北京",只差一个字,意思截然相反。
1.2.1 Word2Vec:让词有了"坐标"
2013 年,Google 发布了 Word2Vec,它做了一件开创性的事:把每个词映射成一个向量(一串数字),让语义相似的词在向量空间中距离更近。
这个思想非常优雅。训练完成后,你会发现:
"国王" - "男人" + "女人" ≈ "女王""北京" - "中国" + "日本" ≈ "东京"
词的语义关系被编码进了向量的方向和距离中。这是 NLP 进入深度学习时代的第一块基石。
对后端开发者的类比:词向量就像给每个词分配了一个多维的"坐标",语义相似的词坐标相近,就像地图上相邻城市距离近。
1.2.2 RNN/LSTM:有"记忆"的模型
Word2Vec 只能处理单个词,但语言是序列,需要理解词与词之间的顺序关系。
**RNN(循环神经网络)**的核心思想是:处理每个词的时候,把上一个词的"状态"也带进来,形成一种"记忆"机制。就像你在看一句话,读到每个词时,脑子里还保留着前面词的印象。
但 RNN 有个著名的问题:长距离依赖消失。一句话很长时,模型往往记不住很早之前的内容,就像人读一篇很长的文章,读到最后可能忘了开头说什么。
**LSTM(长短期记忆网络)**是 RNN 的改进版,通过"遗忘门""输入门""输出门"来选择性地记忆和遗忘,一定程度上缓解了这个问题。
但 RNN/LSTM 有个更根本的缺陷:只能串行处理,上一个词没处理完,下一个词处理不了。这导致训练速度极慢,无法利用现代 GPU 的并行计算能力。
1.2.3 Attention 机制:找到"最重要的词"
2014 年前后,研究者提出了注意力机制(Attention Mechanism)。
核心思想是:处理某个词时,不用按顺序读完整个句子,而是直接计算它和所有其他词的相关性,把注意力集中在最相关的词上。
举个例子:翻译"The cat sat on the mat because it was tired"时,翻译"it"这个词,模型需要知道"it"指的是"cat"还是"mat"。注意力机制让模型直接计算"it"和句子里每个词的相关性得分,发现"cat"最相关,从而正确翻译。
注意力机制大幅提升了长文本处理效果,但当时还是作为 RNN 的辅助模块使用。
1.2.4 Transformer:革命性的架构
2017 年,Google 发表了论文《Attention Is All You Need》,提出了 Transformer 架构。
这篇论文的核心主张用一句话概括就是:注意力机制已经足够强了,RNN 直接扔掉。
Transformer 完全基于注意力机制,抛弃了 RNN 的串行结构,改为完全并行处理。这一改变带来了两个巨大优势:
- 训练速度大幅提升:可以充分利用 GPU 并行计算
- 长距离依赖处理更好:每个词可以直接和任意位置的词交互,不受距离限制
Transformer 就像是给 NLP 换了一台新引擎——更快、更强、扩展性更好。
📌 插图 1-2:语言模型进化路线图
2013 2014-2016 2017 2018-2019 2022-至今 │ │ │ │ │ Word2Vec RNN/LSTM Transformer BERT/GPT ChatGPT/ 词向量表示 序列记忆 全注意力 预训练模型 大模型时代 词有坐标 有记忆但慢 并行+长距离 迁移学习 涌现能力 "革命性架构" 知识可复用 改变行业
1.3 大模型时代:GPT、BERT、ChatGPT 的横空出世
有了 Transformer 这个强大的架构,研究者发现了一件令人惊喜的事:模型越大、数据越多、效果越好——而且这种提升没有明显的上限。
1.3.1 预训练的革命
2018 年,Google 发布了 BERT,OpenAI 发布了 GPT-1。它们都基于 Transformer,但更重要的创新是**预训练(Pre-training)**的思想:
- 第一阶段——预训练:用海量文本(维基百科、图书等)训练一个通用的基础模型,让它掌握语言的基本规律
- 第二阶段——微调(Fine-tuning):在基础模型上,用少量特定任务的数据继续训练,快速适配具体业务
这就像培养一个学了 12 年基础教育的大学生(预训练),比从零开始培训一个新员工要快得多——你只需要给他做几周岗位培训(微调),他就能上手工作了。
预训练+微调的范式,让 AI 从"一个任务训练一个模型"进化到了"一个基础模型,适配所有任务",极大降低了 AI 应用的门槛。
1.3.2 GPT 系列:越来越大的模型
OpenAI 沿着 GPT 路线一路做大:
| 模型 | 发布时间 | 参数量 | 里程碑意义 |
|---|---|---|---|
| GPT-1 | 2018 年 | 1.17 亿 | 验证预训练可行性 |
| GPT-2 | 2019 年 | 15 亿 | 生成质量惊艳,OpenAI 一度不敢公开 |
| GPT-3 | 2020 年 | 1750 亿 | 无需微调,Few-shot 即可完成多种任务 |
| GPT-3.5 | 2022 年 | 未公开 | ChatGPT 的基础,RLHF 对齐人类偏好 |
| GPT-4 | 2023 年 | 未公开 | 多模态,推理能力大幅提升 |
参数量可以粗略理解为模型的"神经元连接数",参数越多,模型能记住的知识、能处理的复杂度就越高。
1.3.3 ChatGPT:改变世界的产品
2022 年 11 月,OpenAI 发布了 ChatGPT。
ChatGPT 并不是技术上最突破性的产品,但它做对了一件极其重要的事:对齐(Alignment)。
通过 RLHF(基于人类反馈的强化学习),研究者让真实的人类来评价模型回答的好坏,然后用这些反馈来训练模型,使其输出更符合人类的期望——更有帮助、更安全、更诚实。
结果就是:ChatGPT 说话方式更自然,更愿意承认自己不知道,更少产生有害内容。这让普通人也能愉快地和 AI 对话,而不像以前那样动不动就得到奇怪或有害的回复。
ChatGPT 上线后 5 天用户数突破 100 万,2 个月突破 1 亿——史上增长最快的消费产品。
一句话总结:GPT-3 让研究者震惊,ChatGPT 让全世界震惊。
1.3.4 国内大模型的崛起
ChatGPT 引发的浪潮迅速席卷全球,国内各大厂商和新锐创业公司相继跟进:
- 文心一言(百度):2023 年 3 月发布,中文理解能力强
- 通义千问(阿里):与阿里云生态深度集成
- DeepSeek(深度求索):2024 年底以极低成本训练出媲美顶级模型的性能,震惊业界
- Kimi(月之暗面):以超长上下文(支持数百万 Token)见长
- ChatGLM(清华/智谱):国内最早开源的高质量对话模型
2025 年初,DeepSeek-R1 在推理能力上达到甚至超越 OpenAI o1 的水准,但训练成本仅为其极小一部分,引发了全球对"算力军备竞赛"是否可持续的重新审视。
1.4 大模型与传统编程的本质区别
搞清楚大模型的来历之后,我们来直视一个关键问题:大模型和你之前写的代码,到底有什么本质区别?
理解这个区别,是你正确使用大模型的前提。
1.4.1 传统编程:确定性的指令执行
传统程序的本质是:你告诉计算机每一步怎么做,计算机忠实执行。
public String greet(String name) {
return "Hello, " + name + "!";
}
给定相同输入,永远得到相同输出。逻辑完全透明,可以逐行调试,行为完全可预测。
这是传统编程的优势,也是它的局限:你必须能把所有逻辑显式地写出来。对于语言理解、常识推理这类"人类觉得显而易见但难以用规则描述"的问题,传统编程束手无策。
1.4.2 大模型:概率性的模式匹配
大模型的本质是:从海量文本中学习了人类语言的统计规律,然后根据输入,概率性地生成最合适的输出。
给定相同输入,不同时刻可能得到不同输出(因为有随机性)。模型内部是一个有几百亿参数的"黑盒",没法直接调试。但它具备强大的语言理解和生成能力,能处理各种"人类觉得理所当然但难以用代码描述"的任务。
| 对比维度 | 传统编程 | 大模型 |
|---|---|---|
| 逻辑来源 | 人显式编写 | 从数据中学习 |
| 确定性 | 完全确定 | 概率性,有随机性 |
| 调试方式 | 逐行断点调试 | 调整 Prompt、换模型、看示例 |
| 擅长领域 | 精确计算、流程控制、CRUD | 语言理解、内容生成、推理、归纳 |
| 出错表现 | 报错或返回错误值 | 给出看起来正确但实际有误的内容(幻觉) |
| 扩展方式 | 写更多代码 | 换更大模型或优化 Prompt |
1.4.3 不是替代关系,而是协作关系
大模型不会替代传统编程,而是给你多了一个强大的"组件"。
就像数据库不会让你不写代码,消息队列不会让你不写代码,大模型也一样——它是一个你可以调用的、具备语言理解和生成能力的服务。
最有效的大模型应用,往往是这样的架构:
传统业务逻辑(流程控制、数据操作、权限校验)
+
大模型能力(理解意图、生成内容、推理决策)
=
更智能的业务系统
你的后端经验——系统设计、接口设计、异常处理、性能优化、数据建模——在大模型时代依然极其有价值。你只是多了一个超级强大的"语言处理"组件可以用。
📌 插图 1-3:传统编程 vs 大模型编程对比图
传统编程 大模型编程 ┌─────────────────────┐ ┌─────────────────────┐ │ 输入(Input) │ │ 输入(Prompt) │ └──────────┬──────────┘ └──────────┬──────────┘ │ │ ▼ ▼ ┌─────────────────────┐ ┌─────────────────────┐ │ 确定性逻辑 │ │ 概率性推理 │ │ if/else/for/switch │ │ 数百亿参数 │ │ 开发者显式定义 │ │ 从数据中学习 │ └──────────┬──────────┘ └──────────┬──────────┘ │ │ ▼ ▼ ┌─────────────────────┐ ┌─────────────────────┐ │ 确定性输出 │ │ 概率性输出 │ │ 每次结果完全一致 │ │ 每次结果可能略有不同 │ └─────────────────────┘ └─────────────────────┘ 擅长:精确计算、CRUD、流程控制 擅长:语言理解、内容生成、推理归纳
1.5 大模型能力全景图
搞清楚大模型的本质之后,我们来看看它具体能干什么——这直接决定了你能用它来解决哪些业务问题。
1.5.1 文本理解与生成
这是大模型最核心的能力,也是其他所有能力的基础。
- 理解:读懂一段文字的语义、意图、情感
- 生成:根据要求写出符合人类期望的文字
- 改写:改变文字的风格、长度、语气,但保留核心内容
- 翻译:在不同语言之间转换,且能保留语气和上下文
典型业务场景:自动生成商品描述、合同审查、用户评论分析、多语言本地化。
1.5.2 对话与问答
大模型能进行多轮对话,理解上下文,记住前面说过的内容,像真人一样对话。
- 问答系统:回答用户的问题(可以基于你的业务知识库)
- 智能客服:理解用户意图,给出准确回复
- 信息提取:从一段文字中提取结构化信息(姓名、时间、金额等)
典型业务场景:客服机器人、HR 助手、技术文档问答。
1.5.3 代码能力
大模型的训练数据包含了 GitHub 上海量的代码,因此它具备强大的代码理解和生成能力。
- 代码生成:根据需求描述生成代码
- 代码解释:用自然语言解释一段代码在做什么
- 代码审查:发现潜在的 Bug 和安全问题
- 代码重构:按照最佳实践改进代码结构
- SQL 生成:把自然语言问题转成 SQL 查询
典型业务场景:开发辅助、自动化测试生成、数据库自然语言查询。
1.5.4 推理与分析
现代大模型(尤其是 o1/R1 这类推理模型)具备一定的逻辑推理能力。
- 数据分析:理解表格数据,给出洞察和结论
- 方案评估:给出多个方案的利弊分析
- 分类与标注:对内容进行多维度分类
- 摘要提炼:把长文档提炼成核心要点
典型业务场景:数据报告自动生成、业务分析助手、智能标注。
1.5.5 多模态能力(新兴)
最新一代的大模型已经不局限于文字,开始理解和生成多种媒体形式。
- 图像理解:看懂图片,描述内容,回答关于图片的问题
- 图像生成:根据文字描述生成图片
- 语音交互:语音输入、语音输出,实现实时语音对话
- 文档解析:理解 PDF、表格、PPT 等格式文档
典型业务场景:商品图片审核、发票识别、语音客服、产品设计辅助。
📌 插图 1-4:大模型能力象限图
理解能力 ▲ │ 文本理解 │ 对话问答 情感分析 │ 知识检索 信息提取 │ 意图识别 │ ─────────────────────────────────────── 输出类型 生成内容 │ 处理分析 代码生成 │ 推理分析 文案写作 │ 数据分析 翻译改写 │ 分类摘要 │ ▼ 生成能力 多模态能力横跨所有象限(图、音、视频)
本章小结
这一章我们从宏观视角梳理了大模型的来龙去脉,几个关键认知点值得记下来:
-
AI 经历了三代演进:规则系统 → 机器学习 → 深度学习,每一代都是从"人工定义规则"到"机器自动学习"的进一步解放。
-
Transformer 是关键转折点:2017 年提出的 Transformer 架构,解决了 RNN 的串行慢和长距离依赖问题,为大模型提供了可扩展的技术基础。
-
"大"是关键:模型越大、数据越多,能力不是线性增长,而是会出现"涌现(Emergence)"——突然获得之前完全没有的能力,就像水烧到 100 度突然开沸。
-
大模型是概率性的黑盒:与传统代码不同,大模型不是确定性的,调试方式、出错方式都完全不同。理解这一点,能帮你设计出更健壮的大模型应用。
-
大模型是工具,不是替代:你的后端工程能力依然是核心,大模型只是让你多了一个超级强大的"语言处理"组件。
思考题
-
你日常工作中,有哪些任务是"写规则写不完"或"用传统代码很难实现"的?这些任务是否可能用大模型来辅助?
-
大模型的"幻觉"问题(生成看起来正确但实际错误的内容)对不同业务场景的影响有多大?有没有场景是完全无法容忍幻觉的?
-
在你的系统中,哪些模块可以尝试引入大模型能力?引入后会带来哪些新的挑战?
下一章预告:现在你知道了大模型"是什么"和"从哪里来",但要真正用好它,你还需要理解它"怎么工作"。第 2 章我们将深入大模型的运作原理——Token、上下文窗口、温度参数、幻觉机制——这些概念将直接影响你的代码质量和 API 使用成本。