第 1 章-大模型的前世今生第 1 章大模型的前世今生作为一名后端工程师，你大概已经经历过几次技术浪潮：从 J2EE

第 1 章大模型的前世今生

"历史不会重复，但会押韵。" —— 马克·吐温

作为一名后端工程师，你大概已经经历过几次技术浪潮：从 J2EE 到 Spring，从单体应用到微服务，从 REST API 到 GraphQL，从 MySQL 到分布式数据库……每一次浪潮，都让一批"没跟上"的工程师感到焦虑，也让一批"跟上了"的工程师获得了新的竞争优势。

现在，大模型（Large Language Model，LLM）这波浪潮来了，而且比以往任何一次都猛。

这一章不会让你去推导数学公式，也不会让你背神经网络的层数。我们只做一件事：彻底搞清楚大模型是怎么来的、为什么现在才来、它到底能干什么。有了这些认知，你后续学习和使用大模型才不会迷失方向。

1.1 AI 的演进脉络：从规则系统到深度学习

1.1.1 第一代 AI：写规则

早期的 AI，本质上是人类把自己的"经验"翻译成计算机能执行的规则，然后让计算机照着执行。

你可以把它理解成一个巨大的 if-else 树：

if 用户说"你好":
    回复"您好，请问有什么可以帮助您？"
elif 用户说"退款":
    if 订单状态 == "已发货":
        回复"已发货订单不支持退款"
    else:
        回复"请提供订单号"
...

这套方法在特定场景下确实有效，比如早期的专家系统、规则引擎、决策树。但问题很快暴露出来：规则写不完。

现实世界的语言太灵活了。"帮我退个货"和"这东西我不想要了"，意思完全一样，但规则引擎认不出来。更麻烦的是，随着业务复杂度提升，规则之间开始相互冲突，维护成本指数级上升。

对后端开发者的类比：规则系统就像没有 ORM、全靠手写 SQL 的年代——能用，但扩展性差，维护噩梦。

1.1.2 第二代 AI：让机器自己学规则

既然人写规则写不完，那能不能让机器自己从数据中总结规则？

这就是**机器学习（Machine Learning）**的核心思想。

机器学习的方式是：给机器大量的"输入-输出"样本（训练数据），让它自己找出输入到输出的映射规律。找到之后，遇到新的输入，就能预测出对应的输出。

举个例子：给机器看 10 万条评论，每条评论都标注"正面"或"负面"，机器学习之后，能自动判断新评论是正面还是负面——这叫情感分析。

机器学习让 AI 从"人工写规则"进化到了"数据驱动总结规则"，能力大幅提升，但它有一个硬伤：特征工程。

要想让模型效果好，你得先告诉它"哪些特征重要"。比如做垃圾邮件检测，你得提取"是否包含'免费'""发件人域名"等特征。这个过程很依赖专家经验，而且针对每个任务都得重来一遍。

1.1.3 第三代 AI：深度学习，特征也让机器自己提取

**深度学习（Deep Learning）**的核心突破是：连特征提取这件事，也让机器自己来做。

通过多层神经网络，模型能自动从原始数据中提取从低级到高级的特征。比如在图像识别中，底层网络识别"边缘"，中层识别"形状"，高层识别"物体"——全程不需要人告诉它。

2012 年，深度学习模型 AlexNet 在 ImageNet 图像识别比赛中大幅领先传统方法，标志着深度学习时代的正式到来。

此后几年，深度学习横扫了计算机视觉、语音识别、游戏博弈等领域。但在**自然语言处理（NLP）**领域，深度学习遇到了一个特殊的难题……

📌 插图 1-1：AI 技术演进时间线

1950s-1980s        1990s-2010s         2012-2017          2017-至今
┌──────────┐      ┌──────────────┐    ┌──────────────┐   ┌──────────────┐
│ 规则系统  │ ───► │  机器学习     │───►│  深度学习     │──►│  大模型时代   │
│ Expert   │      │ 特征工程+分类 │    │ CNN/RNN      │   │ Transformer  │
│ System   │      │ SVM/随机森林  │    │ 自动特征提取  │   │ GPT/BERT     │
└──────────┘      └──────────────┘    └──────────────┘   └──────────────┘
  手写规则           数据驱动           端到端学习          规模即能力

1.2 语言模型的进化：Word2Vec → RNN → Attention → Transformer

处理语言，比处理图像难得多。图像的每个像素是独立的，但语言中的每个词都和上下文紧密相关——"我爱北京"和"我不爱北京"，只差一个字，意思截然相反。

1.2.1 Word2Vec：让词有了"坐标"

2013 年，Google 发布了 Word2Vec，它做了一件开创性的事：把每个词映射成一个向量（一串数字），让语义相似的词在向量空间中距离更近。

这个思想非常优雅。训练完成后，你会发现：

"国王" - "男人" + "女人" ≈ "女王"
"北京" - "中国" + "日本" ≈ "东京"

词的语义关系被编码进了向量的方向和距离中。这是 NLP 进入深度学习时代的第一块基石。

对后端开发者的类比：词向量就像给每个词分配了一个多维的"坐标"，语义相似的词坐标相近，就像地图上相邻城市距离近。

1.2.2 RNN/LSTM：有"记忆"的模型

Word2Vec 只能处理单个词，但语言是序列，需要理解词与词之间的顺序关系。

**RNN（循环神经网络）**的核心思想是：处理每个词的时候，把上一个词的"状态"也带进来，形成一种"记忆"机制。就像你在看一句话，读到每个词时，脑子里还保留着前面词的印象。

但 RNN 有个著名的问题：长距离依赖消失。一句话很长时，模型往往记不住很早之前的内容，就像人读一篇很长的文章，读到最后可能忘了开头说什么。

**LSTM（长短期记忆网络）**是 RNN 的改进版，通过"遗忘门""输入门""输出门"来选择性地记忆和遗忘，一定程度上缓解了这个问题。

但 RNN/LSTM 有个更根本的缺陷：只能串行处理，上一个词没处理完，下一个词处理不了。这导致训练速度极慢，无法利用现代 GPU 的并行计算能力。

1.2.3 Attention 机制：找到"最重要的词"

2014 年前后，研究者提出了注意力机制（Attention Mechanism）。

核心思想是：处理某个词时，不用按顺序读完整个句子，而是直接计算它和所有其他词的相关性，把注意力集中在最相关的词上。

举个例子：翻译"The cat sat on the mat because it was tired"时，翻译"it"这个词，模型需要知道"it"指的是"cat"还是"mat"。注意力机制让模型直接计算"it"和句子里每个词的相关性得分，发现"cat"最相关，从而正确翻译。

注意力机制大幅提升了长文本处理效果，但当时还是作为 RNN 的辅助模块使用。

1.2.4 Transformer：革命性的架构

2017 年，Google 发表了论文《Attention Is All You Need》，提出了 Transformer 架构。

这篇论文的核心主张用一句话概括就是：注意力机制已经足够强了，RNN 直接扔掉。

Transformer 完全基于注意力机制，抛弃了 RNN 的串行结构，改为完全并行处理。这一改变带来了两个巨大优势：

训练速度大幅提升：可以充分利用 GPU 并行计算
长距离依赖处理更好：每个词可以直接和任意位置的词交互，不受距离限制

Transformer 就像是给 NLP 换了一台新引擎——更快、更强、扩展性更好。

📌 插图 1-2：语言模型进化路线图

 2013          2014-2016        2017             2018-2019        2022-至今
  │               │              │                  │                │
Word2Vec        RNN/LSTM       Transformer        BERT/GPT       ChatGPT/
词向量表示      序列记忆         全注意力           预训练模型       大模型时代
词有坐标        有记忆但慢       并行+长距离        迁移学习         涌现能力
                              "革命性架构"        知识可复用        改变行业

1.3 大模型时代：GPT、BERT、ChatGPT 的横空出世

有了 Transformer 这个强大的架构，研究者发现了一件令人惊喜的事：模型越大、数据越多、效果越好——而且这种提升没有明显的上限。

1.3.1 预训练的革命

2018 年，Google 发布了 BERT，OpenAI 发布了 GPT-1。它们都基于 Transformer，但更重要的创新是**预训练（Pre-training）**的思想：

第一阶段——预训练：用海量文本（维基百科、图书等）训练一个通用的基础模型，让它掌握语言的基本规律
第二阶段——微调（Fine-tuning）：在基础模型上，用少量特定任务的数据继续训练，快速适配具体业务

这就像培养一个学了 12 年基础教育的大学生（预训练），比从零开始培训一个新员工要快得多——你只需要给他做几周岗位培训（微调），他就能上手工作了。

预训练+微调的范式，让 AI 从"一个任务训练一个模型"进化到了"一个基础模型，适配所有任务"，极大降低了 AI 应用的门槛。

1.3.2 GPT 系列：越来越大的模型

OpenAI 沿着 GPT 路线一路做大：

模型	发布时间	参数量	里程碑意义
GPT-1	2018 年	1.17 亿	验证预训练可行性
GPT-2	2019 年	15 亿	生成质量惊艳，OpenAI 一度不敢公开
GPT-3	2020 年	1750 亿	无需微调，Few-shot 即可完成多种任务
GPT-3.5	2022 年	未公开	ChatGPT 的基础，RLHF 对齐人类偏好
GPT-4	2023 年	未公开	多模态，推理能力大幅提升

参数量可以粗略理解为模型的"神经元连接数"，参数越多，模型能记住的知识、能处理的复杂度就越高。

1.3.3 ChatGPT：改变世界的产品

2022 年 11 月，OpenAI 发布了 ChatGPT。

ChatGPT 并不是技术上最突破性的产品，但它做对了一件极其重要的事：对齐（Alignment）。

通过 RLHF（基于人类反馈的强化学习），研究者让真实的人类来评价模型回答的好坏，然后用这些反馈来训练模型，使其输出更符合人类的期望——更有帮助、更安全、更诚实。

结果就是：ChatGPT 说话方式更自然，更愿意承认自己不知道，更少产生有害内容。这让普通人也能愉快地和 AI 对话，而不像以前那样动不动就得到奇怪或有害的回复。

ChatGPT 上线后 5 天用户数突破 100 万，2 个月突破 1 亿——史上增长最快的消费产品。

一句话总结：GPT-3 让研究者震惊，ChatGPT 让全世界震惊。

1.3.4 国内大模型的崛起

ChatGPT 引发的浪潮迅速席卷全球，国内各大厂商和新锐创业公司相继跟进：

文心一言（百度）：2023 年 3 月发布，中文理解能力强
通义千问（阿里）：与阿里云生态深度集成
DeepSeek（深度求索）：2024 年底以极低成本训练出媲美顶级模型的性能，震惊业界
Kimi（月之暗面）：以超长上下文（支持数百万 Token）见长
ChatGLM（清华/智谱）：国内最早开源的高质量对话模型

2025 年初，DeepSeek-R1 在推理能力上达到甚至超越 OpenAI o1 的水准，但训练成本仅为其极小一部分，引发了全球对"算力军备竞赛"是否可持续的重新审视。

1.4 大模型与传统编程的本质区别

搞清楚大模型的来历之后，我们来直视一个关键问题：大模型和你之前写的代码，到底有什么本质区别？

理解这个区别，是你正确使用大模型的前提。

1.4.1 传统编程：确定性的指令执行

传统程序的本质是：你告诉计算机每一步怎么做，计算机忠实执行。

public String greet(String name) {
    return "Hello, " + name + "!";
}

给定相同输入，永远得到相同输出。逻辑完全透明，可以逐行调试，行为完全可预测。

这是传统编程的优势，也是它的局限：你必须能把所有逻辑显式地写出来。对于语言理解、常识推理这类"人类觉得显而易见但难以用规则描述"的问题，传统编程束手无策。

1.4.2 大模型：概率性的模式匹配

大模型的本质是：从海量文本中学习了人类语言的统计规律，然后根据输入，概率性地生成最合适的输出。

给定相同输入，不同时刻可能得到不同输出（因为有随机性）。模型内部是一个有几百亿参数的"黑盒"，没法直接调试。但它具备强大的语言理解和生成能力，能处理各种"人类觉得理所当然但难以用代码描述"的任务。

对比维度	传统编程	大模型
逻辑来源	人显式编写	从数据中学习
确定性	完全确定	概率性，有随机性
调试方式	逐行断点调试	调整 Prompt、换模型、看示例
擅长领域	精确计算、流程控制、CRUD	语言理解、内容生成、推理、归纳
出错表现	报错或返回错误值	给出看起来正确但实际有误的内容（幻觉）
扩展方式	写更多代码	换更大模型或优化 Prompt

1.4.3 不是替代关系，而是协作关系

大模型不会替代传统编程，而是给你多了一个强大的"组件"。

就像数据库不会让你不写代码，消息队列不会让你不写代码，大模型也一样——它是一个你可以调用的、具备语言理解和生成能力的服务。

最有效的大模型应用，往往是这样的架构：

传统业务逻辑（流程控制、数据操作、权限校验）
         +
大模型能力（理解意图、生成内容、推理决策）
         =
更智能的业务系统

你的后端经验——系统设计、接口设计、异常处理、性能优化、数据建模——在大模型时代依然极其有价值。你只是多了一个超级强大的"语言处理"组件可以用。

📌 插图 1-3：传统编程 vs 大模型编程对比图

          传统编程                          大模型编程
   ┌─────────────────────┐          ┌─────────────────────┐
   │  输入（Input）        │          │  输入（Prompt）       │
   └──────────┬──────────┘          └──────────┬──────────┘
              │                                │
              ▼                                ▼
   ┌─────────────────────┐          ┌─────────────────────┐
   │  确定性逻辑           │          │  概率性推理           │
   │  if/else/for/switch  │          │  数百亿参数            │
   │  开发者显式定义        │          │  从数据中学习          │
   └──────────┬──────────┘          └──────────┬──────────┘
              │                                │
              ▼                                ▼
   ┌─────────────────────┐          ┌─────────────────────┐
   │  确定性输出           │          │  概率性输出           │
   │  每次结果完全一致      │          │  每次结果可能略有不同  │
   └─────────────────────┘          └─────────────────────┘

   擅长：精确计算、CRUD、流程控制    擅长：语言理解、内容生成、推理归纳

1.5 大模型能力全景图

搞清楚大模型的本质之后，我们来看看它具体能干什么——这直接决定了你能用它来解决哪些业务问题。

1.5.1 文本理解与生成

这是大模型最核心的能力，也是其他所有能力的基础。

理解：读懂一段文字的语义、意图、情感
生成：根据要求写出符合人类期望的文字
改写：改变文字的风格、长度、语气，但保留核心内容
翻译：在不同语言之间转换，且能保留语气和上下文

典型业务场景：自动生成商品描述、合同审查、用户评论分析、多语言本地化。

1.5.2 对话与问答

大模型能进行多轮对话，理解上下文，记住前面说过的内容，像真人一样对话。

问答系统：回答用户的问题（可以基于你的业务知识库）
智能客服：理解用户意图，给出准确回复
信息提取：从一段文字中提取结构化信息（姓名、时间、金额等）

典型业务场景：客服机器人、HR 助手、技术文档问答。

1.5.3 代码能力

大模型的训练数据包含了 GitHub 上海量的代码，因此它具备强大的代码理解和生成能力。

代码生成：根据需求描述生成代码
代码解释：用自然语言解释一段代码在做什么
代码审查：发现潜在的 Bug 和安全问题
代码重构：按照最佳实践改进代码结构
SQL 生成：把自然语言问题转成 SQL 查询

典型业务场景：开发辅助、自动化测试生成、数据库自然语言查询。

1.5.4 推理与分析

现代大模型（尤其是 o1/R1 这类推理模型）具备一定的逻辑推理能力。

数据分析：理解表格数据，给出洞察和结论
方案评估：给出多个方案的利弊分析
分类与标注：对内容进行多维度分类
摘要提炼：把长文档提炼成核心要点

典型业务场景：数据报告自动生成、业务分析助手、智能标注。

1.5.5 多模态能力（新兴）

最新一代的大模型已经不局限于文字，开始理解和生成多种媒体形式。

图像理解：看懂图片，描述内容，回答关于图片的问题
图像生成：根据文字描述生成图片
语音交互：语音输入、语音输出，实现实时语音对话
文档解析：理解 PDF、表格、PPT 等格式文档

典型业务场景：商品图片审核、发票识别、语音客服、产品设计辅助。

📌 插图 1-4：大模型能力象限图

                    理解能力
                       ▲
                       │
              文本理解  │  对话问答
              情感分析  │  知识检索
              信息提取  │  意图识别
                       │
 ─────────────────────────────────────── 输出类型
 生成内容               │               处理分析
              代码生成  │  推理分析
              文案写作  │  数据分析
              翻译改写  │  分类摘要
                       │
                       ▼
                    生成能力

         多模态能力横跨所有象限（图、音、视频）

本章小结

这一章我们从宏观视角梳理了大模型的来龙去脉，几个关键认知点值得记下来：

AI 经历了三代演进：规则系统 → 机器学习 → 深度学习，每一代都是从"人工定义规则"到"机器自动学习"的进一步解放。
Transformer 是关键转折点：2017 年提出的 Transformer 架构，解决了 RNN 的串行慢和长距离依赖问题，为大模型提供了可扩展的技术基础。
"大"是关键：模型越大、数据越多，能力不是线性增长，而是会出现"涌现（Emergence）"——突然获得之前完全没有的能力，就像水烧到 100 度突然开沸。
大模型是概率性的黑盒：与传统代码不同，大模型不是确定性的，调试方式、出错方式都完全不同。理解这一点，能帮你设计出更健壮的大模型应用。
大模型是工具，不是替代：你的后端工程能力依然是核心，大模型只是让你多了一个超级强大的"语言处理"组件。

思考题

你日常工作中，有哪些任务是"写规则写不完"或"用传统代码很难实现"的？这些任务是否可能用大模型来辅助？
大模型的"幻觉"问题（生成看起来正确但实际错误的内容）对不同业务场景的影响有多大？有没有场景是完全无法容忍幻觉的？
在你的系统中，哪些模块可以尝试引入大模型能力？引入后会带来哪些新的挑战？

下一章预告：现在你知道了大模型"是什么"和"从哪里来"，但要真正用好它，你还需要理解它"怎么工作"。第 2 章我们将深入大模型的运作原理——Token、上下文窗口、温度参数、幻觉机制——这些概念将直接影响你的代码质量和 API 使用成本。

第 1 章-大模型的前世今生