第 1 章-大模型的前世今生

2 阅读17分钟

第 1 章 大模型的前世今生

"历史不会重复,但会押韵。" —— 马克·吐温

作为一名后端工程师,你大概已经经历过几次技术浪潮:从 J2EE 到 Spring,从单体应用到微服务,从 REST API 到 GraphQL,从 MySQL 到分布式数据库……每一次浪潮,都让一批"没跟上"的工程师感到焦虑,也让一批"跟上了"的工程师获得了新的竞争优势。

现在,大模型(Large Language Model,LLM)这波浪潮来了,而且比以往任何一次都猛。

这一章不会让你去推导数学公式,也不会让你背神经网络的层数。我们只做一件事:彻底搞清楚大模型是怎么来的、为什么现在才来、它到底能干什么。有了这些认知,你后续学习和使用大模型才不会迷失方向。


1.1 AI 的演进脉络:从规则系统到深度学习

1.1.1 第一代 AI:写规则

早期的 AI,本质上是人类把自己的"经验"翻译成计算机能执行的规则,然后让计算机照着执行。

你可以把它理解成一个巨大的 if-else 树:

if 用户说"你好":
    回复"您好,请问有什么可以帮助您?"
elif 用户说"退款":
    if 订单状态 == "已发货":
        回复"已发货订单不支持退款"
    else:
        回复"请提供订单号"
...

这套方法在特定场景下确实有效,比如早期的专家系统、规则引擎、决策树。但问题很快暴露出来:规则写不完

现实世界的语言太灵活了。"帮我退个货"和"这东西我不想要了",意思完全一样,但规则引擎认不出来。更麻烦的是,随着业务复杂度提升,规则之间开始相互冲突,维护成本指数级上升。

对后端开发者的类比:规则系统就像没有 ORM、全靠手写 SQL 的年代——能用,但扩展性差,维护噩梦。

1.1.2 第二代 AI:让机器自己学规则

既然人写规则写不完,那能不能让机器自己从数据中总结规则?

这就是**机器学习(Machine Learning)**的核心思想。

机器学习的方式是:给机器大量的"输入-输出"样本(训练数据),让它自己找出输入到输出的映射规律。找到之后,遇到新的输入,就能预测出对应的输出。

举个例子:给机器看 10 万条评论,每条评论都标注"正面"或"负面",机器学习之后,能自动判断新评论是正面还是负面——这叫情感分析

机器学习让 AI 从"人工写规则"进化到了"数据驱动总结规则",能力大幅提升,但它有一个硬伤:特征工程

要想让模型效果好,你得先告诉它"哪些特征重要"。比如做垃圾邮件检测,你得提取"是否包含'免费'""发件人域名"等特征。这个过程很依赖专家经验,而且针对每个任务都得重来一遍。

1.1.3 第三代 AI:深度学习,特征也让机器自己提取

**深度学习(Deep Learning)**的核心突破是:连特征提取这件事,也让机器自己来做

通过多层神经网络,模型能自动从原始数据中提取从低级到高级的特征。比如在图像识别中,底层网络识别"边缘",中层识别"形状",高层识别"物体"——全程不需要人告诉它。

2012 年,深度学习模型 AlexNet 在 ImageNet 图像识别比赛中大幅领先传统方法,标志着深度学习时代的正式到来。

此后几年,深度学习横扫了计算机视觉、语音识别、游戏博弈等领域。但在**自然语言处理(NLP)**领域,深度学习遇到了一个特殊的难题……


📌 插图 1-1:AI 技术演进时间线

1950s-1980s        1990s-2010s         2012-2017          2017-至今
┌──────────┐      ┌──────────────┐    ┌──────────────┐   ┌──────────────┐
 规则系统   ───►   机器学习     │───►│  深度学习     │──►│  大模型时代   
 Expert          特征工程+分类      CNN/RNN          Transformer  
 System          SVM/随机森林       自动特征提取      GPT/BERT     
└──────────┘      └──────────────┘    └──────────────┘   └──────────────┘
  手写规则           数据驱动           端到端学习          规模即能力

1.2 语言模型的进化:Word2Vec → RNN → Attention → Transformer

处理语言,比处理图像难得多。图像的每个像素是独立的,但语言中的每个词都和上下文紧密相关——"我爱北京"和"我不爱北京",只差一个字,意思截然相反。

1.2.1 Word2Vec:让词有了"坐标"

2013 年,Google 发布了 Word2Vec,它做了一件开创性的事:把每个词映射成一个向量(一串数字),让语义相似的词在向量空间中距离更近。

这个思想非常优雅。训练完成后,你会发现:

  • "国王" - "男人" + "女人" ≈ "女王"
  • "北京" - "中国" + "日本" ≈ "东京"

词的语义关系被编码进了向量的方向和距离中。这是 NLP 进入深度学习时代的第一块基石。

对后端开发者的类比:词向量就像给每个词分配了一个多维的"坐标",语义相似的词坐标相近,就像地图上相邻城市距离近。

1.2.2 RNN/LSTM:有"记忆"的模型

Word2Vec 只能处理单个词,但语言是序列,需要理解词与词之间的顺序关系。

**RNN(循环神经网络)**的核心思想是:处理每个词的时候,把上一个词的"状态"也带进来,形成一种"记忆"机制。就像你在看一句话,读到每个词时,脑子里还保留着前面词的印象。

但 RNN 有个著名的问题:长距离依赖消失。一句话很长时,模型往往记不住很早之前的内容,就像人读一篇很长的文章,读到最后可能忘了开头说什么。

**LSTM(长短期记忆网络)**是 RNN 的改进版,通过"遗忘门""输入门""输出门"来选择性地记忆和遗忘,一定程度上缓解了这个问题。

但 RNN/LSTM 有个更根本的缺陷:只能串行处理,上一个词没处理完,下一个词处理不了。这导致训练速度极慢,无法利用现代 GPU 的并行计算能力。

1.2.3 Attention 机制:找到"最重要的词"

2014 年前后,研究者提出了注意力机制(Attention Mechanism)

核心思想是:处理某个词时,不用按顺序读完整个句子,而是直接计算它和所有其他词的相关性,把注意力集中在最相关的词上。

举个例子:翻译"The cat sat on the mat because it was tired"时,翻译"it"这个词,模型需要知道"it"指的是"cat"还是"mat"。注意力机制让模型直接计算"it"和句子里每个词的相关性得分,发现"cat"最相关,从而正确翻译。

注意力机制大幅提升了长文本处理效果,但当时还是作为 RNN 的辅助模块使用。

1.2.4 Transformer:革命性的架构

2017 年,Google 发表了论文《Attention Is All You Need》,提出了 Transformer 架构

这篇论文的核心主张用一句话概括就是:注意力机制已经足够强了,RNN 直接扔掉

Transformer 完全基于注意力机制,抛弃了 RNN 的串行结构,改为完全并行处理。这一改变带来了两个巨大优势:

  1. 训练速度大幅提升:可以充分利用 GPU 并行计算
  2. 长距离依赖处理更好:每个词可以直接和任意位置的词交互,不受距离限制

Transformer 就像是给 NLP 换了一台新引擎——更快、更强、扩展性更好。


📌 插图 1-2:语言模型进化路线图

 2013          2014-2016        2017             2018-2019        2022-至今
                                                                 
Word2Vec        RNN/LSTM       Transformer        BERT/GPT       ChatGPT/
词向量表示      序列记忆         全注意力           预训练模型       大模型时代
词有坐标        有记忆但慢       并行+长距离        迁移学习         涌现能力
                              "革命性架构"        知识可复用        改变行业

1.3 大模型时代:GPT、BERT、ChatGPT 的横空出世

有了 Transformer 这个强大的架构,研究者发现了一件令人惊喜的事:模型越大、数据越多、效果越好——而且这种提升没有明显的上限

1.3.1 预训练的革命

2018 年,Google 发布了 BERT,OpenAI 发布了 GPT-1。它们都基于 Transformer,但更重要的创新是**预训练(Pre-training)**的思想:

  • 第一阶段——预训练:用海量文本(维基百科、图书等)训练一个通用的基础模型,让它掌握语言的基本规律
  • 第二阶段——微调(Fine-tuning):在基础模型上,用少量特定任务的数据继续训练,快速适配具体业务

这就像培养一个学了 12 年基础教育的大学生(预训练),比从零开始培训一个新员工要快得多——你只需要给他做几周岗位培训(微调),他就能上手工作了。

预训练+微调的范式,让 AI 从"一个任务训练一个模型"进化到了"一个基础模型,适配所有任务",极大降低了 AI 应用的门槛。

1.3.2 GPT 系列:越来越大的模型

OpenAI 沿着 GPT 路线一路做大:

模型发布时间参数量里程碑意义
GPT-12018 年1.17 亿验证预训练可行性
GPT-22019 年15 亿生成质量惊艳,OpenAI 一度不敢公开
GPT-32020 年1750 亿无需微调,Few-shot 即可完成多种任务
GPT-3.52022 年未公开ChatGPT 的基础,RLHF 对齐人类偏好
GPT-42023 年未公开多模态,推理能力大幅提升

参数量可以粗略理解为模型的"神经元连接数",参数越多,模型能记住的知识、能处理的复杂度就越高。

1.3.3 ChatGPT:改变世界的产品

2022 年 11 月,OpenAI 发布了 ChatGPT

ChatGPT 并不是技术上最突破性的产品,但它做对了一件极其重要的事:对齐(Alignment)

通过 RLHF(基于人类反馈的强化学习),研究者让真实的人类来评价模型回答的好坏,然后用这些反馈来训练模型,使其输出更符合人类的期望——更有帮助、更安全、更诚实。

结果就是:ChatGPT 说话方式更自然,更愿意承认自己不知道,更少产生有害内容。这让普通人也能愉快地和 AI 对话,而不像以前那样动不动就得到奇怪或有害的回复。

ChatGPT 上线后 5 天用户数突破 100 万,2 个月突破 1 亿——史上增长最快的消费产品。

一句话总结:GPT-3 让研究者震惊,ChatGPT 让全世界震惊。

1.3.4 国内大模型的崛起

ChatGPT 引发的浪潮迅速席卷全球,国内各大厂商和新锐创业公司相继跟进:

  • 文心一言(百度):2023 年 3 月发布,中文理解能力强
  • 通义千问(阿里):与阿里云生态深度集成
  • DeepSeek(深度求索):2024 年底以极低成本训练出媲美顶级模型的性能,震惊业界
  • Kimi(月之暗面):以超长上下文(支持数百万 Token)见长
  • ChatGLM(清华/智谱):国内最早开源的高质量对话模型

2025 年初,DeepSeek-R1 在推理能力上达到甚至超越 OpenAI o1 的水准,但训练成本仅为其极小一部分,引发了全球对"算力军备竞赛"是否可持续的重新审视。


1.4 大模型与传统编程的本质区别

搞清楚大模型的来历之后,我们来直视一个关键问题:大模型和你之前写的代码,到底有什么本质区别?

理解这个区别,是你正确使用大模型的前提。

1.4.1 传统编程:确定性的指令执行

传统程序的本质是:你告诉计算机每一步怎么做,计算机忠实执行

public String greet(String name) {
    return "Hello, " + name + "!";
}

给定相同输入,永远得到相同输出。逻辑完全透明,可以逐行调试,行为完全可预测。

这是传统编程的优势,也是它的局限:你必须能把所有逻辑显式地写出来。对于语言理解、常识推理这类"人类觉得显而易见但难以用规则描述"的问题,传统编程束手无策。

1.4.2 大模型:概率性的模式匹配

大模型的本质是:从海量文本中学习了人类语言的统计规律,然后根据输入,概率性地生成最合适的输出

给定相同输入,不同时刻可能得到不同输出(因为有随机性)。模型内部是一个有几百亿参数的"黑盒",没法直接调试。但它具备强大的语言理解和生成能力,能处理各种"人类觉得理所当然但难以用代码描述"的任务。

对比维度传统编程大模型
逻辑来源人显式编写从数据中学习
确定性完全确定概率性,有随机性
调试方式逐行断点调试调整 Prompt、换模型、看示例
擅长领域精确计算、流程控制、CRUD语言理解、内容生成、推理、归纳
出错表现报错或返回错误值给出看起来正确但实际有误的内容(幻觉)
扩展方式写更多代码换更大模型或优化 Prompt

1.4.3 不是替代关系,而是协作关系

大模型不会替代传统编程,而是给你多了一个强大的"组件"。

就像数据库不会让你不写代码,消息队列不会让你不写代码,大模型也一样——它是一个你可以调用的、具备语言理解和生成能力的服务。

最有效的大模型应用,往往是这样的架构:

传统业务逻辑(流程控制、数据操作、权限校验)
         +
大模型能力(理解意图、生成内容、推理决策)
         =
更智能的业务系统

你的后端经验——系统设计、接口设计、异常处理、性能优化、数据建模——在大模型时代依然极其有价值。你只是多了一个超级强大的"语言处理"组件可以用。


📌 插图 1-3:传统编程 vs 大模型编程对比图

          传统编程                          大模型编程
   ┌─────────────────────┐          ┌─────────────────────┐
   │  输入(Input)        │          │  输入(Prompt)       │
   └──────────┬──────────┘          └──────────┬──────────┘
              │                                │
              ▼                                ▼
   ┌─────────────────────┐          ┌─────────────────────┐
   │  确定性逻辑           │          │  概率性推理           │
   │  if/else/for/switch  │          │  数百亿参数            │
   │  开发者显式定义        │          │  从数据中学习          │
   └──────────┬──────────┘          └──────────┬──────────┘
              │                                │
              ▼                                ▼
   ┌─────────────────────┐          ┌─────────────────────┐
   │  确定性输出           │          │  概率性输出           │
   │  每次结果完全一致      │          │  每次结果可能略有不同  │
   └─────────────────────┘          └─────────────────────┘

   擅长:精确计算、CRUD、流程控制    擅长:语言理解、内容生成、推理归纳

1.5 大模型能力全景图

搞清楚大模型的本质之后,我们来看看它具体能干什么——这直接决定了你能用它来解决哪些业务问题。

1.5.1 文本理解与生成

这是大模型最核心的能力,也是其他所有能力的基础。

  • 理解:读懂一段文字的语义、意图、情感
  • 生成:根据要求写出符合人类期望的文字
  • 改写:改变文字的风格、长度、语气,但保留核心内容
  • 翻译:在不同语言之间转换,且能保留语气和上下文

典型业务场景:自动生成商品描述、合同审查、用户评论分析、多语言本地化。

1.5.2 对话与问答

大模型能进行多轮对话,理解上下文,记住前面说过的内容,像真人一样对话。

  • 问答系统:回答用户的问题(可以基于你的业务知识库)
  • 智能客服:理解用户意图,给出准确回复
  • 信息提取:从一段文字中提取结构化信息(姓名、时间、金额等)

典型业务场景:客服机器人、HR 助手、技术文档问答。

1.5.3 代码能力

大模型的训练数据包含了 GitHub 上海量的代码,因此它具备强大的代码理解和生成能力。

  • 代码生成:根据需求描述生成代码
  • 代码解释:用自然语言解释一段代码在做什么
  • 代码审查:发现潜在的 Bug 和安全问题
  • 代码重构:按照最佳实践改进代码结构
  • SQL 生成:把自然语言问题转成 SQL 查询

典型业务场景:开发辅助、自动化测试生成、数据库自然语言查询。

1.5.4 推理与分析

现代大模型(尤其是 o1/R1 这类推理模型)具备一定的逻辑推理能力。

  • 数据分析:理解表格数据,给出洞察和结论
  • 方案评估:给出多个方案的利弊分析
  • 分类与标注:对内容进行多维度分类
  • 摘要提炼:把长文档提炼成核心要点

典型业务场景:数据报告自动生成、业务分析助手、智能标注。

1.5.5 多模态能力(新兴)

最新一代的大模型已经不局限于文字,开始理解和生成多种媒体形式。

  • 图像理解:看懂图片,描述内容,回答关于图片的问题
  • 图像生成:根据文字描述生成图片
  • 语音交互:语音输入、语音输出,实现实时语音对话
  • 文档解析:理解 PDF、表格、PPT 等格式文档

典型业务场景:商品图片审核、发票识别、语音客服、产品设计辅助。


📌 插图 1-4:大模型能力象限图

                    理解能力
                       ▲
                       │
              文本理解  │  对话问答
              情感分析  │  知识检索
              信息提取  │  意图识别
                       │
 ─────────────────────────────────────── 输出类型
 生成内容               │               处理分析
              代码生成  │  推理分析
              文案写作  │  数据分析
              翻译改写  │  分类摘要
                       │
                       ▼
                    生成能力

         多模态能力横跨所有象限(图、音、视频)

本章小结

这一章我们从宏观视角梳理了大模型的来龙去脉,几个关键认知点值得记下来:

  1. AI 经历了三代演进:规则系统 → 机器学习 → 深度学习,每一代都是从"人工定义规则"到"机器自动学习"的进一步解放。

  2. Transformer 是关键转折点:2017 年提出的 Transformer 架构,解决了 RNN 的串行慢和长距离依赖问题,为大模型提供了可扩展的技术基础。

  3. "大"是关键:模型越大、数据越多,能力不是线性增长,而是会出现"涌现(Emergence)"——突然获得之前完全没有的能力,就像水烧到 100 度突然开沸。

  4. 大模型是概率性的黑盒:与传统代码不同,大模型不是确定性的,调试方式、出错方式都完全不同。理解这一点,能帮你设计出更健壮的大模型应用。

  5. 大模型是工具,不是替代:你的后端工程能力依然是核心,大模型只是让你多了一个超级强大的"语言处理"组件。


思考题

  1. 你日常工作中,有哪些任务是"写规则写不完"或"用传统代码很难实现"的?这些任务是否可能用大模型来辅助?

  2. 大模型的"幻觉"问题(生成看起来正确但实际错误的内容)对不同业务场景的影响有多大?有没有场景是完全无法容忍幻觉的?

  3. 在你的系统中,哪些模块可以尝试引入大模型能力?引入后会带来哪些新的挑战?


下一章预告:现在你知道了大模型"是什么"和"从哪里来",但要真正用好它,你还需要理解它"怎么工作"。第 2 章我们将深入大模型的运作原理——Token、上下文窗口、温度参数、幻觉机制——这些概念将直接影响你的代码质量和 API 使用成本。