1.2 从 BERT 到 ChatGPT：发展脉络与典型应用范式> 基于《大规模语言模型：从理论到实践（第2版）》第1章

基于《大规模语言模型：从理论到实践（第2版）》第1章绪论

爆款小标题：一条时间线搞懂大模型演进，再也不会把「预训练」和「对齐」搞混

为什么这一节重要

大模型技术栈里充斥着「预训练」「微调」「对齐」「RLHF」等术语，若不清楚它们各自在时间线和产业链上的位置，很容易在讨论中混淆——例如把「还没做对齐」的模型拿去做了高安全要求的对话，或把「只做了 SFT」的模型当成「已经对齐」的成品。本节按原书绪论与第 2、5、6 章的线索，用一条清晰的时间线串联关键节点，并区分「预训练—微调—对齐」三阶段及其对应的数据形态与产品形态，最后简要归纳典型应用范式，为后续深入各章打基础。

学习目标

学完本节，你将能够：

按时间线梳理：说出 2018 年至 2022 年及之后大模型发展的关键节点（如 BERT、GPT-2、GPT-3、ChatGPT、LLaMA 等）及每个阶段代表性的能力跃迁。
区分三阶段：准确说明「预训练」「微调」「对齐」分别解决什么问题、输入输出与数据形态有何不同，以及它们在产业链与产品中的对应关系。
了解应用范式：列举原书涉及的典型应用形态（通用对话、领域问答、代码、工具与 Agent、多模态等），并能在实际项目中对应到「主要依赖哪一阶段的能力」。

一、发展脉络：从预训练+微调确立到对话与对齐成为标配

原书绪论与第 2 章勾勒的演进主线可概括为以下几个阶段。

2018–2019：预训练 + 微调范式确立

BERT（2018）：基于 Transformer 编码器、采用掩码语言建模（MLM）与下一句预测（NSP），在大量无标注文本上预训练，再在下游任务上微调，在 GLUE 等基准上大幅刷新成绩。确立了「先预训练、再任务微调」的两阶段范式。
GPT-2（2019）：解码器-only、自回归下一 token 预测，展示了大模型在零样本与少样本任务上的潜力。与 BERT 形成「编码器理解 vs 解码器生成」两条路线。

这一阶段的核心共识是：预训练负责从无标注数据里学语言与知识，微调负责把模型适配到具体任务（分类、抽取、生成等），数据形态是「无标注长文本」与「任务相关的标注数据」分开的。

2020–2021：规模放大与少样本能力显现

GPT-3（2020）：将参数规模推到 175B，并系统展示了少样本与零样本能力——仅通过提示中的少量示例或不给示例，即可完成翻译、问答、推理等任务，即「上下文学习」（In-Context Learning）。说明在足够规模与数据下，模型可以较少依赖任务微调，更多依赖提示设计。
同期及之后，各机构陆续发布更大规模或更开放的模型（如 Gopher、Chinchilla、PaLM 等），多语言、代码与推理能力持续提升。

这一阶段的关键认知是：规模与数据带来的不仅是精度提升，还有行为质变（少样本、链式推理萌芽等）；但此时对话的「有用、安全、符合人类偏好」尚未系统化，多依赖提示与规则。

2022 年起：对话与对齐成为标配

ChatGPT（2022 年底）：通过指令微调（SFT）与基于人类反馈的强化学习（RLHF），使模型能够稳定地遵循用户指令、以对话形式输出、并更符合人类偏好与安全要求。对话与通用助手形态迅速成为产品标配。
开源与生态：LLaMA、Mistral、Qwen、DeepSeek 等开源基座与各类微调、对齐方案大量出现，原书第 5、6 章将详细展开指令微调与 RLHF 的技术细节。

这一阶段的核心变化是：对齐作为独立阶段被广泛接受——不仅要「会做任务」，还要「按人类期望的方式做选择、说话、拒绝不当请求」。对应到数据与流程上，就是「指令数据 + 偏好数据 + 强化学习优化」，与纯预训练、纯微调在目标和数据形态上都有明显区别。

掌握这条时间线，有助于在选型时判断：某个开源模型是「只做了预训练」「预训练 + SFT」还是「预训练 + SFT + RLHF」，从而避免在高安全、高体验要求的场景误用未对齐模型。

二、预训练、微调、对齐：三阶段在说什么

原书第 3–6 章分别对应数据、分布式训练、指令微调与强化学习，这里先做概念级串联。

预训练（Pre-training）

目标：从海量无标注文本中学习语言结构、世界知识与通用模式。
数据：原始文本（网页、书籍、代码等），经清洗、去重、切分后送入模型；无「问题—答案」或「指令—输出」形式的标注。
损失：通常为自回归的下一 token 交叉熵（或掩码建模等），按 token 或序列平均。
产出：基座模型（Base Model），具备较强的语言与知识能力，但尚未针对「听话」「对话」「安全」做专门优化。对应产业链中的「基座厂商」或「预训练阶段」。

微调（Fine-tuning） / 指令微调（SFT）

目标：让模型学会遵循指令、适应特定任务格式与领域。
数据：通常为「指令（或任务描述）+ 输入 + 输出」形式的高质量样本，可人工标注或由模型生成后筛选。
损失：仍为语言建模损失（对「输出」部分算交叉熵），但数据分布从「任意文本」变为「指令—输出」对。
产出：指令微调模型，更会按指令办事、格式更稳定，但「在多个合理答案中选哪个」仍未必符合人类偏好，安全性也未必充分。对应「垂直模型厂商」或「应用方自建 SFT 模型」。

对齐（Alignment）

目标：使模型在多个可能输出中更倾向于人类偏好、更安全、更可控（不越权、不幻觉、不输出有害内容）。
数据与流程：常见为 RLHF——先训练奖励模型（用人类对多个回复的排序或打分），再用强化学习（如 PPO）优化策略模型，在最大化奖励的同时用 KL 散度约束不偏离基座或 SFT 模型太远。也有 RLOO、GRPO 等不单独训练奖励模型的简化方案（原书第 6 章）。
产出：对齐后的模型，更适合直接作为对话或助手产品后端。对应「对齐阶段」或「ChatGPT 类产品」所依赖的训练环节。

小结：预训练学「语言与知识」，微调学「任务与格式」，对齐学「选哪个答案、如何拒绝、如何安全」。三者的数据形态和优化目标都不同，在项目中不可混用——例如不能用纯预训练语料去做指令微调，也不能指望只做过 SFT 的模型自动具备 RLHF 级别的偏好与安全。

三、典型应用范式（原书第 7–9 章前瞻）

原书在多章中覆盖的典型应用形态可简要归纳如下，便于在后续学习中对应「主要依赖哪一阶段」。

1. 通用对话与助手

用户以自然语言提问或下达指令，模型以对话形式回复。高度依赖指令微调与对齐，预训练提供语言与知识底座。产品形态如 ChatGPT、各类智能助手。

2. 领域问答与知识服务

在特定领域（医疗、法律、企业知识库）回答专业问题。若知识边界清晰、可文档化，常采用 RAG（检索增强生成）：用检索注入最新或权威文档，再用 LLM 生成答案，从而缓解幻觉与时效性（原书第 9 章）。这里 LLM 主要提供「理解问题 + 组织答案」的能力，事实由检索保障。

3. 代码生成与补全

根据自然语言描述或上下文代码生成、补全或修改代码。依赖预训练中的代码数据与代码相关任务的微调，不少模型还经过人类反馈或代码执行反馈的对齐。对应 Copilot、代码助手等产品。

4. 工具调用与 Agent

模型除了生成文本，还能决定何时调用何种工具（查天气、查数据库、发邮件等），并根据工具返回继续推理或生成。依赖指令微调与工具描述数据，部分产品还结合 ReAct、Plan-and-Execute 等规划框架（原书第 8 章）。对应带「联网」「插件」的助手与自动化 Agent。

5. 多模态理解与生成

输入或输出不限于文本，还包括图像、语音等。依赖多模态预训练与对齐（原书第 7 章），如图像编码器与 LLM 的联合训练与指令数据。对应图文问答、文档理解、语音助手等。

在实际项目中，可先判断你的场景更接近上述哪一类，再反推需要的是「纯基座」「基座 + SFT」「基座 + SFT + 对齐」还是「LLM + RAG / 工具 / 多模态」，从而正确选型与排期。

四、工程实战要点

1. 对外介绍项目时，说清「我们站在哪一阶段」

在技术方案或对外汇报中，建议明确写出当前模型所处的阶段，例如：「我们使用开源基座 + 自建指令微调，尚未做 RLHF」或「我们使用商用 API，其基座已完成对齐」。这样便于听众理解能力边界与风险，也便于在效果不好时判断是该加数据、加微调还是加对齐。

2. 选型时结合发展脉络理解各模型的「训练阶段」

不同开源模型的说明中会写「仅预训练」「预训练 + SFT」或「预训练 + SFT + RLHF」。对安全与体验要求高的对话类产品，应优先考虑已做对齐的模型或在已有对齐模型上做领域微调；若仅做内部工具或对安全要求较低，可评估「仅 SFT」模型以降低成本与迭代周期。

五、常见误区与避坑指南

误区一：把「ChatGPT 很强」全部归因于「模型大」

ChatGPT 的体验来自数据质量、指令数据与 RLHF 对齐的综合作用，规模只是其一。避坑：在自建或选型时，不要只堆参数，要同步考虑指令数据与对齐流程（或选用已对齐的 API/模型）。

误区二：用「预训练数据」做「指令微调」或反过来

预训练数据是连续文本、无指令—输出结构；指令微调需要（指令, 输入, 输出）形态的数据。混用会导致格式混乱、模型难以学会「听话」。避坑：严格按阶段区分数据形态，预训练用预训练管线，微调用指令数据管线。

误区三：认为「做了 SFT 就等于对齐了」

SFT 主要解决「会做任务、会跟格式」；对齐解决「在多个合理答案中选人类更喜欢的、更安全的」。只做 SFT 的模型可能仍然啰嗦、冗长或在不该回答时回答。避坑：对 C 端或高安全场景，明确需求是否包含「偏好与安全」，若是，则规划 RLHF 或选用已对齐模型。

六、小结与衔接

本节沿时间线梳理了从 BERT/GPT-2 到 ChatGPT 的演进，并明确了「预训练—微调—对齐」三阶段各自的目标、数据形态与产出；最后简要列举了通用对话、领域问答、代码、工具/Agent、多模态等典型应用范式。下一模块将进入原书第 2 章：大语言模型的架构基础——Transformer 的自注意力、位置编码与前馈网络，为后续理解 GPT、LLaMA、MOE 等具体架构打基础。

课后思考题

三阶段一句话：用「预训练 / 微调 / 对齐」各一句话说明：它们分别解决什么问题、输入输出形态有何不同？
能力归属：列举一个「主要依赖预训练阶段能力」和一个「主要依赖对齐阶段能力」的产品或功能，并简要说明理由。