1.2 从 BERT 到 ChatGPT:发展脉络与典型应用范式

1 阅读1分钟

基于《大规模语言模型:从理论到实践(第2版)》第1章 绪论

爆款小标题:一条时间线搞懂大模型演进,再也不会把「预训练」和「对齐」搞混


为什么这一节重要

大模型技术栈里充斥着「预训练」「微调」「对齐」「RLHF」等术语,若不清楚它们各自在时间线和产业链上的位置,很容易在讨论中混淆——例如把「还没做对齐」的模型拿去做了高安全要求的对话,或把「只做了 SFT」的模型当成「已经对齐」的成品。本节按原书绪论与第 2、5、6 章的线索,用一条清晰的时间线串联关键节点,并区分「预训练—微调—对齐」三阶段及其对应的数据形态与产品形态,最后简要归纳典型应用范式,为后续深入各章打基础。


学习目标

学完本节,你将能够:

  • 按时间线梳理:说出 2018 年至 2022 年及之后大模型发展的关键节点(如 BERT、GPT-2、GPT-3、ChatGPT、LLaMA 等)及每个阶段代表性的能力跃迁。
  • 区分三阶段:准确说明「预训练」「微调」「对齐」分别解决什么问题、输入输出与数据形态有何不同,以及它们在产业链与产品中的对应关系。
  • 了解应用范式:列举原书涉及的典型应用形态(通用对话、领域问答、代码、工具与 Agent、多模态等),并能在实际项目中对应到「主要依赖哪一阶段的能力」。

一、发展脉络:从预训练+微调确立到对话与对齐成为标配

原书绪论与第 2 章勾勒的演进主线可概括为以下几个阶段。

2018–2019:预训练 + 微调范式确立

  • BERT(2018):基于 Transformer 编码器、采用掩码语言建模(MLM)与下一句预测(NSP),在大量无标注文本上预训练,再在下游任务上微调,在 GLUE 等基准上大幅刷新成绩。确立了「先预训练、再任务微调」的两阶段范式。
  • GPT-2(2019):解码器-only、自回归下一 token 预测,展示了大模型在零样本与少样本任务上的潜力。与 BERT 形成「编码器理解 vs 解码器生成」两条路线。

这一阶段的核心共识是:预训练负责从无标注数据里学语言与知识,微调负责把模型适配到具体任务(分类、抽取、生成等),数据形态是「无标注长文本」与「任务相关的标注数据」分开的。

2020–2021:规模放大与少样本能力显现

  • GPT-3(2020):将参数规模推到 175B,并系统展示了少样本与零样本能力——仅通过提示中的少量示例或不给示例,即可完成翻译、问答、推理等任务,即「上下文学习」(In-Context Learning)。说明在足够规模与数据下,模型可以较少依赖任务微调,更多依赖提示设计。
  • 同期及之后,各机构陆续发布更大规模或更开放的模型(如 Gopher、Chinchilla、PaLM 等),多语言、代码与推理能力持续提升。

这一阶段的关键认知是:规模与数据带来的不仅是精度提升,还有行为质变(少样本、链式推理萌芽等);但此时对话的「有用、安全、符合人类偏好」尚未系统化,多依赖提示与规则。

2022 年起:对话与对齐成为标配

  • ChatGPT(2022 年底):通过指令微调(SFT)基于人类反馈的强化学习(RLHF),使模型能够稳定地遵循用户指令、以对话形式输出、并更符合人类偏好与安全要求。对话与通用助手形态迅速成为产品标配。
  • 开源与生态:LLaMA、Mistral、Qwen、DeepSeek 等开源基座与各类微调、对齐方案大量出现,原书第 5、6 章将详细展开指令微调与 RLHF 的技术细节。

这一阶段的核心变化是:对齐作为独立阶段被广泛接受——不仅要「会做任务」,还要「按人类期望的方式做选择、说话、拒绝不当请求」。对应到数据与流程上,就是「指令数据 + 偏好数据 + 强化学习优化」,与纯预训练、纯微调在目标和数据形态上都有明显区别。

掌握这条时间线,有助于在选型时判断:某个开源模型是「只做了预训练」「预训练 + SFT」还是「预训练 + SFT + RLHF」,从而避免在高安全、高体验要求的场景误用未对齐模型。


二、预训练、微调、对齐:三阶段在说什么

原书第 3–6 章分别对应数据、分布式训练、指令微调与强化学习,这里先做概念级串联。

预训练(Pre-training)

  • 目标:从海量无标注文本中学习语言结构、世界知识与通用模式。
  • 数据:原始文本(网页、书籍、代码等),经清洗、去重、切分后送入模型;无「问题—答案」或「指令—输出」形式的标注。
  • 损失:通常为自回归的下一 token 交叉熵(或掩码建模等),按 token 或序列平均。
  • 产出基座模型(Base Model),具备较强的语言与知识能力,但尚未针对「听话」「对话」「安全」做专门优化。对应产业链中的「基座厂商」或「预训练阶段」。

微调(Fine-tuning) / 指令微调(SFT)

  • 目标:让模型学会遵循指令、适应特定任务格式与领域。
  • 数据:通常为「指令(或任务描述)+ 输入 + 输出」形式的高质量样本,可人工标注或由模型生成后筛选。
  • 损失:仍为语言建模损失(对「输出」部分算交叉熵),但数据分布从「任意文本」变为「指令—输出」对。
  • 产出指令微调模型,更会按指令办事、格式更稳定,但「在多个合理答案中选哪个」仍未必符合人类偏好,安全性也未必充分。对应「垂直模型厂商」或「应用方自建 SFT 模型」。

对齐(Alignment)

  • 目标:使模型在多个可能输出中更倾向于人类偏好、更安全、更可控(不越权、不幻觉、不输出有害内容)。
  • 数据与流程:常见为 RLHF——先训练奖励模型(用人类对多个回复的排序或打分),再用强化学习(如 PPO)优化策略模型,在最大化奖励的同时用 KL 散度约束不偏离基座或 SFT 模型太远。也有 RLOO、GRPO 等不单独训练奖励模型的简化方案(原书第 6 章)。
  • 产出对齐后的模型,更适合直接作为对话或助手产品后端。对应「对齐阶段」或「ChatGPT 类产品」所依赖的训练环节。

小结:预训练学「语言与知识」,微调学「任务与格式」,对齐学「选哪个答案、如何拒绝、如何安全」。三者的数据形态优化目标都不同,在项目中不可混用——例如不能用纯预训练语料去做指令微调,也不能指望只做过 SFT 的模型自动具备 RLHF 级别的偏好与安全。


三、典型应用范式(原书第 7–9 章前瞻)

原书在多章中覆盖的典型应用形态可简要归纳如下,便于在后续学习中对应「主要依赖哪一阶段」。

1. 通用对话与助手

用户以自然语言提问或下达指令,模型以对话形式回复。高度依赖指令微调与对齐,预训练提供语言与知识底座。产品形态如 ChatGPT、各类智能助手。

2. 领域问答与知识服务

在特定领域(医疗、法律、企业知识库)回答专业问题。若知识边界清晰、可文档化,常采用 RAG(检索增强生成):用检索注入最新或权威文档,再用 LLM 生成答案,从而缓解幻觉与时效性(原书第 9 章)。这里 LLM 主要提供「理解问题 + 组织答案」的能力,事实由检索保障。

3. 代码生成与补全

根据自然语言描述或上下文代码生成、补全或修改代码。依赖预训练中的代码数据代码相关任务的微调,不少模型还经过人类反馈或代码执行反馈的对齐。对应 Copilot、代码助手等产品。

4. 工具调用与 Agent

模型除了生成文本,还能决定何时调用何种工具(查天气、查数据库、发邮件等),并根据工具返回继续推理或生成。依赖指令微调与工具描述数据,部分产品还结合 ReAct、Plan-and-Execute 等规划框架(原书第 8 章)。对应带「联网」「插件」的助手与自动化 Agent。

5. 多模态理解与生成

输入或输出不限于文本,还包括图像、语音等。依赖多模态预训练与对齐(原书第 7 章),如图像编码器与 LLM 的联合训练与指令数据。对应图文问答、文档理解、语音助手等。

在实际项目中,可先判断你的场景更接近上述哪一类,再反推需要的是「纯基座」「基座 + SFT」「基座 + SFT + 对齐」还是「LLM + RAG / 工具 / 多模态」,从而正确选型与排期。


四、工程实战要点

1. 对外介绍项目时,说清「我们站在哪一阶段」

在技术方案或对外汇报中,建议明确写出当前模型所处的阶段,例如:「我们使用开源基座 + 自建指令微调,尚未做 RLHF」或「我们使用商用 API,其基座已完成对齐」。这样便于听众理解能力边界与风险,也便于在效果不好时判断是该加数据、加微调还是加对齐。

2. 选型时结合发展脉络理解各模型的「训练阶段」

不同开源模型的说明中会写「仅预训练」「预训练 + SFT」或「预训练 + SFT + RLHF」。对安全与体验要求高的对话类产品,应优先考虑已做对齐的模型或在已有对齐模型上做领域微调;若仅做内部工具或对安全要求较低,可评估「仅 SFT」模型以降低成本与迭代周期。


五、常见误区与避坑指南

误区一:把「ChatGPT 很强」全部归因于「模型大」

ChatGPT 的体验来自数据质量、指令数据与 RLHF 对齐的综合作用,规模只是其一。避坑:在自建或选型时,不要只堆参数,要同步考虑指令数据与对齐流程(或选用已对齐的 API/模型)。

误区二:用「预训练数据」做「指令微调」或反过来

预训练数据是连续文本、无指令—输出结构;指令微调需要(指令, 输入, 输出)形态的数据。混用会导致格式混乱、模型难以学会「听话」。避坑:严格按阶段区分数据形态,预训练用预训练管线,微调用指令数据管线。

误区三:认为「做了 SFT 就等于对齐了」

SFT 主要解决「会做任务、会跟格式」;对齐解决「在多个合理答案中选人类更喜欢的、更安全的」。只做 SFT 的模型可能仍然啰嗦、冗长或在不该回答时回答。避坑:对 C 端或高安全场景,明确需求是否包含「偏好与安全」,若是,则规划 RLHF 或选用已对齐模型。


六、小结与衔接

本节沿时间线梳理了从 BERT/GPT-2 到 ChatGPT 的演进,并明确了「预训练—微调—对齐」三阶段各自的目标、数据形态与产出;最后简要列举了通用对话、领域问答、代码、工具/Agent、多模态等典型应用范式。下一模块将进入原书第 2 章:大语言模型的架构基础——Transformer 的自注意力、位置编码与前馈网络,为后续理解 GPT、LLaMA、MOE 等具体架构打基础。


课后思考题

  1. 三阶段一句话:用「预训练 / 微调 / 对齐」各一句话说明:它们分别解决什么问题、输入输出形态有何不同?
  2. 能力归属:列举一个「主要依赖预训练阶段能力」和一个「主要依赖对齐阶段能力」的产品或功能,并简要说明理由。