1.1 大模型不是「大一点的 BERT」:定义、边界与能力从哪来

3 阅读1分钟

基于《大规模语言模型:从理论到实践(第2版)》第1章 绪论

爆款小标题:搞懂 LLM 的三大定义与能力边界,面试和选型不再懵


为什么这一节重要

无论是面试、技术选型还是和产品经理对齐需求,第一个要回答的问题往往是:大语言模型到底是什么?它能做什么、不能做什么? 很多人会用「参数很多、能力很强的模型」一笔带过,但这样既无法区分它和传统 NLP 模型、搜索引擎的差异,也无法在工程上做出正确决策——哪些场景可以纯靠 LLM,哪些必须配合 RAG、微调或 Agent。本节紧扣原书绪论,把「定义—能力来源—能力边界」讲透,为后续所有章节打底。


学习目标

学完本节,你将能够:

  • 准确定义:在面试或文档中准确说出「大语言模型」在本书中的定义,并说明它与统计语言模型、早期预训练模型(如 BERT)在规模、训练目标与使用方式上的区别。
  • 理解能力来源:说清大模型能力主要来自哪几个因素(规模、数据、训练目标与对齐),而不是简单归因于「参数多」。
  • 明确边界:列举当前大模型的主要能力边界(如幻觉、知识截止、长程依赖、推理成本等),并能在实际项目中据此设计 RAG、工具或人工兜底方案。

一、大语言模型的定义(原书精炼与延伸)

《大规模语言模型:从理论到实践(第2版)》绪论中给出的大语言模型定义,可以概括为三句话:

  1. 规模:由包含数百亿以上权重的深度神经网络构建。这里的「大」首先体现在参数量级——从早期的 1.5B、7B 到主流的 70B、数百 B 乃至更大,与早期 BERT-base(约 1.1 亿参数)有数量级差异。
  2. 训练方式:采用自监督学习大量无标注文本上训练。即不依赖人工标注的「输入—输出」对,而是利用文本自身的结构(如下一词预测、掩码预测)构造训练信号。
  3. 本质:它是一个语言模型,即对词序列的概率分布进行建模,可用于计算序列概率、生成文本或作为下游任务的表示基础。

与「统计语言模型」的区别在于:统计语言模型(如 N-gram)用离散符号与计数估计概率,参数量小、无法捕捉长程依赖与深层语义;大语言模型用连续向量表示与深度网络,参数量大、能够学习到丰富的语义与推理模式。与「早期预训练模型」(如 BERT)的区别则不仅在于规模——BERT 多为编码器结构、以掩码语言建模为主、常用于理解与分类;大语言模型多为解码器或编解码结构、以自回归生成为主、既可理解又可生成,且规模与数据量使其涌现出少样本学习、指令遵循等能力。原书强调,正是「规模 + 自监督 + 特定架构与目标」共同定义了我们今天所说的 LLM。


二、能力从哪里来:规模、数据与训练目标

大模型的能力并非单一因素决定,原书与业界共识可归纳为以下几方面。

1. 模型规模(参数量与计算量)

规模扩大通常带来:更大的记忆容量(可存储更多事实与模式)、更强的泛化与少样本能力、以及在一定范围内的「涌现」行为(如链式推理、简单规划)。但规模并非唯一变量——同样 7B 参数,不同数据与训练流程得到的模型差异很大。

2. 预训练数据的规模、质量与多样性

数据决定模型的知识覆盖与表达风格。互联网文本提供广度,书籍与论文提供深度与逻辑,代码数据支撑代码能力,多语言数据支撑多语能力。原书第 3 章会详细讲数据来源与处理;这里只需建立一点:数据质量和分布与数据量同样重要,低质量或重复数据会拉低泛化甚至带来记忆与偏见。

3. 训练目标与架构

自回归「下一 token 预测」使模型天然适合生成;解码器-only 的因果注意力与长上下文设计使长文本生成与对话成为可能。训练目标与架构共同决定了模型「擅长什么形式的任务」。

4. 指令微调与对齐(后训练阶段)

很多能力是在预训练之后的**指令微调(SFT)基于人类反馈的强化学习(RLHF 等)**中塑造的。指令微调让模型学会遵循任务描述与格式;对齐则让模型在多个候选输出中更倾向于人类偏好、更安全、更可控。因此,在选型或评估时不能只看「基座规模」,还要看是否做过指令微调与对齐、做到什么程度(原书第 5、6 章会展开)。

理解「能力从哪来」,有助于我们在项目中做正确归因:效果不好时,可能是数据、可能是任务形式、也可能是缺少微调或对齐,而不是一味加参数或换大模型。


三、能力边界:幻觉、时效性、长程与成本

原书在多处强调,大模型存在明确的能力边界,工程落地时必须考虑。

1. 幻觉(Hallucination)

模型可能生成语法正确但事实错误、或与输入无关的内容。原因包括:训练数据噪声、模型为「流畅」牺牲事实、以及缺乏对外部知识的实时访问。应对思路包括:检索增强(RAG)注入可靠文档、引用与溯源、对关键事实做校验或人工抽检。

2. 知识截止与时效性

预训练数据有时间范围,模型不知道截止日期之后的事件与政策变化。对时效性要求高的场景(新闻、法规、股价等)需要结合检索、知识库更新或人工审核。

3. 长程依赖与上下文长度

尽管上下文窗口在增长(8K、32K、128K 等),但有效利用长上下文仍受限于注意力机制与训练数据。超长文档的「中间遗忘」、跨多轮对话的指代与一致性,仍是开放问题。工程上常通过摘要、分段检索或结构化记忆来缓解。

4. 多模态与推理成本

纯文本模型不直接「看」图、「听」语音;多模态模型(原书第 7 章)能力与成本不同。此外,大模型推理的算力与延迟成本高,在延迟敏感或成本敏感场景下需要量化、蒸馏或小模型+ RAG/工具的组合。

明确这些边界,才能在设计产品时决定:哪些交给纯 LLM,哪些必须用 RAG、工具调用或人工兜底。


四、工程实战要点:讲清能力类型与选型依据

1. 对外统一话术:我们用的是 LLM 的哪类能力

在需求评审、对外汇报或文档中,建议明确说明当前系统依赖的是「生成」「理解」「推理」还是「工具调用」中的哪一类或哪几类。例如:「我们的问答主要用 LLM 的生成能力,但事实部分由 RAG 检索结果约束」;「分类与抽取用的是模型的理解与结构化输出能力」。这样便于产品、算法与 infra 对齐预期,也便于在效果不好时做针对性优化。不同能力对模型规模、延迟与成本的要求不同,明确能力类型有助于选型与资源规划。

2. 能力边界要成为产品与研发的共识

在立项或评审时,建议把「已知边界」写进文档:例如「模型存在幻觉,关键结论需 RAG 或人工复核」「模型不具备实时数据,行情类问题走 API」。这样可避免「以为模型什么都能做」导致的返工或线上事故,也便于在边界内设计可落地的方案(RAG、Function Calling、人工审核流程等)。


五、常见误区与避坑指南

误区一:把「参数量」等同于「能力」

不少人用参数量或「7B / 70B」直接判断强弱。实际上,同一参数量下,数据质量、训练目标、指令微调与对齐程度都会显著影响表现。避坑:选型时同时看数据规模与质量、是否做过 SFT/RLHF、以及在你关心的任务上的评测或试点结果,而不是只看参数规模。

误区二:认为「大模型什么都能做」

大模型在开放域对话与多种任务上表现惊艳,但仍有幻觉、时效性、长程与成本等边界。避坑:在需求阶段就明确「必须正确」「必须实时」「必须低成本」等约束,在边界内用 RAG、工具或人工兜底设计可落地的方案,而不是默认模型能 100% 解决所有问题。

误区三:忽视「对齐」阶段对体验的影响

只做过预训练或只做过 SFT 的模型,可能在安全、偏好与格式遵循上不如经过 RLHF 的模型。避坑:对面向 C 端或对安全/合规要求高的场景,优先考虑经过对齐的模型或在此基础上做领域微调,并在上线前做安全与偏好测试。


六、小结与衔接

本节基于原书绪论梳理了:大语言模型的定义(规模 + 自监督 + 语言模型)、与统计/早期预训练模型的区别、能力的多源(规模、数据、训练目标与对齐)以及主要能力边界(幻觉、时效、长程、成本)。建立这些概念后,下一节将沿时间线看大模型如何从 BERT/GPT 演进到 ChatGPT,以及「预训练—微调—对齐」三阶段在产业链中的对应关系,从而在宏观上把握技术栈与产品形态。


课后思考题

  1. 向非技术人员解释:用三句话说明什么是大语言模型,以及它和「搜索引擎」或「传统 NLP 模型」有什么本质区别。(提示:可从「是否生成」「是否需标注」「是否实时检索」等角度对比。)
  2. 场景划分:列举两个「适合纯 LLM」的业务场景和两个「必须配合 RAG 或工具」的业务场景,并各用一两句话说明理由。