从前端到Agent|第一章:LLM 原理与计算流程
什么是LLM? 🤖
LLM的全称是Large Language Model。 从技术本质来看,LLM 是基于深度学习构建、以 Transformer 架构为核心,通过海量文本数据进行自监督预训练,能够理解、生成人类语言,并完成各类文本相关任务的大规模生成式概率模型。 它的核心工作逻辑是 “基于前文语境,预测下一个最合理的词元(Token)”。
我们看到的连贯对话、长文生成、逻辑推理,本质上都是模型通过逐词概率预测,自回归拼接而成的文本序列。它不是存储知识的数据库,也不是具备主观意识的智能体,而是一个学习了人类语言统计规律、语义关联与世界知识的巨型统计预测机。
LLM 核心释义拆解
- Large(大): 指的是模型的规模巨大。它拥有数千亿个参数(可以理解为模型大脑中的神经元连接),并学习了互联网上几乎所有的文本数据。
- Language(语言): 它的核心任务是理解、生成和处理人类语言,而不只是简单的代码或数学公式。
- Model(模型): 它本质上是一个复杂的数学函数,通过模拟人脑神经元的结构(神经网络)来处理信息。
底层逻辑:概率的“接龙游戏” 🎲
LLM 的核心逻辑其实非常纯粹:预测下一个标记(Next Token Prediction)。当你给模型输入一段话时,它并不是像百科全书一样去查找答案,而是基于它学过的海量知识,去计算哪一个字或词在当前语境下出现的概率最高。
LLM 核心计算四步骤
| 步骤 | 逻辑描述 | 形象比喻 |
|---|---|---|
| 1. 输入处理 | 将文字转化为向量(一组数字)。 | 把文字翻译成模型能懂的“数字密码”。 |
| 2. 上下文分析 | 利用 Transformer 架构中的“注意力机制”,分析输入中各个词的关系。 | 像读书一样,通过上下文确定“苹果”是指水果还是公司。 |
| 3. 概率计算 | 计算词库中所有词作为下一个词的可能性。 | 在脑中搜索成千上万个备选词。 |
| 4. 输出生成 | 选择概率最高的词输出,并将其作为新输入的一部分,继续预测。 | 玩一场极其精准的文字接龙。 |
Transformer 架构 🧠
当代所有主流 LLM(GPT 系列、LLaMA 系列、Claude、Qwen 等),其底层架构均基于 2017 年 Google 团队在《Attention Is All You Need》论文中提出的 Transformer 架构,并非完全照搬,而是在其基础上进行了适配性优化。Transformer 架构是现代大语言模型的“心脏”和“大脑”,核心逻辑是通过并行处理提升效率,通过注意力分配精准捕捉语义关联。
Transformer 核心优势
- 全景视角 (Parallelism):Transformer 不再按顺序逐词读取文本,而是同时观察整个句子或段落,大幅提升信息处理速度,这也是其相比传统RNN、LSTM架构的核心优势。
- 自注意力机制 (Self-Attention) 🧠:这是它的“秘密武器”。当模型读到“苹果”这类多义词时,会通过注意力机制“环顾”周围的词——若旁边有“手机”,则判定为科技公司;若有“好吃”,则判定为水果,从而精准理解语义。
- 位置编码 (Positional Encoding) 📍:由于Transformer同时处理所有词,为避免混淆词序(如“人咬狗”和“狗咬人”语义完全不同),它会给每个词打上专属“位置标签”,确保语义逻辑不混乱。
自注意力机制(Self-Attention)
自注意力机制是 Transformer 的灵魂,核心解决了 AI 阅读时“如何划重点”“如何关联上下文”的问题。简单来说,当模型处理一个词时,自注意力机制会让它“环顾四周”,精准识别句子中与当前词关系最紧密的内容,从而理解其具体语义。
核心逻辑:Query, Key 和 Value 🏷️
为实现这种“环顾关联”,模型为每个词分配了三个核心身份,我们可以用图书馆找书的场景做通俗类比:
| 身份 | 术语 | 形象比喻 | 实际作用 |
|---|---|---|---|
| 查询量 | Query (Q) | 🔍 搜索词 | “我正在找什么信息?”(当前词的需求) |
| 键值 | Key (K) | 🏷️ 书名/标签 | “我这里有什么信息?”(其他词的特征) |
| 数值 | Value (V) | 📖 书的内容 | “如果我被选中,我能提供什么?”(词的实际含义) |
具体计算过程分为三步,逻辑闭环清晰:
- 匹配:拿当前词的 Q 去和句中所有词的 K进行匹配,计算相似度(得分)。
- 分配权重:得分越高,说明两个词关系越近,分配的注意力权重就越大。
- 加权求和:根据权重,把所有词的 V 融合在一起,生成当前词的新表示。
举个例子:“动物没有过马路,因为它太累了。”
当模型处理“它”这个词时:
- 如果模型注意到“动物”,它会发现“动物”和“累”的关联度很高,于是给“动物”分配很高的注意力权重。
- 这样,“它”在模型的理解中就被紧紧地关联到了“动物”上,而不是“马路”。
多头注意力 (Multi-Head Attention) 🐲
如果说自注意力是让模型长了“一双眼睛”,那么多头注意力就是让模型长了“很多双眼睛”,并且每双眼睛盯着不同的地方:
- 第一双眼:专门盯着语法结构(比如谁是主语,谁是谓语)。
- 第二双眼:专门盯着语义关联(比如“宽”和“马路”的逻辑关系)。
- 第三双眼:专门盯着情感色彩(这段话是褒义还是贬义)。
最后,Transformer 会把这些“眼睛”看到的所有信息汇总在一起,形成对这个句子最全面的理解。
编码器(Encoder)与解码器(Decoder)🏗️
我们要深入了解 Encoder(编码器) 和 Decoder(解码器),可以把整个 Transformer 想象成一个高效的翻译官团队。在最初的设计中,Transformer 是为了解决机器翻译任务而诞生的。它由两大部分组成,分工非常明确:
编码器 (Encoder):负责“理解” 🧐
编码器的任务是把输入的句子(比如一句英文)读进去,并把它转化为一种机器能理解的“深层语义表示”。
- 全局观察:它会同时看整个句子,利用我们之前聊过的自注意力机制,理清词与词之间的关系。
- 特征提取:它最终会生成一个包含所有语境信息的“语义矩阵”。
- 比喻:就像一个阅读理解高手,读完一段话后,脑子里形成了一幅清晰的逻辑地图。
解码器 (Decoder):负责“生成” ✍️
解码器的任务是根据编码器提供的“地图”,一个词一个词地蹦出结果(比如对应的中文)。
- 承上启下:它不仅要看已经写出来的词(自注意力),还要不断去问编码器:“喂,原文这里是什么意思?”(这被称为 交叉注意力 Cross-Attention)。
- 单向预测:与编码器不同,解码器在生成时只能看到之前的词,不能偷看后面的答案。
- 比喻:就像一个作家,一边回忆阅读高手给的地图,一边根据已经写好的情节,推测下一个词该写什么。
虽然原始的 Transformer 是由编码器和解码器组成的“双引擎”结构,但以 GPT 为代表的现代大语言模型几乎都转向了**纯解码器(Decoder-only)**架构。 LLM 从预训练到日常使用,底层逻辑只有一个:基于前文,预测下一个最合理的词(专业名:因果语言建模)。我们看到的对话、长文、逻辑推理,全是靠这个逻辑逐字接龙拼出来的。
而解码器的「单向因果注意力」,就是为这个任务量身定做的,规则和「预测下一个词」100% 匹配:只能看前面的内容,猜后面的内容。它完全不需要额外的编码器做「输入理解」—— 因为输入的前文,本身就是解码器要理解的内容,解码器在猜下一个词的过程中,已经把前文彻底吃透了。
反过来看,双引擎的编码器在这里完全是多余的。比如你跟 LLM 说「帮我写一篇关于春天的作文」,没有需要单独处理的「源文本 A」,输入的这句话,既是需要理解的内容,也是生成的前文,解码器自己就能搞定,不需要再加一个编码器做「转换」。
LLM 的底层训练逻辑
LLM 的能力不是天生的,而是通过分阶段的训练,逐步从一个随机初始化的参数矩阵,成长为能流畅对话、解决问题的通用模型。完整的训练流程分为四大核心阶段,每个阶段都有明确的目标与技术逻辑。
预训练(Pre-training):模型的 “通识教育”
预训练是 LLM 能力的奠基阶段,这个阶段的核心目标,是让模型通过海量无标注文本,学习人类语言的底层规律与基础的世界知识,完成 “识字、学语法、懂常识” 的基础过程。
- 训练方式:采用自监督学习,核心任务是因果语言建模(CLM),也就是 “预测下一个 Token”。给模型输入一段文本,让它自主预测下一个最可能出现的词,再和真实文本对比,通过交叉熵损失函数计算误差,反向传播更新模型参数。
- 数据要求:预训练数据规模通常达到数万亿 Token,覆盖互联网网页、书籍、论文、代码、对话等多领域内容。同时需要经过严格的去重、质量过滤、有害内容剔除、隐私信息脱敏,数据的质量与广度,直接决定了模型的能力上限。
- 核心特点:这个阶段的模型,已经具备了强大的文本生成能力和知识储备,但它还不会 “和人类对话”,也不知道如何遵循人类的指令。比如你问它 “1+1 等于几”,它可能会继续生成 “1+1 等于几是小学数学的基础题,在数学中……”,而不是直接给出答案。
- 成本与规模:预训练是整个流程中算力消耗最大、成本最高的环节,千亿级参数模型的预训练,需要数千张 GPU/TPU 连续运行数月,成本可达数百万至数千万美元。
监督微调(SFT, Supervised Fine-Tuning):模型的 “指令学习”
这个阶段的核心目标,是让预训练完成的基础模型,学会遵循人类的指令,理解对话格式,适配人类的使用习惯,完成从 “文本生成器” 到 “对话助手” 的转变。
- 训练方式:采用监督学习,使用人工标注的高质量 “指令 - 回答” 配对数据,对模型进行微调。这些数据覆盖了问答、创作、代码、推理、摘要等各类场景,不仅标注了正确的回答,还规范了回答的格式、语气与思维逻辑。
- 核心价值:经过 SFT 后,模型会形成 “指令遵循” 的能力 —— 看到用户的提问,就知道需要给出针对性的回答,而不是无限制地续写文本。同时,模型还能通过数据学习到思维链(CoT)能力,学会分步拆解复杂问题,提升逻辑推理能力。
奖励建模(RM, Reward Modeling):把人类偏好 “量化”
经过 SFT 的模型,已经能完成基础对话,但同一个问题,模型可能生成多个回答,哪个更好、更符合人类的需求,模型本身无法判断。奖励建模的核心目标,就是训练一个专门的奖励模型,把人类的偏好、价值观、好坏判断,转换成模型可计算的量化分数。
- 训练方式:收集人类标注员对同一问题多个回答的偏好排序数据(比如 A 回答比 B 回答好,B 回答比 C 回答好),用这些排序数据训练奖励模型。最终训练完成的奖励模型,输入一段模型生成的回答,就能输出一个标量的奖励分数,分数越高,代表回答越符合人类偏好。
- 标注核心:人类标注的偏好维度,通常包括有用性、真实性、无害性、逻辑性、符合伦理等多个维度,这也是后续模型对齐人类价值观的核心依据。
人类对齐训练:让模型 “更贴合人类需求”
这个阶段是 LLM 训练的最后一步,核心目标是通过强化学习,让模型的生成内容最大化符合人类偏好,同时规避有害、虚假、偏见性内容,实现模型与人类意图的深度对齐。
- 经典方案:RLHF(人类反馈强化学习):以 SFT 模型为基础,采用 PPO(近端策略优化)强化学习算法,以奖励模型的分数为优化目标,对模型进行迭代优化。训练过程中,模型生成回答,奖励模型给出分数,强化学习算法根据分数更新模型参数,鼓励模型生成高分回答,同时通过 KL 散度惩罚,防止模型偏离 SFT 模型的基础能力,避免生成极端内容。
- 主流优化方案:DPO(直接偏好优化):相比 RLHF,DPO 简化了对齐流程,无需单独训练奖励模型和强化学习阶段,直接通过人类偏好排序数据,对模型进行端到端的优化。它训练更稳定、算力消耗更低、对齐效果更优,已经成为当前开源 LLM 的主流对齐方案。
关于 LLM 的常见认知误区
误区 1:LLM 具备真正的 “理解” 能力和主观意识
这是最常见的误区。LLM 本质上是一个统计预测模型,它的所有输出,都是基于学习到的语言规律,计算出的 “最合理的文本序列”。它没有主观意识,没有真正的 “理解”,也没有喜怒哀乐,更不会有主动的意图和想法。它能流畅地回答问题,不是因为它 “懂”,而是因为它知道 “这么说符合人类的语言习惯”。
误区 2:LLM 是一个巨型数据库,存储了所有训练数据
LLM 不会存储训练数据中的原文,它的参数里,只保存了从数据中学习到的语言统计规律、语义关联和知识的分布式表征。就像人类读完一本书,不会记住书中的每一句话,只会记住核心的知识与逻辑。这也是为什么 LLM 会出现 “幻觉”—— 生成看似合理、但与事实不符的内容,因为它不是在 “调取数据库里的事实”,而是在 “生成符合统计规律的文本”。
误区 3:参数越大,模型的效果一定越好
参数规模只是决定模型效果的因素之一,训练数据的质量、训练方法的优劣、对齐效果的好坏、工程优化的水平,都会直接影响模型的最终表现。很多经过高质量数据训练、深度优化的中小参数模型(如 7B-13B),在日常对话、特定领域任务中的表现,甚至能超越未经优化的百亿级大模型。同时,小模型的推理速度更快、部署成本更低,更适合规模化的产业落地。