《从前端到 Agent》系列｜01：LLM 核心原理与推理计算本文为 AI 学习笔记，系统讲解 LLM 大语言模型原理。

从前端到Agent｜第一章：LLM 原理与计算流程

什么是LLM? 🤖

LLM的全称是Large Language Model。从技术本质来看，LLM 是基于深度学习构建、以 Transformer 架构为核心，通过海量文本数据进行自监督预训练，能够理解、生成人类语言，并完成各类文本相关任务的大规模生成式概率模型。它的核心工作逻辑是 “基于前文语境，预测下一个最合理的词元（Token）”。

我们看到的连贯对话、长文生成、逻辑推理，本质上都是模型通过逐词概率预测，自回归拼接而成的文本序列。它不是存储知识的数据库，也不是具备主观意识的智能体，而是一个学习了人类语言统计规律、语义关联与世界知识的巨型统计预测机。

LLM 核心释义拆解

Large（大）：指的是模型的规模巨大。它拥有数千亿个参数（可以理解为模型大脑中的神经元连接），并学习了互联网上几乎所有的文本数据。
Language（语言）: 它的核心任务是理解、生成和处理人类语言，而不只是简单的代码或数学公式。
Model（模型）: 它本质上是一个复杂的数学函数，通过模拟人脑神经元的结构（神经网络）来处理信息。

底层逻辑：概率的“接龙游戏” 🎲

LLM 的核心逻辑其实非常纯粹：预测下一个标记（Next Token Prediction）。当你给模型输入一段话时，它并不是像百科全书一样去查找答案，而是基于它学过的海量知识，去计算哪一个字或词在当前语境下出现的概率最高。

LLM 核心计算四步骤

步骤	逻辑描述	形象比喻
1. 输入处理	将文字转化为向量（一组数字）。	把文字翻译成模型能懂的“数字密码”。
2. 上下文分析	利用 Transformer 架构中的“注意力机制”，分析输入中各个词的关系。	像读书一样，通过上下文确定“苹果”是指水果还是公司。
3. 概率计算	计算词库中所有词作为下一个词的可能性。	在脑中搜索成千上万个备选词。
4. 输出生成	选择概率最高的词输出，并将其作为新输入的一部分，继续预测。	玩一场极其精准的文字接龙。

Transformer 架构 🧠

当代所有主流 LLM（GPT 系列、LLaMA 系列、Claude、Qwen 等），其底层架构均基于 2017 年 Google 团队在《Attention Is All You Need》论文中提出的 Transformer 架构，并非完全照搬，而是在其基础上进行了适配性优化。Transformer 架构是现代大语言模型的“心脏”和“大脑”，核心逻辑是通过并行处理提升效率，通过注意力分配精准捕捉语义关联。

Transformer 核心优势

全景视角 (Parallelism)：Transformer 不再按顺序逐词读取文本，而是同时观察整个句子或段落，大幅提升信息处理速度，这也是其相比传统RNN、LSTM架构的核心优势。
自注意力机制 (Self-Attention) 🧠：这是它的“秘密武器”。当模型读到“苹果”这类多义词时，会通过注意力机制“环顾”周围的词——若旁边有“手机”，则判定为科技公司；若有“好吃”，则判定为水果，从而精准理解语义。
位置编码 (Positional Encoding) 📍：由于Transformer同时处理所有词，为避免混淆词序（如“人咬狗”和“狗咬人”语义完全不同），它会给每个词打上专属“位置标签”，确保语义逻辑不混乱。

自注意力机制（Self-Attention）

自注意力机制是 Transformer 的灵魂，核心解决了 AI 阅读时“如何划重点”“如何关联上下文”的问题。简单来说，当模型处理一个词时，自注意力机制会让它“环顾四周”，精准识别句子中与当前词关系最紧密的内容，从而理解其具体语义。

核心逻辑：Query, Key 和 Value 🏷️

为实现这种“环顾关联”，模型为每个词分配了三个核心身份，我们可以用图书馆找书的场景做通俗类比：

身份	术语	形象比喻	实际作用
查询量	Query (Q)	🔍 搜索词	“我正在找什么信息？”（当前词的需求）
键值	Key (K)	🏷️ 书名/标签	“我这里有什么信息？”（其他词的特征）
数值	Value (V)	📖 书的内容	“如果我被选中，我能提供什么？”（词的实际含义）

具体计算过程分为三步，逻辑闭环清晰：

匹配：拿当前词的 Q 去和句中所有词的 K进行匹配，计算相似度（得分）。
分配权重：得分越高，说明两个词关系越近，分配的注意力权重就越大。
加权求和：根据权重，把所有词的 V 融合在一起，生成当前词的新表示。

举个例子：“动物没有过马路，因为它太累了。”

当模型处理“它”这个词时：

如果模型注意到“动物”，它会发现“动物”和“累”的关联度很高，于是给“动物”分配很高的注意力权重。
这样，“它”在模型的理解中就被紧紧地关联到了“动物”上，而不是“马路”。

多头注意力 (Multi-Head Attention) 🐲

如果说自注意力是让模型长了“一双眼睛”，那么多头注意力就是让模型长了“很多双眼睛”，并且每双眼睛盯着不同的地方：

第一双眼：专门盯着语法结构（比如谁是主语，谁是谓语）。
第二双眼：专门盯着语义关联（比如“宽”和“马路”的逻辑关系）。
第三双眼：专门盯着情感色彩（这段话是褒义还是贬义）。

最后，Transformer 会把这些“眼睛”看到的所有信息汇总在一起，形成对这个句子最全面的理解。

编码器（Encoder）与解码器（Decoder）🏗️

我们要深入了解 Encoder（编码器）和 Decoder（解码器），可以把整个 Transformer 想象成一个高效的翻译官团队。在最初的设计中，Transformer 是为了解决机器翻译任务而诞生的。它由两大部分组成，分工非常明确：

编码器 (Encoder)：负责“理解” 🧐

编码器的任务是把输入的句子（比如一句英文）读进去，并把它转化为一种机器能理解的“深层语义表示”。

全局观察：它会同时看整个句子，利用我们之前聊过的自注意力机制，理清词与词之间的关系。
特征提取：它最终会生成一个包含所有语境信息的“语义矩阵”。
比喻：就像一个阅读理解高手，读完一段话后，脑子里形成了一幅清晰的逻辑地图。

解码器 (Decoder)：负责“生成” ✍️

解码器的任务是根据编码器提供的“地图”，一个词一个词地蹦出结果（比如对应的中文）。

承上启下：它不仅要看已经写出来的词（自注意力），还要不断去问编码器：“喂，原文这里是什么意思？”（这被称为交叉注意力 Cross-Attention）。
单向预测：与编码器不同，解码器在生成时只能看到之前的词，不能偷看后面的答案。
比喻：就像一个作家，一边回忆阅读高手给的地图，一边根据已经写好的情节，推测下一个词该写什么。

虽然原始的 Transformer 是由编码器和解码器组成的“双引擎”结构，但以 GPT 为代表的现代大语言模型几乎都转向了**纯解码器（Decoder-only）**架构。 LLM 从预训练到日常使用，底层逻辑只有一个：基于前文，预测下一个最合理的词（专业名：因果语言建模）。我们看到的对话、长文、逻辑推理，全是靠这个逻辑逐字接龙拼出来的。

而解码器的「单向因果注意力」，就是为这个任务量身定做的，规则和「预测下一个词」100% 匹配：只能看前面的内容，猜后面的内容。它完全不需要额外的编码器做「输入理解」—— 因为输入的前文，本身就是解码器要理解的内容，解码器在猜下一个词的过程中，已经把前文彻底吃透了。

反过来看，双引擎的编码器在这里完全是多余的。比如你跟 LLM 说「帮我写一篇关于春天的作文」，没有需要单独处理的「源文本 A」，输入的这句话，既是需要理解的内容，也是生成的前文，解码器自己就能搞定，不需要再加一个编码器做「转换」。

LLM 的底层训练逻辑

LLM 的能力不是天生的，而是通过分阶段的训练，逐步从一个随机初始化的参数矩阵，成长为能流畅对话、解决问题的通用模型。完整的训练流程分为四大核心阶段，每个阶段都有明确的目标与技术逻辑。

预训练（Pre-training）：模型的 “通识教育”

预训练是 LLM 能力的奠基阶段，这个阶段的核心目标，是让模型通过海量无标注文本，学习人类语言的底层规律与基础的世界知识，完成 “识字、学语法、懂常识” 的基础过程。

训练方式：采用自监督学习，核心任务是因果语言建模（CLM），也就是 “预测下一个 Token”。给模型输入一段文本，让它自主预测下一个最可能出现的词，再和真实文本对比，通过交叉熵损失函数计算误差，反向传播更新模型参数。
数据要求：预训练数据规模通常达到数万亿 Token，覆盖互联网网页、书籍、论文、代码、对话等多领域内容。同时需要经过严格的去重、质量过滤、有害内容剔除、隐私信息脱敏，数据的质量与广度，直接决定了模型的能力上限。
核心特点：这个阶段的模型，已经具备了强大的文本生成能力和知识储备，但它还不会 “和人类对话”，也不知道如何遵循人类的指令。比如你问它 “1+1 等于几”，它可能会继续生成 “1+1 等于几是小学数学的基础题，在数学中……”，而不是直接给出答案。
成本与规模：预训练是整个流程中算力消耗最大、成本最高的环节，千亿级参数模型的预训练，需要数千张 GPU/TPU 连续运行数月，成本可达数百万至数千万美元。

监督微调（SFT, Supervised Fine-Tuning）：模型的 “指令学习”

这个阶段的核心目标，是让预训练完成的基础模型，学会遵循人类的指令，理解对话格式，适配人类的使用习惯，完成从 “文本生成器” 到 “对话助手” 的转变。

训练方式：采用监督学习，使用人工标注的高质量 “指令 - 回答” 配对数据，对模型进行微调。这些数据覆盖了问答、创作、代码、推理、摘要等各类场景，不仅标注了正确的回答，还规范了回答的格式、语气与思维逻辑。
核心价值：经过 SFT 后，模型会形成 “指令遵循” 的能力 —— 看到用户的提问，就知道需要给出针对性的回答，而不是无限制地续写文本。同时，模型还能通过数据学习到思维链（CoT）能力，学会分步拆解复杂问题，提升逻辑推理能力。

奖励建模（RM, Reward Modeling）：把人类偏好 “量化”

经过 SFT 的模型，已经能完成基础对话，但同一个问题，模型可能生成多个回答，哪个更好、更符合人类的需求，模型本身无法判断。奖励建模的核心目标，就是训练一个专门的奖励模型，把人类的偏好、价值观、好坏判断，转换成模型可计算的量化分数。

训练方式：收集人类标注员对同一问题多个回答的偏好排序数据（比如 A 回答比 B 回答好，B 回答比 C 回答好），用这些排序数据训练奖励模型。最终训练完成的奖励模型，输入一段模型生成的回答，就能输出一个标量的奖励分数，分数越高，代表回答越符合人类偏好。
标注核心：人类标注的偏好维度，通常包括有用性、真实性、无害性、逻辑性、符合伦理等多个维度，这也是后续模型对齐人类价值观的核心依据。

人类对齐训练：让模型 “更贴合人类需求”

这个阶段是 LLM 训练的最后一步，核心目标是通过强化学习，让模型的生成内容最大化符合人类偏好，同时规避有害、虚假、偏见性内容，实现模型与人类意图的深度对齐。

经典方案：RLHF（人类反馈强化学习）：以 SFT 模型为基础，采用 PPO（近端策略优化）强化学习算法，以奖励模型的分数为优化目标，对模型进行迭代优化。训练过程中，模型生成回答，奖励模型给出分数，强化学习算法根据分数更新模型参数，鼓励模型生成高分回答，同时通过 KL 散度惩罚，防止模型偏离 SFT 模型的基础能力，避免生成极端内容。
主流优化方案：DPO（直接偏好优化）：相比 RLHF，DPO 简化了对齐流程，无需单独训练奖励模型和强化学习阶段，直接通过人类偏好排序数据，对模型进行端到端的优化。它训练更稳定、算力消耗更低、对齐效果更优，已经成为当前开源 LLM 的主流对齐方案。

关于 LLM 的常见认知误区

误区 1：LLM 具备真正的 “理解” 能力和主观意识

这是最常见的误区。LLM 本质上是一个统计预测模型，它的所有输出，都是基于学习到的语言规律，计算出的 “最合理的文本序列”。它没有主观意识，没有真正的 “理解”，也没有喜怒哀乐，更不会有主动的意图和想法。它能流畅地回答问题，不是因为它 “懂”，而是因为它知道 “这么说符合人类的语言习惯”。

误区 2：LLM 是一个巨型数据库，存储了所有训练数据

LLM 不会存储训练数据中的原文，它的参数里，只保存了从数据中学习到的语言统计规律、语义关联和知识的分布式表征。就像人类读完一本书，不会记住书中的每一句话，只会记住核心的知识与逻辑。这也是为什么 LLM 会出现 “幻觉”—— 生成看似合理、但与事实不符的内容，因为它不是在 “调取数据库里的事实”，而是在 “生成符合统计规律的文本”。

误区 3：参数越大，模型的效果一定越好

参数规模只是决定模型效果的因素之一，训练数据的质量、训练方法的优劣、对齐效果的好坏、工程优化的水平，都会直接影响模型的最终表现。很多经过高质量数据训练、深度优化的中小参数模型（如 7B-13B），在日常对话、特定领域任务中的表现，甚至能超越未经优化的百亿级大模型。同时，小模型的推理速度更快、部署成本更低，更适合规模化的产业落地。