大模型原理探究0x04：全链路回顾Transformer整个流程回顾前面已经用了4篇文章讲了大模型原理，这一篇整体全链

回顾

前面已经用了4篇文章讲了大模型原理，这一篇整体全链路回顾一下。

全链路理解大模型

AI大模型诞生 -- 预训练
- 1.1 数据准备：收集数万亿级别的网页、书籍、代码、学术论文等文本，构成训练语料库。核心工程挑战在于数据质量清洗、去重、毒性过滤。
- 1.2 核心架构与训练：使用Transformer架构。其核心是自注意力机制，它让模型在处理任何一个词时，都能“看到”并权衡句子中所有其他词的重要性，从而理解上下文关系。
模型增强 -- 对其和微调
- 2.1 监督微调：使用高质量的指令-回答对数据，教模型理解并遵循人类指令格式。
- 2.2 人类反馈强化学习：这是让模型行为与人类价值观对齐的关键技术。让模型对同一指令生成多个回答，人工标注员对这些回答排序。基于这些偏好数据，训练一个 “奖励模型”，然后用强化学习（如PPO算法）微调大模型，使其输出能获得更高奖励。
模型干活 -- 部署和推理
- 3.1 输入处理：从文字到机器“能懂”的数字
  - 3.1.1 分词Token 将输入文本（如“你好，世界”）切分成模型词汇表中的基本单元
  - 3.1.2 向量化Embeeding 每个词被转换成一个高维数字向量（即词嵌入）。这个向量不仅代表词本身，还编码了它在训练中学到的语义和语法信息。
- 3.2 Transformer的“思考”过程
  - 3.2.1 SelfAttention 每个词的向量通过查询、键、值三组参数，与序列中所有词向量进行交互，动态计算注意力权重。这决定了在生成当前词时，应该“关注”上文哪些部分
  - 3.2.2 FFN前馈神经网络：对注意力输出进行非线性变换，增加模型的表达能力
  - 3.2.3 层层传递：经过数十甚至数百层的上述处理，信息被不断抽象和整合。浅层可能处理语法，深层则可能关联复杂的事实和逻辑。
- 3.3 模型输出 - 从机器数字到人类语言
  - 3.3.1 概率采样：模型最后一层输出一个在整个词表上的概率分布。我们不会总是选择概率最高的词（那会导致重复枯燥），而是通过温度调节、Top-p采样等技术进行随机但可控的采样，从而产生多样、有趣的文本。
  - 3.3.2 后处理与应用：在实际产品中，大模型通常作为后端引擎，被Agent框架、RAG系统等封装。例如，RAG会在模型处理前，先从外部知识库检索相关文档，将其作为附加输入，让模型生成有据可依的回答。

在整个流程中，词嵌入的变化过程是这样的：

Transformer可视化

github提供了了一个Transformer可视化的Web页面。在整体理解了Transformer原理后可以打开这个网站看看流程。

深度学习可视化

同样tensorflow也提供了一个深度学习可视化的网站。自己可以体验一下。