大模型原理探究0x04:全链路回顾Transformer整个流程

0 阅读3分钟

回顾

前面已经用了4篇文章讲了大模型原理,这一篇整体全链路回顾一下。

  1. 大模型原理探究0x00:大模型每次给出的答案为什么都有所不同?

  2. 大模型原理0x01:大模型是怎么读懂人类语言的(1-词汇)?

  3. 大模型原理探究0x02:大模型是怎么读懂人类语言的(2-句子)?

  4. # 大模型原理探究0x03:大模型是怎么给出回答的?

全链路理解大模型

image.png

  1. AI大模型诞生 -- 预训练
    • 1.1 数据准备:收集数万亿级别的网页、书籍、代码、学术论文等文本,构成训练语料库。核心工程挑战在于数据质量清洗、去重、毒性过滤

    • 1.2 核心架构与训练:使用Transformer架构。其核心是自注意力机制,它让模型在处理任何一个词时,都能“看到”并权衡句子中所有其他词的重要性,从而理解上下文关系。

  2. 模型增强 -- 对其和微调
    • 2.1 监督微调:使用高质量的指令-回答对数据,教模型理解并遵循人类指令格式。

    • 2.2 人类反馈强化学习:这是让模型行为与人类价值观对齐的关键技术。让模型对同一指令生成多个回答,人工标注员对这些回答排序。基于这些偏好数据,训练一个 “奖励模型”,然后用强化学习(如PPO算法)微调大模型,使其输出能获得更高奖励。

  3. 模型干活 -- 部署和推理
    • 3.1 输入处理:从文字到机器“能懂”的数字
      • 3.1.1 分词Token 将输入文本(如“你好,世界”)切分成模型词汇表中的基本单元

      • 3.1.2 向量化Embeeding 每个词被转换成一个高维数字向量(即词嵌入)。这个向量不仅代表词本身,还编码了它在训练中学到的语义和语法信息。

    • 3.2 Transformer的“思考”过程
      • 3.2.1 SelfAttention 每个词的向量通过查询、键、值三组参数,与序列中所有词向量进行交互,动态计算注意力权重。这决定了在生成当前词时,应该“关注”上文哪些部分

      • 3.2.2 FFN前馈神经网络:对注意力输出进行非线性变换,增加模型的表达能力

      • 3.2.3 层层传递:经过数十甚至数百层的上述处理,信息被不断抽象和整合。浅层可能处理语法,深层则可能关联复杂的事实和逻辑。

    • 3.3 模型输出 - 从机器数字到人类语言
      • 3.3.1 概率采样:模型最后一层输出一个在整个词表上的概率分布。我们不会总是选择概率最高的词(那会导致重复枯燥),而是通过温度调节、Top-p采样等技术进行随机但可控的采样,从而产生多样、有趣的文本。

      • 3.3.2 后处理与应用:在实际产品中,大模型通常作为后端引擎,被Agent框架、RAG系统等封装。例如,RAG会在模型处理前,先从外部知识库检索相关文档,将其作为附加输入,让模型生成有据可依的回答。

Transformer可视化

github提供了了一个Transformer可视化的Web页面。在整体理解了Transformer原理后可以打开这个网站看看流程。

image.png

image.png

image.png

image.png