大模型汇总大模型汇总 1 大模型训练过程数据收集：从网上、书籍等渠道收集海量原始文本数据。数据清洗与预处理：过滤垃圾

大模型汇总

1 大模型训练过程

1. 数据收集：从网上、书籍等渠道收集海量原始文本数据。
1. 数据清洗与预处理：过滤垃圾、重复、低质量内容，进行标准化处理。
1. 【核心阶段】数据切片（Tokenization & Chunking） ：
- 所在阶段：就在这里。这是构建训练样本的关键一步。
- 作用：将清洗后的长文本，切割成固定长度（如4K tokens）的片段。目的是为了适配模型的上下文窗口，保证每个训练样本长度一致，便于高效批量训练，同时尽量保持片段的语义连贯性。
1. 模型训练：将这些切片样本输入模型，通过预测下一个词的任务，不断调整模型参数，学习统计规律。
1. 评估与验证：在未训练过的数据上测试模型性能，评估其语言能力。

2 训练窗口

每一次的上下文章窗口，就是一次预测

3 资料切片

资料切片的作用： 就是：为这个“填空游戏”提供一道道标准化的题目。

4 大模型工作原理(提示词预测)

以关键词搜索 “人类简” 为例

1. Token化 (Tokenization)

输入提示词 (Prompt): “人类简”
过程: 分词器将这三个字拆分成模型能识别的最小单位（token）。假设我们的分词器将它们分成三个独立的字token。
结果: 得到3个token ID。假设我们的词汇表映射为：
人 -> ID: 5
类 -> ID: 7
简 -> ID: 2
输出: [5, 7, 2]

2. 向量化 (Embedding)

可以理解为向量是描述一个词的容器吧，可以放进去更多属性
- ID 5 对应的向量可能是 [0.5, 1.2, -0.1]
- ID 7 对应的向量可能是 [0.1, -0.5, 1.5]
- ID 2 对应的向量可能是 [-1.0, 0.5, 0.3]

3. 位置编码 (Positional Encoding)

举个例子：
句子 A: "狗咬了人"
句子 B: "人咬了狗"

对于自注意力机制来说，如果没有位置信息，它会把这两个句子看作是几乎相同的，因为它们都是由“狗”、“咬”、“了”、“人”这四个词组成的。但显然，这两个句子的含义天差地别。

[[0.6,  1.2, -0.1],
[0.1, -0.4,  1.5],
[-1.0, 0.5,  0.4]
]

4. Decoder (信息聚合)

通过聚合预测出下一个词组，
例如：输出 [史，查，单，思]

5.Linear (线性层/输出层)

根据信息聚合输出 [史，查，单，思] 依次打分
[史9.5，查2.2，单2.1，思1.0] 合计非100

6. Softmax（将分数转为概率）

过程：Softmax函数接收这个分数列表，把所有分数压缩转换成概率值，且所有概率之和为100%。
结果 [史9.5，查0.2，单0.2，思0.1]

最后输出 "史"

5 deepseek / chatgpt 问答大模型流程

## 接收与编码：

   您输入问题：“太阳为什么是亮的？”（问题转换成 tokens（词元），并进行深度理解和信息聚合，形成一个包含问题语义的“思维向量”）
   
   
## 生成第一个词

   它预测出概率最高的第一个词。假设是  **“因为”** （ 模型基于这个“思维向量”，通过输出层（Linear）和Softmax，在数万个候选词中计算概率。）
   
## 循环预测（关键步骤）：
    
    现在提示词变为：“太阳为什么是亮的？因为太阳”

## 继续循环，直到结束
    
    因为 -> 太阳 -> ...... -> 核聚变 -> 反应 
    
## 停止生成

   **因为太阳内部的无时无刻不在发生核聚变反应**