大模型汇总
1 大模型训练过程
-
- 数据收集:从网上、书籍等渠道收集海量原始文本数据。
-
- 数据清洗与预处理:过滤垃圾、重复、低质量内容,进行标准化处理。
-
-
【核心阶段】数据切片(Tokenization & Chunking) :
- 所在阶段:就在这里。这是构建训练样本的关键一步。
- 作用:将清洗后的长文本,切割成固定长度(如4K tokens)的片段。目的是为了适配模型的上下文窗口,保证每个训练样本长度一致,便于高效批量训练,同时尽量保持片段的语义连贯性。
-
-
- 模型训练:将这些切片样本输入模型,通过预测下一个词的任务,不断调整模型参数,学习统计规律。
-
- 评估与验证:在未训练过的数据上测试模型性能,评估其语言能力。
2 训练窗口
每一次的上下文章窗口,就是一次预测
3 资料切片
资料切片的作用: 就是:为这个“填空游戏”提供一道道标准化的题目。
4 大模型工作原理(提示词预测)
- 以关键词搜索 “人类简” 为例
1. Token化 (Tokenization)
-
输入提示词 (Prompt):
“人类简” -
过程: 分词器将这三个字拆分成模型能识别的最小单位(token)。假设我们的分词器将它们分成三个独立的字token。
-
结果: 得到3个token ID。假设我们的词汇表映射为:
-
人-> ID:5 -
类-> ID:7 -
简-> ID:2 -
输出:
[5, 7, 2]
2. 向量化 (Embedding)
-
可以理解为 向量是描述一个词的容器吧,可以放进去更多属性
- ID
5对应的向量可能是[0.5, 1.2, -0.1] - ID
7对应的向量可能是[0.1, -0.5, 1.5] - ID
2对应的向量可能是[-1.0, 0.5, 0.3]
- ID
3. 位置编码 (Positional Encoding)
-
举个例子:
-
句子 A: "狗 咬 了 人"
-
句子 B: "人 咬 了 狗"
对于自注意力机制来说,如果没有位置信息,它会把这两个句子看作是几乎相同的,因为它们都是由“狗”、“咬”、“了”、“人”这四个词组成的。但显然,这两个句子的含义天差地别。
[[0.6, 1.2, -0.1],
[0.1, -0.4, 1.5],
[-1.0, 0.5, 0.4]
]
4. Decoder (信息聚合)
-
通过聚合预测出下一个词组,
-
例如: 输出 [史,查,单,思]
5.Linear (线性层/输出层)
-
根据信息聚合输出 [史,查,单,思] 依次打分
-
[史9.5,查2.2,单2.1,思1.0] 合计非100
6. Softmax(将分数转为概率)
-
过程:Softmax函数接收这个分数列表,把所有分数压缩转换成概率值,且所有概率之和为100%。
-
结果 [史9.5,查0.2,单0.2,思0.1]
最后输出 "史"
5 deepseek / chatgpt 问答大模型流程
## 接收与编码:
您输入问题:“太阳为什么是亮的?”(问题转换成 tokens(词元),并进行深度理解和信息聚合,形成一个包含问题语义的“思维向量”)
## 生成第一个词
它预测出概率最高的第一个词。假设是 **“因为”** ( 模型基于这个“思维向量”,通过输出层(Linear)和Softmax,在数万个候选词中计算概率。)
## 循环预测(关键步骤):
现在提示词变为:“太阳为什么是亮的?因为太阳”
## 继续循环,直到结束
因为 -> 太阳 -> ...... -> 核聚变 -> 反应
## 停止生成
**因为太阳内部的无时无刻不在发生核聚变反应**