大模型汇总

344 阅读3分钟

大模型汇总

1 大模型训练过程

    1. 数据收集:从网上、书籍等渠道收集海量原始文本数据。
    1. 数据清洗与预处理:过滤垃圾、重复、低质量内容,进行标准化处理。
    1. 【核心阶段】数据切片(Tokenization & Chunking)

    • 所在阶段:就在这里。这是构建训练样本的关键一步。
    • 作用:将清洗后的长文本,切割成固定长度(如4K tokens)的片段。目的是为了适配模型的上下文窗口,保证每个训练样本长度一致,便于高效批量训练,同时尽量保持片段的语义连贯性。
    1. 模型训练:将这些切片样本输入模型,通过预测下一个词的任务,不断调整模型参数,学习统计规律。
    1. 评估与验证:在未训练过的数据上测试模型性能,评估其语言能力。

2 训练窗口

每一次的上下文章窗口,就是一次预测

3 资料切片

资料切片的作用: 就是:为这个“填空游戏”提供一道道标准化的题目。

4 大模型工作原理(提示词预测)

  • 以关键词搜索 “人类简” 为例
1. Token化 (Tokenization)
  • 输入提示词 (Prompt):  “人类简”

  • 过程:  分词器将这三个字拆分成模型能识别的最小单位(token)。假设我们的分词器将它们分成三个独立的字token。

  • 结果:  得到3个token ID。假设我们的词汇表映射为:

  •  -> ID: 5

  •  -> ID: 7

  •  -> ID: 2

  • 输出:  [5, 7, 2]

2. 向量化 (Embedding)
  • 可以理解为 向量是描述一个词的容器吧,可以放进去更多属性

    • ID 5 对应的向量可能是 [0.5, 1.2, -0.1]
    • ID 7 对应的向量可能是 [0.1, -0.5, 1.5]
    • ID 2 对应的向量可能是 [-1.0, 0.5, 0.3]
3. 位置编码 (Positional Encoding)
  • 举个例子:

  • 句子 A: "狗 咬 了 人"

  • 句子 B: "人 咬 了 狗"

对于自注意力机制来说,如果没有位置信息,它会把这两个句子看作是几乎相同的,因为它们都是由“狗”、“咬”、“了”、“人”这四个词组成的。但显然,这两个句子的含义天差地别。

[[0.6,  1.2, -0.1],
[0.1, -0.4,  1.5],
[-1.0, 0.5,  0.4]
]  
4. Decoder (信息聚合)
  • 通过聚合预测出下一个词组,

  • 例如: 输出 [史,查,单,思]

5.Linear (线性层/输出层)
  • 根据信息聚合输出 [史,查,单,思] 依次打分

  • [史9.5,查2.2,单2.1,思1.0] 合计非100

6. Softmax(将分数转为概率)

  • 过程:Softmax函数接收这个分数列表,把所有分数压缩转换成概率值,且所有概率之和为100%。

  • 结果 [史9.5,查0.2,单0.2,思0.1]

最后输出 "史"

5 deepseek / chatgpt 问答大模型流程

## 接收与编码:

   您输入问题:“太阳为什么是亮的?”(问题转换成 tokens(词元),并进行深度理解和信息聚合,形成一个包含问题语义的“思维向量”)
   
   
## 生成第一个词

   它预测出概率最高的第一个词。假设是  **“因为”** ( 模型基于这个“思维向量”,通过输出层(Linear)和Softmax,在数万个候选词中计算概率。)
   
## 循环预测(关键步骤):
    
    现在提示词变为:“太阳为什么是亮的?因为太阳”

## 继续循环,直到结束
    
    因为 -> 太阳 -> ...... -> 核聚变 -> 反应 
    
## 停止生成

   **因为太阳内部的无时无刻不在发生核聚变反应**