青训营X豆包MarsCode技术训练营第五课之知识学习总结 | 豆包MarsCode AI刷题

用户27174767381

2024-11-27 36 阅读3分钟

掘金小册课程学习：

语言模型，就是由计算机来实现类似于人的语言交流、对话、叙述能力，它集中体现在模型能够依赖上下文进行正确的文字输出。
ChatGPT训练语言模型的过程，就是ChatGPT模型预训练的过程。就是让模型根据上文，猜测下文最可能的内容，即文字接龙。
ChatGPT 的语言模型建模公式为：

log(P(U))=∑ilog(P(wi∣wi−k,wi−k+1,...,wi−1;Θ))

最可能的内容，实际上是一种最大似然的准则来约束模型的训练目标。

N-gram语言建模

通常，语言模型的建模公式采用n-gram模型。其含义就是就近原则，距离第i个字符相隔n个字符距离以上的，就不在考虑范围内了。

ChatGPT处理文字输入

Tokenizer 将模型输入的文字转换为 token 序列。
ChatGPT 使用了 BPE 算法实现 Tokenizer。
Embedding 将 token 序列映射为张量矩阵，方便模型进行张量矩阵运算。

流程：

输入处理：将文本转化为模型能够理解的格式。
上下文分析：根据输入和对话历史，理解问题的语义和背景。
模型推理：利用深度学习模型，生成与输入相关的答案或响应。
后处理：优化语法、风格和输出质量。
输出返回：生成最终回复，传递给用户。

ChatGPT的结构：Encoder-Decoder

在 encoder-decoder 这种建模方式中，encoder 像极了一个人接收文字信息思考的过程，decoder 则像极了一个人将大脑中的信息转换成语言表达出来的过程。可以说，encoder-decoder 就是一种机器模拟人脑思考的方式。
ChatGPT 模型采用核搜索、温控搜索结合的方式生成输出结果，并基于 temperature 调节生成结果的随机性，值越大，随机性越强，值越小，生成的内容越固定。
ChatGPT 主要采用 Mask 掩码的方式，屏蔽掉不参与注意力计算的 token 位置。
Encoder-Decoder 架构：适合于机器翻译等任务，通过将输入序列编码成固定的表示，再由 Decoder 生成目标序列。
ChatGPT 的结构：采用了 Decoder-only Transformer（自回归模型），属于自回归生成模型，通过逐步生成文本来完成任务。

ChatGPT 的设计目标是生成式任务，如对话生成、问题回答等，这类任务通常是 自回归 的。具体来说：

上下文生成：在对话系统中，模型需要根据用户的输入以及之前的对话生成新的回应。模型的输出是基于之前的对话内容（即自回归），不需要将输入单独编码成一个固定的表示。
高效生成：使用 Decoder-only 架构使得生成过程更加高效。模型通过每次生成一个词的方式逐步扩展上下文，而不需要复杂的双向处理（如 Encoder-Decoder 结构中的编码和解码步骤）。
简化结构：ChatGPT 采用单一的 Decoder 结构，相比传统的 Encoder-Decoder 架构，减少了模型的复杂度，提高了推理效率。