青训营X豆包MarsCode技术训练营第五课之知识学习总结 | 豆包MarsCode AI刷题

36 阅读3分钟
掘金小册课程学习:
  • 语言模型,就是由计算机来实现类似于人的语言交流、对话、叙述能力,它集中体现在模型能够依赖上下文进行正确的文字输出。
  • ChatGPT训练语言模型的过程,就是ChatGPT模型预训练的过程。就是让模型根据上文,猜测下文最可能的内容,即文字接龙。
  • ChatGPT 的语言模型建模公式为:

log(P(U))=∑ilog(P(wi∣wi−k,wi−k+1,...,wi−1;Θ))

  • 最可能的内容,实际上是一种最大似然的准则来约束模型的训练目标。
N-gram语言建模
  • 通常,语言模型的建模公式采用n-gram模型。其含义就是就近原则,距离第i个字符相隔n个字符距离以上的,就不在考虑范围内了。
ChatGPT处理文字输入
  • Tokenizer 将模型输入的文字转换为 token 序列。

  • ChatGPT 使用了 BPE 算法实现 Tokenizer。

  • Embedding 将 token 序列映射为张量矩阵,方便模型进行张量矩阵运算。

流程:

  1. 输入处理:将文本转化为模型能够理解的格式。
  2. 上下文分析:根据输入和对话历史,理解问题的语义和背景。
  3. 模型推理:利用深度学习模型,生成与输入相关的答案或响应。
  4. 后处理:优化语法、风格和输出质量。
  5. 输出返回:生成最终回复,传递给用户。
ChatGPT的结构:Encoder-Decoder
  • 在 encoder-decoder 这种建模方式中,encoder 像极了一个人接收文字信息思考的过程,decoder 则像极了一个人将大脑中的信息转换成语言表达出来的过程。可以说,encoder-decoder 就是一种机器模拟人脑思考的方式。
  • ChatGPT 模型采用核搜索、温控搜索结合的方式生成输出结果,并基于 temperature 调节生成结果的随机性,值越大,随机性越强,值越小,生成的内容越固定。
  • ChatGPT 主要采用 Mask 掩码的方式,屏蔽掉不参与注意力计算的 token 位置。
  • Encoder-Decoder 架构:适合于机器翻译等任务,通过将输入序列编码成固定的表示,再由 Decoder 生成目标序列。
  • ChatGPT 的结构:采用了 Decoder-only Transformer(自回归模型),属于自回归生成模型,通过逐步生成文本来完成任务。

ChatGPT 的设计目标是生成式任务,如对话生成、问题回答等,这类任务通常是 自回归 的。具体来说:

  1. 上下文生成:在对话系统中,模型需要根据用户的输入以及之前的对话生成新的回应。模型的输出是基于之前的对话内容(即自回归),不需要将输入单独编码成一个固定的表示。
  2. 高效生成:使用 Decoder-only 架构使得生成过程更加高效。模型通过每次生成一个词的方式逐步扩展上下文,而不需要复杂的双向处理(如 Encoder-Decoder 结构中的编码和解码步骤)。
  3. 简化结构:ChatGPT 采用单一的 Decoder 结构,相比传统的 Encoder-Decoder 架构,减少了模型的复杂度,提高了推理效率。