学习笔记 | 豆包MarsCode AI刷题

160 阅读2分钟

GPT模型架构与解码机制学习笔记

一、编码器-解码器架构概述

Encoder-Decoder架构最初源于机器翻译领域,是一种序列到序列(seq2seq)的建模方式。这种架构模拟了人类接收信息、思考和表达的过程:

  • Encoder负责接收和理解信息
  • Decoder负责将理解后的信息转化为输出

值得注意的是,这种架构并不局限于特定模型结构,可以使用Transformer、RNN等不同的具体实现。GPT模型选择只使用了decoder部分,并采用Transformer作为基础结构。

二、GPT的核心处理流程

  1. 输入处理
  • 将文本转换为token序列
  • 结合token embedding和position embedding
  • 输入到多层Transformer结构
  1. Transformer处理
  • 每层Transformer保持输入输出维度相同
  • 多层串联形成深层网络结构
  • 最后输出K维向量(K为词表大小)
  1. 输出生成
  • 通过softmax转换为概率分布
  • 使用各种解码策略选择输出token
  • 循环生成直到遇到标记

三、解码策略详解

1. 贪婪搜索(Greedy Search)

  • 最简单的策略
  • 每次选择概率最高的token
  • 缺点是可能错过其他合理选择

2. 束搜索(Beam Search)

  • 保留多个概率较高的候选项
  • 可以避免贪婪搜索的局限性
  • 需要预设beam size参数

3. 核搜索(Nucleus Search)

  • 基于累积概率阈值选择候选集
  • 通过top_p参数控制
  • 更灵活的选择机制

4. 温控搜索(Temperature Search)

  • 通过温度参数调节概率分布
  • 温度越低,输出越确定
  • 温度越高,输出越随机

四、关键技术细节

1. 特殊Token处理

  • 标记序列结束
  • 处理变长序列
  • 保证模型处理固定长度输入

2. Mask机制

  • 屏蔽无关token的注意力计算
  • 实现稀疏注意力机制
  • 提高计算效率

五、ChatGPT的实践应用

ChatGPT实际采用了核搜索和温控搜索的组合策略:

  • 通过top_p控制候选token范围
  • 用temperature调节输出随机性
  • 在保证输出质量的同时维持适度的创造性

总结与思考

GPT模型通过精心设计的架构和解码策略,实现了高质量的文本生成。其中:

  1. 架构设计注重实用性和效率
  2. 多样的解码策略提供了灵活性
  3. 特殊处理机制保证了模型的稳定性

这些技术的组合使得GPT能够产生连贯、合理且富有创造性的文本输出。理解这些机制对于更好地使用和改进语言模型具有重要意义。