青训营X豆包MarsCode 技术训练营第一课｜豆包MarsCode AI 刷题Encoder-Decoder 编器

Encoder-Decoder 编器-解码器架构 1.实际上，encoder-decoder 这一套模型架构最早是用于解决机器翻译问题的，感兴趣的读者可以读一下这篇经典论文【2014：Neural Machine Translation by Jointly Learning to Align and Translate】。机器翻译模型接收一条英文语句，然后经过模型的一番操作，最后输出一条对应的中文翻译结果。这种建模最早被称为 seq2seq，其含义sequence to sequence，即序列到序列，输入一条文字序列，输出一条文字序列。 2.GPT 中的编解码架构接下来，让我们来绘制一下，Transformer 是如何嵌入 GPT 的 encoder-decoder 架构中的。如下图所示，Transformer 模型结构中省略了 norm 正规化、残差计算和 dropout 模块。 3.Transformer 结构本身可以有很多层，每一层的输入 tensor 和输出 tensor 维度大小全部相同，前一层Transformer 的输出就可以作为下一层的输入，像罗列方块积木一样。直到最后一层。如下图所示，这里省略了 Transformer 内部的结构，展示了三层Transformer 结构。 4.所谓采样，简单理解就是掷骰子。我们都知道，一颗方形骰子有 6 个面，分别代表 1，2，3，4，5，6 几种选择。每次投掷，得到的结果是一次采样，每次的投掷结果均不同，每一种结果命中率都是六分之一。而在 ChatGPT 模型输出结果时，也以上述采样的方式，按照每个 token 对应的命中概率值进行随机抽取，只不过，可选择范围包含了 token 词表中所有的 token。这就说明了模型输出的结果具有随机性，并非每次都相同。 5.实际上，encoder-decoder 这一套模型架构最早是用于解决机器翻译问题的，感兴趣的读者可以读一下这篇经典论文【2014：Neural Machine Translation by Jointly Learning to Align and Translate】。机器翻译模型接收一条英文语句，然后经过模型的一番操作，最后输出一条对应的中文翻译结果。这种建模最早被称为 seq2seq，其含义为 sequence to sequence，即序列到序列，输入一条文字序列，输出一条文字序列。 6.束搜索 Beam Search与核搜索 Nucleus Search，温控搜索 Temperature Search 总结 ChatGPT 模型基于 encoder-decoder 模型架构进行建模。 ChatGPT 模型采用核搜索、温控搜索结合的方式生成输出结果，并基于 temperature 调节生成结果的随机性，值越大，随机性越强，值越小，生成的内容越固定。 ChatGPT 主要采用 Mask 掩码的方式，屏蔽掉不参与注意力计算的 token 位置。

青训营X豆包MarsCode 技术训练营第一课 ｜ 豆包MarsCode AI 刷题

青训营X豆包MarsCode 技术训练营第一课｜豆包MarsCode AI 刷题