青训营X豆包MarsCode 技术训练营第一课 | 豆包MarsCode AI 刷题

99 阅读2分钟

Encoder-Decoder 编器-解码器架构 1.实际上,encoder-decoder 这一套模型架构最早是用于解决机器翻译问题的,感兴趣的读者可以读一下这篇经典论文【2014:Neural Machine Translation by Jointly Learning to Align and Translate】。机器翻译模型接收一条英文语句,然后经过模型的一番操作,最后输出一条对应的中文翻译结果。这种建模最早被称为 seq2seq,其含义sequence to sequence,即序列到序列,输入一条文字序列,输出一条文字序列。 2.GPT 中的编解码架构 接下来,让我们来绘制一下,Transformer 是如何嵌入 GPT 的 encoder-decoder 架构中的。如下图所示,Transformer 模型结构中省略了 norm 正规化、残差计算和 dropout 模块。 3.Transformer 结构本身可以有很多层,每一层的输入 tensor 和输出 tensor 维度大小全部相同,前一层Transformer 的输出就可以作为下一层的输入,像罗列方块积木一样。直到最后一层。如下图所示,这里省略了 Transformer 内部的结构,展示了三层Transformer 结构。 4.所谓采样,简单理解就是掷骰子。我们都知道,一颗方形骰子有 6 个面,分别代表 1,2,3,4,5,6 几种选择。每次投掷,得到的结果是一次采样,每次的投掷结果均不同,每一种结果命中率都是六分之一。而在 ChatGPT 模型输出结果时,也以上述采样的方式,按照每个 token 对应的命中概率值进行随机抽取,只不过,可选择范围包含了 token 词表中所有的 token。这就说明了模型输出的结果具有随机性,并非每次都相同。 5.实际上,encoder-decoder 这一套模型架构最早是用于解决机器翻译问题的,感兴趣的读者可以读一下这篇经典论文【2014:Neural Machine Translation by Jointly Learning to Align and Translate】。机器翻译模型接收一条英文语句,然后经过模型的一番操作,最后输出一条对应的中文翻译结果。这种建模最早被称为 seq2seq,其含义为 sequence to sequence,即序列到序列,输入一条文字序列,输出一条文字序列。 6.束搜索 Beam Search与核搜索 Nucleus Search,温控搜索 Temperature Search 总结 ChatGPT 模型基于 encoder-decoder 模型架构进行建模。 ChatGPT 模型采用核搜索、温控搜索结合的方式生成输出结果,并基于 temperature 调节生成结果的随机性,值越大,随机性越强,值越小,生成的内容越固定。 ChatGPT 主要采用 Mask 掩码的方式,屏蔽掉不参与注意力计算的 token 位置。