有很多问号之“为什么Prompt会生效”

195 阅读1分钟

简单一句话,大模型会顺着你的Prompt做“成语接龙”。 但是作为一个有探知欲的你,一定想知道大模型如何做“成语接龙”的。

Prompt在Transformer中的作用

Prompt是一个输入文本,它用来引导大模型生成相应的输出。这个输入文本可以是一个问题、一个句子的一部分,或者任何其他形式的文本。

Transformer架构是大模型(如GPT-3)的核心,包括两个主要部分:编码器(Encoder)和解码器(Decoder)。不过,像GPT-3这样的模型实际上只使用了解码器部分。

当你提供一个Prompt时,这个Prompt会被转换成一系列的向量表示,这些向量表示了文本的语义信息。这些向量会被输入到Transformer的解码器中。

解码器利用自注意力机制(Self-Attention Mechanism)来理解Prompt的上下文。这种机制允许模型在生成每个词时,考虑到Prompt中的所有其他词,从而更好地理解其含义。

生成预测

Prompt进入到大模型之后,基于对Prompt的理解,解码器会预测下一个最可能的词。这个预测过程是逐步进行的:

  1. 初始输入:将Prompt embedding之后通过Q、K、V的处理,生成有自注意力的输入
  2. 逐步生成:解码器先嵌入Prompt的自注意输入,循环叠加后续的生成。
  3. 循环过程:这个过程会循环进行,直到生成完整的输出或达到预设的长度限制

结论

Prompt本质上是现在Transformer中预加载一部分加入自注意力的输入,让大模型能借由这个上文继续预测输出。