大模型能给定一个prompt生成符合需求的结果

prompt \leadsto completion

两个概念：

分词

分词器将任意字符串转换为标记序列：the mouse ate the cheese $\Rightarrow [the, mouse, ate, the, cheese]$

模型架构

在实践中，对于专门的任务来说，避免生成整个序列的生成模型可能更高效。标记的上下文向量表征取决于其上下文（周围的单词）。例如，考虑mouse的向量表示需要关注到周围某个窗口大小的其他单词。

[the, mouse, ate, the, cheese] \stackrel{\phi}{\Rightarrow}\left[\left(\begin{array}{c} 1 \\ 0.1 \end{array}\right),\left(\begin{array}{l} 0 \\ 1 \end{array}\right),\left(\begin{array}{l} 1 \\ 1 \end{array}\right),\left(\begin{array}{c} 1 \\ -0.1 \end{array}\right),\left(\begin{array}{c} 0 \\ -1 \end{array}\right)\right].

BERT、RoBERTa

这些语言模型生成上下文向量表征，但不能直接用于生成文本。可以表示为， $x_{1:L}⇒ϕ(x_{1:L})$ 通常用于分类任务

双向地依赖

GPT系列

上下文向量表征只能单向地依赖于左侧上下文 $(x_{1:i−1})$ 。

Transformer BART T5

使用双向上下文向量表征来处理输入 $x_{1:L}$ ，并且可以生成输出 $y_{1:L}$ 。需要更多的特定训练目标

$TransformerBlock(x_{1:L})$

$EmbedToken$ 函数通过在嵌入矩阵 $E∈ℝ^{|v|×d}$ 中查找每个标记所对应的向量，该向量的具体值这是从数据中学习的参数：

def $EmbedToken(x_{1:L}:V^{L})→ℝ^{d×L}$ ：

以上的词嵌入是传统的词嵌入，向量内容与上下文无关。这里我们定义一个抽象的 $SequenceModel$ 函数，它接受这些上下文无关的嵌入，并将它们映射为上下文相关的嵌入。

$def SequenceModel(x_{1:L}:ℝ^{d×L})→ℝ^{d×L}$ ：

最简单类型的序列模型基于前馈网络（Bengio等人，2003），应用于固定长度的上下文，就像n-gram模型一样，函数的实现如下：

def $FeedForwardSequenceModel(x_{1:L}:ℝ^{d×L})→ℝ^{d×L}$ ：

RNN、LSTM和GRU

def $SequenceRNN(x:ℝ^{d×L})→ℝ^{d×L}$ ：

def $Attention(x_{1:L}:ℝ^{d×L},y:ℝ^d)→ℝ^d$ ：

通过将其与每个 $x_{i}$ 进行比较来处理 $y$ 。
返回 $W_{value} x_{1: L} \operatorname{softmax}\left(x_{1: L}^{\top} W_{key}^{\top} W_{query} y / \sqrt{d}\right)$