大模型理论基础/引言

125 阅读1分钟

什么是语言模型

语言模型是token序列的概率分布,概率大的序列作为输出序列

自回归语言模型

由概率的链式法则得到序列 x1:Lx_{1:L} 的联合分布 p(x1:L)p(x_{1:L})

p(x1:L)=p(x1)p(x2x1)p(x3x1,x2)p(xLx1:L1)=i=1Lp(xix1:i1).p(x_{1:L}) = p(x_1) p(x_2 \mid x_1) p(x_3 \mid x_1, x_2) \cdots p(x_L \mid x_{1:L-1}) = \prod_{i=1}^L p(x_i \mid x_{1:i-1}).

p(x1)p(x_1)逐个token求到p(x1:L)p(x_{1:L})即自回归

 for i=1,,L:xip(xix1:i1)1/T,\begin{aligned} \text { for } i & =1, \ldots, L: \\ x_i & \sim p\left(x_i \mid x_{1: i-1}\right)^{1 / T}, \end{aligned}

T≥0 是一个控制我们希望从语言模型中得到多少随机性的温度参数,T越大概率越平均,结果越随机

  • T=0:确定性地在每个位置 i 选择最可能的令牌 x_{i}
  • T=1:从纯语言模型“正常(normally)”采样
  • T=∞:从整个词汇表上的均匀采样

重新标准化分布来令概率之和为1时即退货条件概率分布pT(xix1:i1)p(xix1:i1)1/Tp_{T}(x_{i}∣x_{1:i−1})∝p(x_{i}∣x_{1:i−1})^{1/T}

非自回归的条件生成:直接由某个前缀序列 x1:ix_{1:i} (称为提示)采样其余的 xi+1:Lx_{i+1:L} (称为补全)来进行条件生成。例如,生成 T=0 的产生的:

the,mouse,atepromptT=0the,cheesecompletion.\underbrace{{the}, {mouse}, {ate}}_\text{prompt} \stackrel{T=0}{\leadsto} \underbrace{{the}, {cheese}}_\text{completion}.

将温度改为 T=1 ,可以得到更多的多样性

N-gram模型

只由之前相邻n个token而非所有决定当前token的预测概率 由于不适合长句子只捕获局部依赖,被局限在语音识别和机器翻译

能力

问答 类比 文章生成 上下文学习