什么是语言模型
语言模型是token序列的概率分布,概率大的序列作为输出序列
自回归语言模型
由概率的链式法则得到序列 x1:L 的联合分布 p(x1:L) :
p(x1:L)=p(x1)p(x2∣x1)p(x3∣x1,x2)⋯p(xL∣x1:L−1)=i=1∏Lp(xi∣x1:i−1).
由p(x1)逐个token求到p(x1:L)即自回归
for ixi=1,…,L:∼p(xi∣x1:i−1)1/T,
T≥0 是一个控制我们希望从语言模型中得到多少随机性的温度参数,T越大概率越平均,结果越随机
- T=0:确定性地在每个位置 i 选择最可能的令牌 x_{i}
- T=1:从纯语言模型“正常(normally)”采样
- T=∞:从整个词汇表上的均匀采样
重新标准化分布来令概率之和为1时即退货条件概率分布pT(xi∣x1:i−1)∝p(xi∣x1:i−1)1/T
非自回归的条件生成:直接由某个前缀序列 x1:i (称为提示)采样其余的 xi+1:L(称为补全)来进行条件生成。例如,生成 T=0 的产生的:
promptthe,mouse,ate⇝T=0completionthe,cheese.
将温度改为 T=1 ,可以得到更多的多样性
N-gram模型
只由之前相邻n个token而非所有决定当前token的预测概率
由于不适合长句子只捕获局部依赖,被局限在语音识别和机器翻译
能力
问答 类比 文章生成 上下文学习