GPT笔记GPT 采用两阶段法，第一阶段无监督预训练，第二阶段针对不同的任务进行有监督地精调。预训练阶段GPT使用Tra

GPT

采用两阶段法，第一阶段无监督预训练，第二阶段针对不同的任务进行有监督地精调。预训练阶段GPT使用Transformer的decoder结构。给定句子 $U=\{u_1, u_2, ..., u_n\}$ ，使用标准的语言建模目标，最大化似然概率 $L_1(U) = \sum_i P(u_i | u_{i-k},..., u_{i-1}; \Theta)$ 其中 $\Theta$ 是模型参数， $k$ 是滑动窗口使用Transformer decoder，但是和原论文的decoder有所不同，只保留了一个masked multi-head attention，如下图在这里插入图片描述

预训练阶段

设 $\mathbf u=(u_{-k}, ..., u_{-1})$ 表示输入的句子， $n$ 表示层数， $W_p$ 表示位置Embedding， $W_e$ 表示词向量权重矩阵， $\mathbf h_0 = \mathbf uW_e + W_p$ $\mathbf h_i = \mathrm {transformer\_block}(h_{i-1}) \ \ \ \ \ i\in [1,n]$ $P(\mathbf u) = \mathrm {softmax}(\mathbf h_nW^T_e)$

精调阶段

输入句子 $x_1, x_2,...,x_m$ ，有label为 $y$ ，预训练最后一个Transformer block输出的第 $m$ 个向量 $h_l^m$ ，加上输出预测层 $W_y$ $P(y|x_1,x_2,...,x_m) = \mathrm {softmax}(h^m_l W_y)$ 最大化概率函数 $L_2(C) = \sum_{(x,y)} P(y|x_1,x_2,...,x_m)$ 将语言模型损失作为一个辅助损失能有效帮助提升精调性能 $L(C) = L_1(C) + \lambda L_2(C)$

模型参数配置

预训练： Transformer层数=12 attention维度=768 head_num=12 FFN网络中中间层的维度=3072 （=768*4） dropout_rate=0.1 激活函数=GELU learning_rate 最大是2.5e-4，前面2000步从0逐渐增大，后面逐渐减小精调： dropout=0.1 learning_rate=6.25e-5 batchsize=32 lambda=0.5 在这里插入图片描述