让BERT飞一会

1,140 阅读7分钟

1. 量化

将高精度模型用低精度来表示,使得模型更小

2. 剪纸

讲模型中作用较小的部分舍弃,让模型更小。

##3. 模型蒸馏

3.1. DistilBERT(2019.10.2)

知识蒸馏的基础原理:

定义两个网络,teacher网络和student网络,teacher网络是预训练得到的大模型,student模型是想要学习和迁移得到的小模型。根据Hinton的文章,一般的蒸馏模式是:把teacher网络的输出作为soft-label,student网络学习的目标是hard-label,交叉构造三种loss来联合训练,目的是时student网络具备与teacher网络同样的推理目标。

模型简述:

image_1eaefp9gpjgj1ot6149s3j93oj13.png-97.5kB

student的网络解决与teacher的网络结构相同,都是Bert。主要改动有:

  1. 对student网络的构造,就是从teacher网络每两层去掉一层。因为,作者调研发现,隐层维度的变化比层数的变化对性能的影响较小,所以只改变网络层数。
  2. 因为student网络的层数减少两倍,所以去掉token type embedding和pooler。
  3. 使用teacher网络每两层的一层的参数来初始化student网络。
  4. 使用更大的batch,使用dynamic masking,去掉NSP任务。这几点是从RoBERTa中取的经。

三个loss:

  1. LceL_{ce}, teacher模型得到的目标概率分布是tit_i,student模型得到的目标概率分布是sis_i,然后计算两个分布的KL散度:Lce=itilogsiL_{ce} = \sum_i{t_i * \log{s_i}}。KL散度是衡量两个分布的相关度,使用这个loss,在训练的时候,就可以把teacher网络中丰富的先验知识带进训练过程。 这里使用softmax-temperature,使用TT来控制输出概率的平滑度,在inference时,设置为1。
  2. LmlmL_{mlm},就是bert中的masked语言模型的loss。
  3. LcosL_{cos},计算student网络的hidden state和teacher网络的hidden state的余弦相似度。

然后将三个loss加权想和:

Loss=5.0Lce+2.0Lmlm+1.0LcosLoss= 5.0*L_{ce}+2.0* L_{mlm}+1.0* L_{cos}

实验:

image_1eaeiv56a8bn41kdsds8a19021t.png-60kB

inference时间对比,大概提升了60%: image_1eaeivtjrqtg1llu17dh1acfpq12a.png-41.1kB

Ablation test结果,可以看出Lce、Lcos、参数初始化为结果影响较大: image_1eaej2l0j1efu11ks1u501m7sr2n.png-39.5kB

3.2 TinyBert (2019.11.23)

主要贡献

  1. 提出的蒸馏方法,增加了对Transformer中attention层考量。
  2. 提出two-stage的蒸馏模式,在pre-training和fine-tuning阶段进行相同的蒸馏,验证效果更好。
  3. 实验证明结果很好。

模型简述:

image_1eaf2qccplj11jcb1cfa1rc51p451g.png-143.2kB

问题定义: teacher模型(m层)和student模型(n层)每层通过一个n=g(m)n=g(m)函数映射。student学teacher的过程就是通过最小化下面的目标函数: 2.

各种loss的定义:

  1. Transformer-layer Distillation 又分为基于注意力的蒸馏基于隐层的蒸馏。作者使用注意力蒸馏,是因为最近的研究发现,通过BERT学习的注意力矩阵包含丰富的语言学知识,这些语言学知识包含了语法和共指信息,对自然语言理解非常重要基于注意力的蒸馏: attention 计算student和teacher之间注意力矩阵的MSE,其中hh表示head的个数。 基于隐层的蒸馏: image_1eah1oca98h53po1ork1fjk4mpm.png-4.6kB 计算Transformer输出层,也就是hidden states,之间MSE,公式中WhW_h是把HsH^s映射到相同维度的HtH^t,是一个需要学习的参数矩阵。
  2. Embedding-layer Distillation image_1eah21vj01m3u1gkguus1n3s3e913.png-4.3kB 是对输入层输入做比较。
  3. Prediction-Layer Distillation image_1eah22vldhecirt1c795age8c1g.png-6kB

根据上面的定义,就可以最终得到student网络的完整的loss:

image_1eaf3ivgmkd71m394021a36h1q2q.png-19.2kB 其中zSTz^STzTz^T分别是student网络和teacher网络的预测目标的logits。这就是标准蒸馏范式中的KL-loss。

两段式蒸馏:

文章提出在两个阶段都进行蒸馏,即:在pre-training结点进行蒸馏,得到General Distillation Model。在fine-tuning阶段,先做data augmentation,然后执行相同的蒸馏,得到Task-specific Distillation Model。

实验:

TinyBERT在经验上是有效的,其性能能够超过基线BERT的96%,容量小7.5倍,推理速度快9.4倍。同时,TinyBERT要比基线DistillBERT也明显更优,只有其28%的参数,31%的推理时间: image_1eaf0b87c1nmu1fvr18so41189g9.png-59.2kB

在 GLUE 基准上实现了与 BERT 相当(下降 3 个百分点)的效果: image_1eaf0e2eravtlfh1nt78ek1fkvm.png-72.1kB

paper code

##4. 模型结构上的优化

4.1《Deformer:Decomposing Pre-trained Transformers for Faster Question Answering》(ACL 2020)

BERT模型做QA问题,比如问答或者阅读理解,需要将query和document拼接作为模型输入,然后使用self-attention对输入文本进行多层的交互编码,之后使用线性分类器在document中寻找可能的答案序列。而通常document都非常的长,所以就会有大量的计算。 这篇文章提出,将BERT模型做成两段式的结构,提前进行一些运算。 有研究表明,在多层Transformer模型中,低层(low layers)的编码主要关注一些局部的预言表层特征(比如词性,语法等),到了高层(upper layer)才逐渐关注与下游任务相关的全局语义信息。所以,在low layers, **”文档编码能够不依赖于问题“**的假设是正确的。所以,这篇文章的思路具体来说:在底层先对问题和文档各自编码,在高层拼接问题和文档的隐层表征再进行交叉编码。如下图: image_1eae1lbj11fje1s0et6k1csg1rjh9.png-123.7kB

另外,作者实验发现这种结构在SQuAD上精度损失比较大,所以作者添加了两个蒸馏损失项。目的是最小化Defomer的高层表征和分类层logits与原始BERT模型的差异

实验: 在三个QA任务上,BERT和XLNet采用DeFormer分解后,取得了2.7-3.5倍的加速,节省内存65.8-72.0%,效果损失只有0.6-1.8%。但还是很慢,达不到实时的效果。 image_1eae1tvak1qbp1juo1pbo1q9bu09m.png-48.4kB

4.2《AlBert》

主要三个改变,

  1. 使embedding层的维度(EE)设置为远小于隐层的维度(HH),然后通过矩阵分解,将HVH*V的矩阵分解为VEV*E,EHE*H,其中H<<HH<<H, VV为字典大小,就是先将embedding的矩阵,映射到小维度的矩阵,然后再映射到大维度的隐层矩阵。这样就可以使embedding层参数大大减小。
  2. 共享emcoder中的所有参数。
  3. 将NSP任务改为SOP任务。

3. 《FastBERT》

1.主要贡献

这篇文章主要是想优化predict阶段的性能,采用提前结束的策略。即在predict阶段,在每一层transformer之后,接一个分类器(作者提出的方法在分类问题上使用),如果分类器的结果置信度很高,就不往更深层进行,提前结束。

这样,容易预测的样本(特征明显)通过一两层就可以得到结果,较难的样本则需要经过所有层。因为,分类器的计算复杂度要远远低于transformer的计算,所以,平均下来,predict的性能可以得到提高。

image_1ed94kaj61mhu5pp1j48nq11r1im.png-41kB

2.模型简述

image_1ed978u22ofg7ed1to7nd11ish1g.png-212.6kB

上图是模型架构,下面是模型训练和推理顺序:

  1. Pre-training:BERT(或者其他预训练模型)作为**主干(backbone)**不变,预训练阶段没有改变。
  2. Fine-tuning for Backbone:在分类任务上微调模型主干。
  3. Self-distillation for branch:分支自蒸馏,将主干模型知识蒸馏到分支分类器上,使用无标签数据就可以。即对于主干模型预测结果的概率分布与各层分支分类器预测的概率分布,计算两者的KL散度,然后所有层(共L1L-1个student)的loss之和为最终的loss。
  4. Adaptive inference:自适应推理,即使用student分类器对样本进行层层分类。结果明确的直接给出结果结束预测,结果不明确的继续到下一层。其中,作者定了的预测结果**不确定性(Uncertainty)**的定义:

其中,ps(i)p_s(i)表示分类器的输出概率分布,NN表示分类标签个数,这个定义的意义其实就是概率分布的熵,概率分布越散乱,熵越大,信息量越多,不确定性越低,分类结果也就越明确。 通过speed阈值来确定每层结束的条件(每一层分类器之后得到的Uncertainty,当小于speed时,提前结束)。所以,当speed增大,就会有更少sample被送到更高层,推理速度就越慢。

3.实验结果

image_1ed97kmt0178vtaihn41rhv1b4h1t.png-112.6kB 以在中文数据集的结果为例,可以得出几个结论:

  1. 综合来说,比DistilBERT效果要好很多。
  2. 当提高speed阈值,提升速度与准确率降低的综合判断更优秀。

【参考:】 code: paper