迁移学习

118 阅读2分钟

迁移学习是什么?

预训练是一种从头开始训练模型的方式:所有的模型权重都被随机初始化,这个过程不仅需要海量的训练数据,时间和经济成本都较高

因此,我们需要将别人训练好的模型权重经过迁移学习应用到自己的模型中,通过微调参数使模型适应于新任务

image.png

预训练模型的兴起

Transform模型的自注意力机制和深度堆叠架构为预训练模型提供了强大的基础,这种架构能捕捉复杂的语言特征和长距离依赖关系,使得模型在预训练阶段可以从大量的未标注文本中学习丰富的语言表示

语言表示的学习

在预训练阶段Transformer模型通过两种主要任务来学习语言表示:掩码语言模型(Masked Language Model, MLM)和下一句预测(Next Sentence Prediction, NSP)。

  • 掩码语言模型:通过随机掩码输入序列中的某些词,训练模型预测这些词。
  • 下一句预测 :训练模型判断两个句子是否在原始文本中是连续的

Transform与CNN和RNN的对比

假设输入序列长度为n,每个元素的维度为 d,输出序列长度也为 n,每个元素的维度也是 d。 可以从每层的计算复杂度、并行的操作数量、学习距离长度三个方面比较 Transformer、CNN、RNN 三个特征提取器。

image.png

Q,K,V知识的引入

在self-attention中每个输入的元素都被映射成了三个向量:Qurey(查询),Key(键),和Value(值)

  • Query(查询):就是你所买电脑的需求
  • Key(键):每台电脑的参数和特点
  • value(值):就是这台电脑给你带来的体验

image.png