BETR笔记

317 阅读1分钟

简单介绍

一个双向表示的预训练Transformer,可以通过fine-tune推广到多个NLP任务且效果良好 论文链接

网络结构

  • 核心模块:Transformer的Encoder

  • 结构配置: BETR_base和BETA_large,L\H\A分别表示Encoder块数量、隐藏层宽度和多头注意力组数

LHA#parms
1276812110M
24102416340M
  • 整体结构 image.png

  • Embedding构建

image.png 这里句子划分的sep向量和词元位置向量学习得到。

样本构建

源数据集数据量
BooksCorpus800M words
English Wikipedia2500M words
  • 任务1:Masked LM的样本构建

随机抽取15%的token进行处理,其中抽取token的80%直接用[mask]替代,10%用随机选择的其他token替代,10%什么都不干,仅仅将该位置标记为“待预测”

  • 任务2:Next Sentence Prediction (NSP)的样本构建

随机选取50%正常的前后两个句子对作为正例,50%随机构建的句子对作为负例。

  • 通用 放置一个[cls]在所有句子开头建模全局信息,可用于句子分类等下游任务;放置多个[sep]在每个句子末尾,用于句子划分。