简单介绍
一个双向表示的预训练Transformer,可以通过fine-tune推广到多个NLP任务且效果良好 论文链接
网络结构
-
核心模块:Transformer的Encoder
-
结构配置: BETR_base和BETA_large,L\H\A分别表示Encoder块数量、隐藏层宽度和多头注意力组数
| L | H | A | #parms |
|---|---|---|---|
| 12 | 768 | 12 | 110M |
| 24 | 1024 | 16 | 340M |
-
整体结构
-
Embedding构建
这里句子划分的sep向量和词元位置向量学习得到。
样本构建
| 源数据集 | 数据量 |
|---|---|
| BooksCorpus | 800M words |
| English Wikipedia | 2500M words |
- 任务1:Masked LM的样本构建
随机抽取15%的token进行处理,其中抽取token的80%直接用[mask]替代,10%用随机选择的其他token替代,10%什么都不干,仅仅将该位置标记为“待预测”
- 任务2:Next Sentence Prediction (NSP)的样本构建
随机选取50%正常的前后两个句子对作为正例,50%随机构建的句子对作为负例。
- 通用 放置一个[cls]在所有句子开头建模全局信息,可用于句子分类等下游任务;放置多个[sep]在每个句子末尾,用于句子划分。