Bert不完全手册

Bert不完全手册

Bert不完全手册

细数Bert的各种优化方案，包括针对MASK不一致性和独立性的优化，模型蒸馏，内存压缩，生成任务，中文任务，长文本建模等等

等 4 人订阅共9篇文章创建于2022-08-10

Bert不完全手册9. 长文本建模

这一章我们来唠唠如何优化BERT对文本长度的限制，核心是对Transformer计算效率的优化，我们会分别从片段递归，稀疏注意力机制和矩阵降维几个方向，聊聊更高效的Transformer魔改方案

3年前
1.4k
点赞
评论

Bert不完全手册9. 长文本建模

Bert不完全手册8. 预训练不要停！Continue Pretraining

论文针对预训练语料和领域分布，以及任务分布之间的差异，提出了DAPT领域适应预训练和TAPT任务适应预训练。我们结合案例聊聊预训练+继续训练+微调的新范式~

3年前
1.4k
点赞
评论

Bert不完全手册8. 预训练不要停！Continue Pretraining

Bert不完全手册6. Bert在中文领域的尝试 Bert-WWM & MacBert & ChineseBert

这一章我们来聊聊在中文领域都有哪些预训练模型的改良方案。Bert-WWM，MacBert，ChineseBert分别从3个方向在预训练中补充中文文本的信息：词粒度信息，中文笔画信息，拼音信息

3年前
1.3k
3
评论

Bert不完全手册6. Bert在中文领域的尝试 Bert-WWM & MacBert & ChineseBert

Bert不完全手册7. 为Bert注入知识的力量 Baidu-ERNIE & THU-ERNIE & KBert

借着ACL2022一篇知识增强Tutorial的东风，这一章我们聊聊NLU领域3个基于实体链接的知识增强方案Baidu-ERNIE，THU-ERNIE和K-Bert

3年前
946
1
1

Bert不完全手册7. 为Bert注入知识的力量 Baidu-ERNIE & THU-ERNIE & KBert

Bert不完全手册5. BERT推理提速？训练提速!内存压缩！Albert

Albert是A Lite Bert的缩写，通过词向量矩阵分解，以及参数共享，降低Bert的参数量级。如果说蒸馏是把Bert变矮瘦，那Albert就是把Bert变得矮胖，主要针对训练提速和内存优化

3年前
1.3k
1
评论

Bert不完全手册5. BERT推理提速？训练提速!内存压缩！Albert

Bert不完全手册4. 绕开BERT的MASK策略？XLNET & ELECTRA

掩码是Bert实现双向理解的核心，但是掩码存在预训练和微调的不一致，以及15%掩码带来的训练低效。针对这些问题，XLNET通过乱序PLM ，Electra通过生成-判别模式，绕开MASK学习双向信息

3年前
1.1k
2
评论

Bert不完全手册4. 绕开BERT的MASK策略？XLNET & ELECTRA

Bert不完全手册3. Bert训练策略优化！RoBERTa & SpanBERT

Bert提出了很好的双向LM训练和迁移框架，但它的训练方式槽点较多，这一章就训练方案改良，我们来聊聊RoBERTa和SpanBERT，看作者这两篇paper是一个组的作品，所以存在一些共同点~

3年前
1.1k
点赞
评论

Bert不完全手册3. Bert训练策略优化！RoBERTa & SpanBERT

Bert不完全手册2. Bert不能做NLG？MASS/UNILM/BART

Bert通过双向LM处理NLU问题，GPT通过单向LM处理NLG问题。想要同时拥有NLU和NLG的能力，则需要让AE和AR在训练中进行梦幻联动，本文介绍3种方案UNILM，MASS和BART

3年前
1.2k
1
1

Bert不完全手册2. Bert不能做NLG？MASS/UNILM/BART

Bert不完全手册1. Bert推理太慢？模型蒸馏

模型蒸馏的目标主要用于模型的线上部署，解决Bert太大，推理太慢的问题。本文从最初的知识蒸馏开始梳理，细数PKD-Bert，DistillBert以及TinyBert的蒸馏方案~

3年前
1.2k
2
2

Bert不完全手册1. Bert推理太慢？模型蒸馏