首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Bert不完全手册
风雨中的小七
创建于2022-08-10
订阅专栏
细数Bert的各种优化方案,包括针对MASK不一致性和独立性的优化,模型蒸馏,内存压缩,生成任务,中文任务,长文本建模等等
等 3 人订阅
共9篇文章
创建于2022-08-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Bert不完全手册9. 长文本建模
这一章我们来唠唠如何优化BERT对文本长度的限制,核心是对Transformer计算效率的优化,我们会分别从片段递归,稀疏注意力机制和矩阵降维几个方向,聊聊更高效的Transformer魔改方案
Bert不完全手册8. 预训练不要停!Continue Pretraining
论文针对预训练语料和领域分布,以及任务分布之间的差异,提出了DAPT领域适应预训练和TAPT任务适应预训练。我们结合案例聊聊预训练+继续训练+微调的新范式~
Bert不完全手册6. Bert在中文领域的尝试 Bert-WWM & MacBert & ChineseBert
这一章我们来聊聊在中文领域都有哪些预训练模型的改良方案。Bert-WWM,MacBert,ChineseBert分别从3个方向在预训练中补充中文文本的信息:词粒度信息,中文笔画信息,拼音信息
Bert不完全手册7. 为Bert注入知识的力量 Baidu-ERNIE & THU-ERNIE & KBert
借着ACL2022一篇知识增强Tutorial的东风,这一章我们聊聊NLU领域3个基于实体链接的知识增强方案Baidu-ERNIE,THU-ERNIE和K-Bert
Bert不完全手册5. BERT推理提速?训练提速!内存压缩!Albert
Albert是A Lite Bert的缩写,通过词向量矩阵分解,以及参数共享,降低Bert的参数量级。如果说蒸馏是把Bert变矮瘦,那Albert就是把Bert变得矮胖,主要针对训练提速和内存优化
Bert不完全手册4. 绕开BERT的MASK策略?XLNET & ELECTRA
掩码是Bert实现双向理解的核心,但是掩码存在预训练和微调的不一致,以及15%掩码带来的训练低效。针对这些问题,XLNET通过乱序PLM ,Electra通过生成-判别模式,绕开MASK学习双向信息
Bert不完全手册3. Bert训练策略优化!RoBERTa & SpanBERT
Bert提出了很好的双向LM训练和迁移框架,但它的训练方式槽点较多,这一章就训练方案改良,我们来聊聊RoBERTa和SpanBERT,看作者这两篇paper是一个组的作品,所以存在一些共同点~
Bert不完全手册2. Bert不能做NLG?MASS/UNILM/BART
Bert通过双向LM处理NLU问题,GPT通过单向LM处理NLG问题。想要同时拥有NLU和NLG的能力,则需要让AE和AR在训练中进行梦幻联动,本文介绍3种方案UNILM,MASS和BART
Bert不完全手册1. Bert推理太慢?模型蒸馏
模型蒸馏的目标主要用于模型的线上部署,解决Bert太大,推理太慢的问题。本文从最初的知识蒸馏开始梳理,细数PKD-Bert,DistillBert以及TinyBert的蒸馏方案~