1,作为Autoregressive语言模型的XLNet何以能够在发布时在20个语言任务上都能够正面挑战作为Autoencoding与训练领域霸主地位的BERT?
2,XLNet背后Permutation LM及Two-stream self-attention数学原理解析
3,Autoregressive LM和Autoencoding LM数学原理及架构对比
4,Denoising autoencoding机制的数学原理及架构设计
5,对Permutation进行Sampling来高性价比的提供双向信息数学原理
6,XLNet的Permutation实现架构和运行流程:content stream、query stream
7,XLNet中的缓存Memory记录前面Segment的信息
8,XLNet中content stream attention计算
9,XLNet中query stream attention计算
10,使用Mask Matrices来实现Two-stream Self-attention
11,借助Transformer-XL 来编码relative positional 信息
12,XLNet源码实现之数据分析及预处理
13,XLNet源码实现之参数设定
14,XLNet源码实现之构建Permutation
15,XLNet源码实现之positional embedding详解
16,XLNet源码实现之relative positional encoding详解
17,XLNet源码实现之Masking详解
18,XLNet源码实现之Attention详解
19,XLNet源码实现之multi-head attention详解
20,XLNet源码实现之memory缓存详解
21,XLNet源码实现之Head projections操作详解
22,XLNet源码实现之two-stream详解
23,XLNet源码实现之Position-wise FFN 详解
24,XLNet源码实现之Loss操作详解
25,XLNet源码实现之training过程详解
26,从特定的checkpoint对XLNet进行re-training操作
27,Fine-tuning源码完整实现
28,Training Evaluation分析
29,使用XLNet进行Movies情感分类案例实战