1,Data Label based on pairwise comparisions between excerpts
2,Target中数字为0的原因解析
3,文本对比中的技巧
4,target和std构成联合信息
5,Coarse Validation Loop
6,private test set
7,Hold-out validation、K-fold CV validation、Bootstrap resampling
11,Diversity of models:RoBERTa、BERT、DistilRoBERTa等联合使用
12,模型参数多样化:不同来源、不同层次的参数及Hyper parameters
13,多模型结合的training和inference时间复杂度分析
14,验证集pretraining的意义分析
15,对embeddings的size的处理
16,FFN代码分析
17,warmup数学原理及实现剖析
18,learning rate scheduler剖析
19,RoBERTa模型参数结构详解
20,Data enhancement解析和实现
21,外部数据集应该用在two-phase pretraining的具体什么阶段?
22,多样性模型背后的数学原理机制深度剖析
23,多样性数据来源背后的数学原理剖析
24,多层次数据编码数学原理分析
25,One-hot编码和Dense embeddings的巧妙结合
26,对抗网络的使用分析
27,长文本处理技巧:head+tail
28,模型训练不收敛的解决技巧:动态learning rate
29,联合使用不同类别的预训练模型作为输入的Embedding层来提高收敛速度及避免过拟合背后的数学原理剖析
30,为何concatenation的embedding很适合Classification任务? 31,Trainable Parameters开启与停止
32,Sentence vector:TFIDF、监督任务、及SIF
33,Adversarial training:FGSM产生Adversary examples揭秘
34,为何Adversarial training应用到NLP文本到时候一般都是对Embedding层进行Adversary操作?背后的贝叶斯数学原理及神经网络工作机制
35,Adversarial training的五步骤详解
36,Adversarial training能够极大的提升NLP效果的数学原理剖析
37,Adversarial training及Adversarial example在Readability Prize比赛的应用
38,对每个Batch进行Adversarial training源码解析
39,Data augmentation方法Easy Data Augmentation解析及实现
40,基于BERT模型生成高质量的增强数据
41,孪生网络的使用
42,Dynamic Padding解析及源码实现
43,Uniform Length Batching解析及源码实现
44,Gradient Accumulation解析及源码实现
45,Freeze Embedding解析及源码实现
46,Numeric Precision Reduction解析及源码实现
47,Gradient Checkpoining解析及源码实现
48,使用memory-profiler来对进程及Python内存使用逐行分析
49,使用subprocess监视GPU使用
50,Debiasing Omission in BertADAM
51,Re-Initializing Transformer Layers
52,Utilizing Intermediate Layers
53,LLRD(Layer-wise Learning Rate Decay)
54,Mixout Regularization
55,Pre-trained Weight Decay
56,Stochastic Weight Averaging
57,将code存储为dataset存储来更好的使用Kaggle的内存和计算资源