第17章： BERT CommonLit Readability Prize比赛技术进阶详解1，Data Label b

1，Data Label based on pairwise comparisions between excerpts

2，Target中数字为0的原因解析

3，文本对比中的技巧

4，target和std构成联合信息

5，Coarse Validation Loop

6，private test set

7，Hold-out validation、K-fold CV validation、Bootstrap resampling

11，Diversity of models：RoBERTa、BERT、DistilRoBERTa等联合使用

12，模型参数多样化：不同来源、不同层次的参数及Hyper parameters

13，多模型结合的training和inference时间复杂度分析

14，验证集pretraining的意义分析

15，对embeddings的size的处理

16，FFN代码分析

17，warmup数学原理及实现剖析

18，learning rate scheduler剖析

19，RoBERTa模型参数结构详解

20，Data enhancement解析和实现

21，外部数据集应该用在two-phase pretraining的具体什么阶段？

22，多样性模型背后的数学原理机制深度剖析

23，多样性数据来源背后的数学原理剖析

24，多层次数据编码数学原理分析

25，One-hot编码和Dense embeddings的巧妙结合

26，对抗网络的使用分析

27，长文本处理技巧：head+tail

28，模型训练不收敛的解决技巧：动态learning rate

29，联合使用不同类别的预训练模型作为输入的Embedding层来提高收敛速度及避免过拟合背后的数学原理剖析

30，为何concatenation的embedding很适合Classification任务？ 31，Trainable Parameters开启与停止

32，Sentence vector：TFIDF、监督任务、及SIF

33，Adversarial training：FGSM产生Adversary examples揭秘

34，为何Adversarial training应用到NLP文本到时候一般都是对Embedding层进行Adversary操作？背后的贝叶斯数学原理及神经网络工作机制

35，Adversarial training的五步骤详解

36，Adversarial training能够极大的提升NLP效果的数学原理剖析

37，Adversarial training及Adversarial example在Readability Prize比赛的应用

38，对每个Batch进行Adversarial training源码解析

39，Data augmentation方法Easy Data Augmentation解析及实现

40，基于BERT模型生成高质量的增强数据

41，孪生网络的使用

42，Dynamic Padding解析及源码实现

43，Uniform Length Batching解析及源码实现

44，Gradient Accumulation解析及源码实现

45，Freeze Embedding解析及源码实现

46，Numeric Precision Reduction解析及源码实现

47，Gradient Checkpoining解析及源码实现

48，使用memory-profiler来对进程及Python内存使用逐行分析

49，使用subprocess监视GPU使用

50，Debiasing Omission in BertADAM

51，Re-Initializing Transformer Layers

52，Utilizing Intermediate Layers

53，LLRD（Layer-wise Learning Rate Decay）

54，Mixout Regularization

55，Pre-trained Weight Decay

56，Stochastic Weight Averaging

57，将code存储为dataset存储来更好的使用Kaggle的内存和计算资源