第16章：Kaggle BERT比赛CommonLit Readability Prize赛题解析、Baseline代码解析、及比赛常见问题

1，以问题为导向的Kaggle Data Competition分析

2，为何Kaggle上的NLP 80%以上都是文本分类比赛，并必须使用Neural Networks？

3，文本复杂度衡量不同类型实现技术分析

4，比赛的Training数据集分析：id、url_legal、license、excerpt、target、standard_error

5，比赛的评价指标分析

6，Readability：NLP Classification or Regression based on neural networks

7，Kaggle比赛通用步骤：Data - Cleaning - Store - GridSearch - Model - Prediction

8，比赛外部数据集分析

9，比赛使用的硬件条件分析

10，Training Set、Validation Set、Test Set

11，比赛的双层Pretraining技术解析

12，Pretraining的三大类型解析：ITPT、IDPT、CDPT

13，传统的Statistics Method建模 + 树模型

14，Statistical features构建源码分析

15，融合统计信息并使用Regression模型解析

16，使用RoBERTa模型解析

17，使用AutoModelForMaskedLM

18，TrainConfig解析

19，模型的Tokenizer解析

20，模型加载

21，对RoBERTa进行pretrain源码解析解决原声BERT和比赛数据领域Discrepancy的问题

22，Model weights保存时的json和bin解析

23，使用Kaggle Notebook加载第一次pretrain后的模型

24，验证集：K-Fold、Sampling等分析

25，Early stoping分析

26，把Examples转为Features

27，DatasetRetriever源码实现详解

28，Input IDs、Attention Mask、Token type IDs

28，CommonLitModel源码之regressor解析

30，CommonLitModel源码之Loss计算 31，CommonLitModel源码之train方法源码解析

32，finetuning中的AutoModel

33，fineturning完整源码解析

34，Local CV解析

35，RoBERTa Base + RoBERT Large结合

36，对不同子模型结果的处理

37，Classification实现解析

38，通过Kaggle Kernel对GPU的使用

39，Submission过程解析

40，为何比赛时不要私下共享数据？

41，kernel赛能够在本地进行训练和微调，然后在上传到Kaggle上吗？

42，如何在kaggle kernel加载外部模型？

43，RobertaModel提示not initialized的情况下该如何处理？

44，kernel无法提交应该如何处理？

45，提交后报错该如何处理？

46，CV和公开榜单应该更加注重哪一个？

47，使用BERT比赛的时候最重要的Hyper Parameter是什么？

48，如何选择GPU训练平台？

49，在Kaggle上运行Notebook的时候一直是等待状态该怎么处理？

50，在kernel中如何运行脚本文件？

51，如何解决BERT训练效果反复波动的情况？

52，为何看到的效果并不是最终的结果？