第16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析、Baseline代码解析、及比赛常见问题

288 阅读2分钟

1,以问题为导向的Kaggle Data Competition分析

2,为何Kaggle上的NLP 80%以上都是文本分类比赛,并必须使用Neural Networks?

3,文本复杂度衡量不同类型实现技术分析

4,比赛的Training数据集分析:id、url_legal、license、excerpt、target、standard_error

5,比赛的评价指标分析

6,Readability:NLP Classification or Regression based on neural networks

7,Kaggle比赛通用步骤:Data - Cleaning - Store - GridSearch - Model - Prediction

8,比赛外部数据集分析

9,比赛使用的硬件条件分析

10,Training Set、Validation Set、Test Set

11,比赛的双层Pretraining技术解析

12,Pretraining的三大类型解析:ITPT、IDPT、CDPT

13,传统的Statistics Method建模 + 树模型

14,Statistical features构建源码分析

15,融合统计信息并使用Regression模型解析

16,使用RoBERTa模型解析

17,使用AutoModelForMaskedLM

18,TrainConfig解析

19,模型的Tokenizer解析

20,模型加载

21,对RoBERTa进行pretrain源码解析解决原声BERT和比赛数据领域Discrepancy的问题

22,Model weights保存时的json和bin解析

23,使用Kaggle Notebook加载第一次pretrain后的模型

24,验证集:K-Fold、Sampling等分析

25,Early stoping分析

26,把Examples转为Features

27,DatasetRetriever源码实现详解

28,Input IDs、Attention Mask、Token type IDs

28,CommonLitModel源码之regressor解析

30,CommonLitModel源码之Loss计算 31,CommonLitModel源码之train方法源码解析

32,finetuning中的AutoModel

33,fineturning完整源码解析

34,Local CV解析

35,RoBERTa Base + RoBERT Large结合

36,对不同子模型结果的处理

37,Classification实现解析

38,通过Kaggle Kernel对GPU的使用

39,Submission过程解析

40,为何比赛时不要私下共享数据?

41,kernel赛能够在本地进行训练和微调,然后在上传到Kaggle上吗?

42,如何在kaggle kernel加载外部模型?

43,RobertaModel提示not initialized的情况下该如何处理?

44,kernel无法提交应该如何处理?

45,提交后报错该如何处理?

46,CV和公开榜单应该更加注重哪一个?

47,使用BERT比赛的时候最重要的Hyper Parameter是什么?

48,如何选择GPU训练平台?

49,在Kaggle上运行Notebook的时候一直是等待状态该怎么处理?

50,在kernel中如何运行脚本文件?

51,如何解决BERT训练效果反复波动的情况?

52,为何看到的效果并不是最终的结果?