1,以问题为导向的Kaggle Data Competition分析
2,为何Kaggle上的NLP 80%以上都是文本分类比赛,并必须使用Neural Networks?
3,文本复杂度衡量不同类型实现技术分析
4,比赛的Training数据集分析:id、url_legal、license、excerpt、target、standard_error
5,比赛的评价指标分析
6,Readability:NLP Classification or Regression based on neural networks
7,Kaggle比赛通用步骤:Data - Cleaning - Store - GridSearch - Model - Prediction
8,比赛外部数据集分析
9,比赛使用的硬件条件分析
10,Training Set、Validation Set、Test Set
11,比赛的双层Pretraining技术解析
12,Pretraining的三大类型解析:ITPT、IDPT、CDPT
13,传统的Statistics Method建模 + 树模型
14,Statistical features构建源码分析
15,融合统计信息并使用Regression模型解析
16,使用RoBERTa模型解析
17,使用AutoModelForMaskedLM
18,TrainConfig解析
19,模型的Tokenizer解析
20,模型加载
21,对RoBERTa进行pretrain源码解析解决原声BERT和比赛数据领域Discrepancy的问题
22,Model weights保存时的json和bin解析
23,使用Kaggle Notebook加载第一次pretrain后的模型
24,验证集:K-Fold、Sampling等分析
25,Early stoping分析
26,把Examples转为Features
27,DatasetRetriever源码实现详解
28,Input IDs、Attention Mask、Token type IDs
28,CommonLitModel源码之regressor解析
30,CommonLitModel源码之Loss计算 31,CommonLitModel源码之train方法源码解析
32,finetuning中的AutoModel
33,fineturning完整源码解析
34,Local CV解析
35,RoBERTa Base + RoBERT Large结合
36,对不同子模型结果的处理
37,Classification实现解析
38,通过Kaggle Kernel对GPU的使用
39,Submission过程解析
40,为何比赛时不要私下共享数据?
41,kernel赛能够在本地进行训练和微调,然后在上传到Kaggle上吗?
42,如何在kaggle kernel加载外部模型?
43,RobertaModel提示not initialized的情况下该如何处理?
44,kernel无法提交应该如何处理?
45,提交后报错该如何处理?
46,CV和公开榜单应该更加注重哪一个?
47,使用BERT比赛的时候最重要的Hyper Parameter是什么?
48,如何选择GPU训练平台?
49,在Kaggle上运行Notebook的时候一直是等待状态该怎么处理?
50,在kernel中如何运行脚本文件?
51,如何解决BERT训练效果反复波动的情况?
52,为何看到的效果并不是最终的结果?