第18章:BERT CommonLit Readability Prize比赛中的高分思路及源码解析

151 阅读1分钟

1,Ensemble methods解析

2,ML中的机器学习:Bagging、Boosting、GBDT等

3,Kaggle比赛中的Ensemble methods:Vote、Blend、Stacking等

4,为何Kaggle竞赛中的Ensemble methods会获得更好的精度?

5,Bagging ensemble method:row-based sampling、column-based sampling等

6,Bagging ensemble method中的并行训练及预测

7,Boosting串行训练多个模型:多错误样本权重调整、拟合误差

8,Blend和Average:对结果基于精度进行加权求和

9,Stacking:out of fold及交叉验证

10,模型和特征多样性

11,比赛对Bagging的使用

12,比赛对Boosting的使用

13,深度学习中的模型集成方法:Dropout

14,训练阶段调整句子顺序Flipping操作

15,对Ensemble进行Snapshot

16,Stochastic Weight Averaging操作

17,Pseudo Label解析:基于方差的标签构建

18,Kernel赛Pseudo Label和非Kernel赛的Pseudo Lable

19,Pseudo Lable实现四步骤详解

20,Knowledge distillation soft label

21,用于分类的network distillation:embedding layer、transformer layer、prediction layer

22,public LB及private LB

23,借助Roberta-large+和训练集相同books的外部数据集

24,使用Pooling解析及代码实现解析

25,混合使用不同来源的特征工程结果进行集成

26,高分作品1完整源码剖析

27,高分作品2完整源码剖析

28,高分作品3完整源码剖析

29,高分作品4完整源码剖析

30,高分作品5完整源码剖析