Aggregation 集成学习算法

213 阅读1分钟

Blending

通过独立同分布抽取 T 组样本,产生 T 个预测模型。
Uniform blending(Voting)
Linear blending
Any Blending(Stacking)

Bagging

从总体样本中放回式抽取部分样本(bootstrapping),训练产生多个 model。 然后 uniform 组合所有的 model。
应用:Random Forest

Adaptive Boosting

关键点:调整权重分布,使新的一组样本在上一个 model 上产生最差的效果,然后训练新的 model。使用权重相关的参数组合所有的 model,产生最终的 model。
应用:AdaBoost-Stump Adaptive Boosted Decision Tree

Random Forest

bagging + fully-grown C&RT decision tree + random-combination(随机投影)
未被抽取的资料作为对应 model 的验证集,然后取平均值
Feature特征选择方法:将不同的样本的相同feature打乱在最终的 model 上测试
如果结果不够稳定,可能是因为树的数量不够

Adaptive Boosted Decision Tree

以一定的概率抽样来实现权重的效果
用 pruned 的树

GradientBoost

每个新的 model 的目标是拟合残差
应用:Gradient Boost Decision Tree