集成学习
随机森林、梯度提升树(GBDT)、XGBoost等都是集成学习算法 三种集成算法:
- 装袋法(bagging)
- 提升法(boosting)
- stacking
装袋法和提升法的对比
装袋法:构建多个相互独立的评估器,对其预测进行平均或多数表决原则来决定集成评估器的结果,代表是随机森林
提升法:基评估器是相关的,按照顺序一一构建,核心:结合弱评估器一次次对难以评估的样本进行预测,从而构建一个强评估器,代表是Adaboost和梯度提升树
决策树
主要功能是从一张有特征和标签的表格中,通过对特定特征进行提问,总结出一系列决策规则,并用树状图来呈现。
决策树的核心问题:
- 如何找出正确的特征
解决方法:定义用来衡量分枝质量的指标不纯度,分类树的不纯度用基尼系数或信息熵来衡量,选取不纯度最低的特征进行分枝,分枝后,再对被分枝的不同取值下,计算每个特征的不纯度,继续选取不纯度最低的特征进行分枝。
不纯度表示落在当前结点的样本类别分布的均衡程度。 - 树生长到什么时候停下(容易过拟合,需要进行剪枝操作)
随机森林
bagging集成学习算法
sklearn 参数:n_estimators表示森林中树木的数量,基评估器的数量,值越大,模型的效果往往越好
random_state:用来控制一棵树
boostrap:用来控制抽样技术的参数
烂尾了……