随机森林(sklearn)

125 阅读1分钟

集成学习

随机森林、梯度提升树(GBDT)、XGBoost等都是集成学习算法 三种集成算法:

  • 装袋法(bagging)
  • 提升法(boosting)
  • stacking
装袋法和提升法的对比

装袋法:构建多个相互独立的评估器,对其预测进行平均或多数表决原则来决定集成评估器的结果,代表是随机森林
提升法:基评估器是相关的,按照顺序一一构建,核心:结合弱评估器一次次对难以评估的样本进行预测,从而构建一个强评估器,代表是Adaboost和梯度提升树

决策树

主要功能是从一张有特征和标签的表格中,通过对特定特征进行提问,总结出一系列决策规则,并用树状图来呈现。

image.png 决策树的核心问题:

  1. 如何找出正确的特征 解决方法:定义用来衡量分枝质量的指标不纯度,分类树的不纯度用基尼系数或信息熵来衡量,选取不纯度最低的特征进行分枝,分枝后,再对被分枝的不同取值下,计算每个特征的不纯度,继续选取不纯度最低的特征进行分枝。 不纯度表示落在当前结点的样本类别分布的均衡程度。
  2. 树生长到什么时候停下(容易过拟合,需要进行剪枝操作)

随机森林

bagging集成学习算法 sklearn 参数:n_estimators表示森林中树木的数量,基评估器的数量,值越大,模型的效果往往越好
random_state:用来控制一棵树
boostrap:用来控制抽样技术的参数

烂尾了……