随机森林（sklearn）集成学习随机森林、梯度提升树（GBDT）、XGBoost等都是集成学习算法三种集成算法：

随机森林、梯度提升树（GBDT）、XGBoost等都是集成学习算法三种集成算法：

装袋法：构建多个相互独立的评估器，对其预测进行平均或多数表决原则来决定集成评估器的结果，代表是随机森林
提升法：基评估器是相关的，按照顺序一一构建，核心：结合弱评估器一次次对难以评估的样本进行预测，从而构建一个强评估器，代表是Adaboost和梯度提升树

主要功能是从一张有特征和标签的表格中，通过对特定特征进行提问，总结出一系列决策规则，并用树状图来呈现。

决策树的核心问题：

如何找出正确的特征解决方法：定义用来衡量分枝质量的指标不纯度，分类树的不纯度用基尼系数或信息熵来衡量，选取不纯度最低的特征进行分枝，分枝后，再对被分枝的不同取值下，计算每个特征的不纯度，继续选取不纯度最低的特征进行分枝。 不纯度表示落在当前结点的样本类别分布的均衡程度。
树生长到什么时候停下（容易过拟合，需要进行剪枝操作）

bagging集成学习算法 sklearn 参数：n_estimators表示森林中树木的数量，基评估器的数量，值越大，模型的效果往往越好
random_state:用来控制一棵树
boostrap:用来控制抽样技术的参数

烂尾了……