[机器学习]GBDT(分类实战)前言```python from sklearn.ensemble import Gra

前言

sklearn扩展包的ensemble(集成)模块中，有封装好的GradientBoostingClassifier类，
可以直接用来进行gbdt的分类。

from sklearn.ensemble import GradientBoostingClassifier

# 全部参数
GradientBoostingClassifier(ccp_alpha=0.0, 
                           criterion='friedman_mse',
                           init=None,
                           learning_rate=0.1, 
                           loss='deviance', 
                           max_depth=3,
                           max_features=None,
                           max_leaf_nodes=None,
                           min_impurity_decrease=0.0, 
                           min_impurity_split=None,
                           min_samples_leaf=1, 
                           min_samples_split=2,
                           min_weight_fraction_leaf=0.0, 
                           n_estimators=100,
                           n_iter_no_change=None, 
                           presort='deprecated',
                           random_state=None, 
                           subsample=1.0, 
                           tol=0.0001,
                           validation_fraction=0.1,
                           verbose=0,
                           warm_start=False)

重要参数

<1>loss
    字符串类型，默认值’deviance’。用于指定损失函数：
    ‘deviance’：对数损失函数
    ‘exponential’：指数损失函数，只能用于二分类。

<2>learning_rate
    数值型，默认值0.1。用于指定学习率，调参方法：

    给定 learning_rate 较小的值，例如0.1。
    根据验证集准确率以10倍为单位增大或者减小参数值。
    在找到合适的数量级后，在此数量级上微调。
    合适的候选值：[0.001, 0.01, 0.1, 1]

<3>subsample
    数值型，默认值1。指定采样出 subsample * n_samples 个样本用于训练弱学习器。
    注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。 
    取值在(0, 1)之间，设置为1表示使用所有数据训练弱学习器。
    如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。
    选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。
    推荐的取值为：[0.5, 0.6, 0.7, 0.8, 0.9, 1]

<4>n_estimators
    数值型参数，默认值为100，此参数指定了弱分类器的个数。
    设置的值越大，精确度越好，但是当 n_estimators 大于特定值之后，带来的提升效果非常有限。
    推荐的参数值为：[120, 300, 500, 800, 1200]

<5>criterion
    字符串类型，默认值为 ‘gini’。这个参数指定划分子树的评估标准：
    ‘entropy’，使用基于信息熵的方法，即计算信息增益
    ‘gini’，使用基尼系数（Gini Impurity）
    推荐设置为 ‘gini’，因为
      （1）基尼系数的计算过程相对简单，而计算信息增益需要进行对数运算。
      （2）使用信息增益作为划分标准时，在使用高纬度数据或者噪声很多的数据时容易过拟合。

<6>max_depth
   数值型，默认值3。
   这是与剪枝相关的参数，设置为None时，树的节点会一直分裂（也就是完全分裂），直到：
     （1）每个叶子都是“纯”的；
     （2）或者叶子中包含⼩于min_sanples_split个样本。

   推荐从 max_depth = 3 尝试增加，观察是否应该继续加大深度。
   合适的取值可以是 [3, 5, 8, 15, 25, 30, None]
   如果max_leaf_nodes参数非None，则忽略此项

<7>min_samples_leaf
   数值型，默认值1，指定每个叶子结点包含的最少的样本数。
   参数的取值除了整数之外，还可以是浮点数，此时（min_samples_leaf * n_samples）向下取整后的整数是每个节点的最小样本数。
   此参数设置的过小会导致过拟合，反之就会欠拟合。调整过程：

   从min_samples_leaf=5开始上下调整。
   对于类别不多的分类问题，设置为1通常是合理的选择。
   当叶节点包含样本数量差异很大时，建议设置为浮点数。
   推荐的取值可以是：[1, 2, 5, 10]

<8>min_samples_split
   数值型，默认值2，指定每个内部节点(非叶子节点)包含的最少的样本数。
   与min_samples_leaf这个参数类似，可以是整数也可以是浮点数。
   推荐的取值是：[1, 2, 5, 10, 15, 100]

<9>max_features
   可以为整数、浮点、字符串，默认值为None。
   此参数用于限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。

   如果是整数，则每次切分只考虑max_features个特征。
   如果是浮点数，每次切分只考虑max_features*n_features个特征(max_features指定百分⽐)。
   如果是字符串‘auto’，则max_features等于n_features。
   如果是字符串‘sqrt’，则max_features等于sqrt(n_features)。
   如果是字符串‘log2’，则max_features等于log2(n_features)。
   如果是字符串None，则max_features等于n_features。
   推荐的取值为：[‘log2’, ‘sqrt’, None]

<10>verbose
   数值类型，默认值为0，表示不输出日志。
   如果为1，则每次迭代输出一次日志。
   如果大于1，则每间隔 verbose 此迭代输出一次日志。

重要属性

1，feature_importances_ ，给出了各个特征对模型的重要性。
2，estimators_，一个数组，给出了每个弱学习器。

重要方法

1，fit(X, y) : 训练模型。
2，predict(X) : 用模型预测，返回预测值。
3，predict_proba(X) : 返回一个数组，数组元素依次为各个样本属于各个类别的概率值。
4，score(X, y) : 返回在(X, y)上预测的准确率(accuracy)。

[机器学习]GBDT(分类实战)

前言

重要参数

重要属性

重要方法

代码