[机器学习]GBDT(介绍1)

2021-06-22 1,369 阅读2分钟

GBDT（梯度提升决策树） 是一种集成学习算法，结合了梯度提升（Gradient Boosting）和决策树（Decision Tree）技术，主要用于回归和分类任务。以下是其核心要点：

1. 基本思想

Boosting思想：通过串行训练多个弱学习器（通常是浅层决策树），每个模型专注于修正前序模型的残差（预测误差），逐步提升整体预测精度。
梯度优化：利用梯度下降法最小化损失函数，每一步的新模型拟合当前模型的负梯度方向（即残差的近似值）。

2. 核心步骤

初始化模型：通常用目标变量的均值或常数值作为初始预测。
迭代训练：
- 计算残差：用当前模型预测结果与真实值的残差。
- 拟合残差：训练一棵决策树来拟合这些残差（即负梯度方向）。
- 更新模型：将新树的预测结果乘以学习率（步长），叠加到当前模型上。
终止条件：重复直到达到预设的树数量（如100棵树）或残差足够小。

3. 关键特点

基学习器：通常使用回归树（即使处理分类任务），因为需要拟合连续梯度。
弱学习器：每棵树深度较浅（如3-5层），避免过拟合。
正则化：通过控制树的数量、学习率、树深度等防止过拟合。

4. 应用场景

回归任务：如房价预测、销量预测。
分类任务：如用户流失预测、广告点击率预估。
排序任务：如搜索引擎结果排序。

5. 优缺点

优点：
- 灵活处理数值和类别特征，无需复杂预处理（如归一化）。
- 自动捕获非线性关系和特征交互。
- 输出特征重要性，辅助解释模型。
缺点：
- 训练时间较长（尤其是数据量大时）。
- 对超参数敏感（需调优决策树的数量、学习率等）。

6. 常见优化与扩展

XGBoost：引入正则化、并行计算、稀疏感知优化。
LightGBM：基于直方图的加速算法，支持高效大规模数据训练。
CatBoost：自动处理类别特征，减少过拟合。

7. 与随机森林的区别

方法类型：GBDT是Boosting（串行纠错），随机森林是Bagging（并行投票）。
效果：GBDT通常精度更高，但更容易过拟合；随机森林更鲁棒，训练更快(因为是并行的)。
树结构：GBDT用浅层树，随机森林用深层树。

示例代码（Python）

from sklearn.ensemble import GradientBoostingClassifier

# 初始化模型
model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3)

# 训练
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

通过调整参数（如n_estimators、learning_rate）可优化模型性能。