人工智能学习笔记 - 机器学习算法 - 监督学习 - 树模型与集成方法
树模型是一类基于“递归划分特征空间”的监督学习方法,通过不断将数据划分为更“纯”的子集来完成分类或回归任务。在实际应用中,单棵决策树通常与集成学习方法结合使用,以提升泛化性能和稳定性。
决策树(Decision Tree)
基本思想
决策树通过一系列“如果–那么”的规则对样本进行划分。
每一个内部节点表示一个特征判断,每一个叶子节点给出预测结果。
训练决策树的核心问题是:
在当前节点,选择哪个特征、用什么方式划分,能使子节点的样本尽可能“纯”?
节点划分的常见评价指标
不同决策树算法的主要区别,在于 节点划分标准的不同。
信息熵(Entropy)
信息熵用于衡量样本集合的不确定性,定义为:
- :当前样本集合
- :类别数
- :第 类样本在 中所占比例
性质:
- 样本越混杂,熵越大
- 样本越纯,熵越小
信息增益(Information Gain,ID3)
信息增益衡量 划分前后不确定性的减少程度:
- :用于划分的特征
- :特征 取值为 的子集
特点:
- 信息增益越大,划分效果越好
- 倾向选择取值种类多的特征
限制:
- 只能处理离散特征
- 不适合大规模数据
信息增益率(Gain Ratio,C4.5)
为克服信息增益偏好取值多特征的问题,引入信息增益率:
其中,特征自身的熵为:
改进点:
- 支持连续特征
- 支持缺失值
- 减弱多值特征的偏好
但在工程实践中,C4.5 算法复杂、效率较低,已较少使用。
基尼指数(Gini Index,CART)
CART 是现代决策树及集成模型的基础。
基尼指数定义为:
划分后的基尼指数为:
特点:
- 数值计算简单
- 对分类效果与熵非常接近
- 只进行二叉划分
- 工业界事实标准
回归树的划分标准(均方误差)
对于回归问题,CART 使用均方误差作为划分指标:
目标是找到划分方式,使子节点的误差之和最小。
随机森林(Random Forest)
随机森林是一种 基于 Bagging 的集成方法,通过训练多棵相互独立的决策树并进行集成预测。
核心思想
- 样本随机:Bootstrap 抽样
- 特征随机:每次划分只使用部分特征
- 模型集成:多数投票或平均
分类预测:
回归预测:
优点:
- 有效降低过拟合
- 对异常值和噪声不敏感
- 几乎无需复杂特征工程
梯度提升树(Gradient Boosting Tree, GBDT)
梯度提升树是一种 基于 Boosting 的集成方法,通过逐步拟合残差来提升模型性能。
核心思想
假设当前模型为:
新增一棵树拟合负梯度(残差):
更新模型:
其中:
- :损失函数
- :第 棵树
- :学习率
特点:
- 表达能力强
- 对特征缩放不敏感
- 是 XGBoost、LightGBM 的理论基础