[机器学习]CART决策树算法(介绍)在CART（分类与回归树）算法中，当处理离散型（分类）属性时，节点的分裂过程遵循以

CART决策树算法详解

CART（Classification and Regression Trees，分类与回归树）是一种广泛应用于分类和回归任务的决策树算法。其核心思想是通过递归地将数据集划分为更纯净的子集，构建二叉树结构，最终生成易于解释的预测模型。以下是CART算法的详细解析：

基尼指数衡量数据的不纯度，值越小表示纯度越高。其公式为：

Gini(D)=1−∑i=1Cpi2Gini(D)=1−i=1∑Cpi2

其中 CC 为类别数，pipi 为第 ii 类的样本比例。

分裂步骤：

对每个特征 AA 的所有可能二分方式进行枚举。
计算分裂后的加权基尼指数：

Ginisplit=NleftNGini(Dleft)+NrightNGini(Dright)Ginisplit=NNleftGini(Dleft)+NNrightGini(Dright)
选择使 GinisplitGinisplit 最小的分裂方式。

目标是最小化子节点的均方误差（MSE）：

MSE=1N∑i=1N(yi−y^)2MSE=N1i=1∑N(yi−y^)2

其中 y^y^ 为子节点样本的均值。分裂时选择使左右子节点MSE之和最小的切分点。

二分法：对 kk 个取值的离散特征，生成所有可能的非空真子集（共 2k−1−12k−1−1 种划分）。
- 示例：特征“颜色”取值为{红, 蓝, 绿}，可能的二分包括：
  - {红} vs {蓝, 绿}
  - {蓝} vs {红, 绿}
  - {绿} vs {红, 蓝}
优化策略：当类别数较多时（如 k>10k>10），按目标变量排序后生成有序二分（类似连续特征处理）。

CART采用**代理分裂（Surrogate Splits）**处理缺失值：

停止分裂条件：
1. 节点样本数小于预设阈值（如5）。
2. 节点纯度达到要求（基尼指数接近0或MSE足够小）。
3. 所有特征已用完或无法进一步分裂。
生成叶子节点：
- 分类任务：叶子节点为多数类。
- 回归任务：叶子节点为样本均值。

CART通过代价复杂度剪枝防止过拟合，步骤如下：

生成子树序列：
- 自底向上遍历树，逐步剪枝得到一系列子树 T0,T1,...,TkT0,T1,...,Tk。
计算复杂度代价：
- 定义代价复杂度函数：
  
  Cα(T)=Error(T)+α⋅∣T∣Cα(T)=Error(T)+α⋅∣T∣
  
  其中 αα 为复杂度参数，∣T∣∣T∣ 为叶子节点数。
交叉验证选择最优 αα：
- 通过验证集选择使预测误差最小的子树。

分类任务：预测是否购买电脑（数据集简化）

建树过程：

CART算法以其简洁的二叉树结构、高效的二分分裂策略以及对分类和回归任务的支持，成为机器学习中的基础工具。

通过基尼指数或均方误差最小化选择分裂点，结合代价复杂度剪枝优化模型，CART在保持可解释性的同时具备较好的预测性能。

实际应用中，常通过集成方法（如随机森林、梯度提升树）进一步提升其表现。