[CART决策树]如何划分连续型特征CART（分类与回归树）在处理连续型特征时，通过动态二分法将连续值转换为二元分裂条件

CART（分类与回归树）在处理连续型特征时，通过动态二分法将连续值转换为二元分裂条件（如“特征 ≤ 阈值”和“特征 > 阈值”），选择使子节点纯度（基尼指数或均方误差）最优的分割点。

以下是详细流程：

1. 核心步骤

对连续型特征的所有样本值进行升序排序。
示例：特征“年龄”的原始值为 [22, 45, 18, 30, 35, 25]，排序后为 [18, 22, 25, 30, 35, 45]。

遍历排序后的相邻样本，若它们的目标变量不同，则取中间值作为候选分割点。
规则：

示例：
假设排序后的“年龄”和目标变量为：

年龄	18	22	25	30	35	45
购买	否	否	是	是	是	否

候选分割点为：

对每个候选分割点，计算分裂后的子节点不纯度（分类任务用基尼指数，回归任务用均方误差），选择不纯度最小的分割点。

分类任务（基尼指数） ：

示例（分割点23.5） ：

左子节点：年龄 ≤23.5 → 样本为[18,22]，目标均为“否”。

Ginileft=1−(2/2)2=0Ginileft=1−(2/2)2=0
右子节点：年龄 >23.5 → 样本为[25,30,35,45]，目标为[是, 是, 是, 否]。

Giniright=1−(3/4)2−(1/4)2=1−0.5625−0.0625=0.375Giniright=1−(3/4)2−(1/4)2=1−0.5625−0.0625=0.375
总基尼指数：

Ginisplit=26×0+46×0.375=0.25Ginisplit=62×0+64×0.375=0.25

回归任务（均方误差） ：

计算左右子节点样本的均值 y^lefty^left 和 y^righty^right。
总均方误差为左右子节点误差之和：

MSE=∑i∈left(yi−y^left)2+∑i∈right(yi−y^right)2MSE=i∈left∑(yi−y^left)2+i∈right∑(yi−y^right)2

遍历所有候选分割点，选择使总不纯度最小的点作为最终分裂阈值。
示例结果：

数据集：

步骤：

CART通过以下步骤处理连续型特征：

排序特征值，生成候选分割点（相邻不同类样本的中点）, 只排序一次, 找到所有的候选分裂点
遍历所有候选点，计算分裂后的不纯度（基尼指数或均方误差）。
选择不纯度最小的分割点，将连续特征转换为二元条件（如“特征 ≤ 阈值”）。
该方法高效且灵活，既适用于分类任务，也适用于回归任务，是CART算法的核心优势之一。