什么是决策树
决策树顾名思义,就是用决策树来做决定,属于监督学习,可以用来解决分类,回归问题
决策树学习的步骤
特征选择
特征选择决定了使用哪些特征来做判断。在训练数据集中,每个样本的属性可能有很多个,不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征,也就是分类能力较强的特征。
决策树生成
选择好特征后,就从根节点触发,对节点计算所有特征的信息增益,选择信息增益最大的特征作为节点特征,根据该特征的不同取值建立子节点;对每个子节点使用相同的方式生成新的子节点,直到信息增益很小或者没有特征可以选择为止。
决策树减枝
剪枝的主要目的是对抗「过拟合」,通过主动去掉部分分支来降低过拟合的风险。
决策树优点与缺点
优点
- 决策树可以解释,适合用于银行业,保险业
- 可以处理数值和类别的特征
缺点
- 鲁棒性差
- 复杂的树可能会导致过拟合
- 不那么适合并行,性能有点差
随机森林
随机森林是一组决策树。既然我们单个决策树不稳定,我们就用多个随机树来增强稳定性。
- 如果是分类问题,就可以用多个随机树进行投票,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。
- 如果是回归问题,就可以用多个随机树的预测值进行平均
随机森林的随机性
- 随机选择并替换训练样本
- 随机选择特征的子集
梯度提升的决策树:Gradient Boosting Decision Tree
如果你接触过resnet,这张图一看就懂了