决策树

5,627 阅读2分钟

什么是决策树

决策树顾名思义,就是用决策树来做决定,属于监督学习,可以用来解决分类,回归问题

决策树学习的步骤

特征选择

特征选择决定了使用哪些特征来做判断。在训练数据集中,每个样本的属性可能有很多个,不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征,也就是分类能力较强的特征。

决策树生成

选择好特征后,就从根节点触发,对节点计算所有特征的信息增益,选择信息增益最大的特征作为节点特征,根据该特征的不同取值建立子节点;对每个子节点使用相同的方式生成新的子节点,直到信息增益很小或者没有特征可以选择为止。

决策树减枝

剪枝的主要目的是对抗「过拟合」,通过主动去掉部分分支来降低过拟合的风险。

决策树优点与缺点

优点

  • 决策树可以解释,适合用于银行业,保险业
  • 可以处理数值和类别的特征

缺点

  • 鲁棒性差
  • 复杂的树可能会导致过拟合
  • 不那么适合并行,性能有点差

随机森林

随机森林是一组决策树。既然我们单个决策树不稳定,我们就用多个随机树来增强稳定性。

  • 如果是分类问题,就可以用多个随机树进行投票,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。
  • 如果是回归问题,就可以用多个随机树的预测值进行平均

随机森林的随机性

  • 随机选择并替换训练样本
  • 随机选择特征的子集

梯度提升的决策树:Gradient Boosting Decision Tree

截屏2023-01-01 上午10.48.59.png 如果你接触过resnet,这张图一看就懂了