10种情况下应避免使用基于树的机器学习模型

461 阅读7分钟

基于树的机器学习模型通常被用于其容易解释和处理高维数据的方式。但是,基于树的模型在一些用例中存在一些问题,传统的机器学习模型与机器学习中的基于树的模型相比,只显得性能更好,收敛更快。因此,在这篇文章中,让我们看看什么时候不能在机器学习中使用树状模型,以及禁止在机器学习中使用树状模型的因素是什么。

目录

  1. 什么是树状模型?
  2. 什么时候不能使用树状模型?
  3. 摘要

什么是树状模型?

顾名思义,基于树的模型有一个整体的树的结构。这些模型的整体结构基本上由根节点组成,在树下,分支被认为是子树,树的子树的叶子可以被认为是叶节点。以类似的方式,机器学习中的一棵树被称为决策树,这种树的森林被认为是随机森林。基于树的模型可用于回归和分类任务。

你是否在寻找一个完整的数据科学中使用的Python库,查看这里.

基于树的模型似乎更偏向于类似于流程图的结构,每个步骤中都有一定的条件。树状模型的概述如下:

什么时候不使用树状模型?

让我们了解一下最常用的树型机器学习模型的局限性,即决策树和随机森林。决策树是有监督的机器学习算法之一,可用于回归或分类任务,与其他模型不同,决策树有一定的局限性,让我们详细了解其局限性。

1.在回归分析中为什么需要性能

回归任务基本上是对数据集的各种特征进行统计分析,以预测连续变量结果。对于回归任务,可能会有各种特征,在各种特征存在的情况下,决策树模型可能会对训练集过度拟合,对于高维数据,树的深度可能会增加,而对于低维数据,可能会出现拟合不足,因为它可能要用较少的分支数量快速收敛,决策树在树的发展过程中可能会负责捕捉错误的相关特征。

因此,对于回归任务,不应该使用基于树的模型,因为基于树的模型将数据分解成更小的子集,完全不考虑特征的相关性,结果是对结果的正确预测效果较差,而且决策树模型可能容易出现信息丢失。另外,对于回归任务,不应该使用基于树的模型,因为对于相对较小的数据集,噪音和不确定性较小,基于树的模型可能会产生较低的准确率。

2.什么时候不要陷入过度拟合的情况

当树状模型被用于高维数据或数据时,主要容易出现过拟合。因此,如果模型被完美地设计来适应训练数据,它就会过度拟合,不能很好地概括测试数据。因此,在设计决策树的时候,树的深度和树的节点等参数必须在叶子节点之间有适当的划分属性,否则模型的准确性会变得非常低。

因此,基于树的模型不应该被用于高维数据 ,因为决策树往往会因为有更多的特征而变得更深,而且它会记忆训练数据,导致过度拟合,并在测试或不确定的数据时表现不佳。因此,当考虑到相对较大的数据时,决策树会增长到其完整的深度,并倾向于记忆较小的样本分割,并倾向于过度拟合数据。

3.当数据有任何变化时

基于树的模型对数据的微小变化非常敏感,它们可能不太适合用于连续变量的预测,因为对于这些用例,不能期望数据保持静止状态。因此,树状模型不能用于具有较高不确定性的数据, ,因为该模型可能会产生非常低的准确性,也会产生错误的预测,当考虑用于某些分类任务时,如果存在对一个变量支持度较高的实例,如果未来目标得到平衡,树状模型仍然会偏向于第一个出现的多数类别。

4.4.当数据中存在更多的依赖性样本时

当数据集中有更多的从属样本时,不应该使用树状模型,因为树状模型对每个从属样本给予不同的权重,较高的权重将只给予某些从属特征,而某些特征将被给予非常低的权重,这反过来可能会导致模型的准确性差。因此,当数据集中有依赖性特征时,不应使用基于树的模型。

5.5.当训练时间是一个限制因素时

数据的特征数量和基于树的模型的训练时间直接取决于训练时间,对于高维度的数据,与其他监督学习算法相比,基于树的模型将消耗更多的训练时间。因此,对于高维数据,为了加快训练过程,可以使用支持向量机算法,而不是基于树的模型。

6.如果要采用正则化

如果要将正则化应用于任何模型的建立以防止过度拟合,则不能使用基于树的模型,因为正则化对于基于树的模型来说是不可能的,因为它是在启发式算法上运行的,而启发式算法是在决策的基本原则上运行的。因此,如果要将正则化应用于机器学习模型,就不能使用基于树的模型。

7.与平均绝对误差不兼容

平均绝对误差是一个基本用于衡量连续变量准确性的指标,基于树的模型与平均绝对误差不兼容,因为基于树的模型将消耗更多的时间来计算这个参数,或者它可能根本就不收敛。

8.8.重新取样对树状模型来说很耗时

对于高维数据和高折数的树状模型来说,交叉验证等数据再抽样技术是很耗时的。因此,如果重采样技术要用于模型的建立,可以使用其他机器学习模型来代替基于树的模型。

9.管道中的计算时间较长

与其他机器学习模型相比,基于树的模型由于其复杂的结构,在高维数据上需要更长的时间来适应管道。因此,如果要创建一个快速运行的机器学习管道,就不能使用基于树的模型。

10.对最多出现的类别的偏见

树状模型在树状算法的投票分类器上对最多出现的类有偏见,投票分类器可能会从每个基础学习者中产生更多的出现类,投票分类器也可能受到基础学习者的影响而产生错误的预测。因此,如果要获得无偏见的预测,就不能使用基于树的模型。

总结

正如本文所提到的,基于树的机器学习模型在使用中对数据的类型和数据的特性有一些担忧。所以在机器学习中,基于树的建模并不是对所有应用和问题进行建模的有效方式。因此,如果数据比较简单,没有离群值或没有多重共线性,传统的机器学习建模技术可以比机器学习中的树状模型更容易被使用。