决策树与随机森林有什么区别?

622 阅读4分钟

决策树是一种机器学习模型,当一组预测变量和一个响应变量之间的关系是非线性的时候,就会使用这种模型。

决策树的基本思想是使用一组预测变量建立一棵 "树",使用决策规则预测一些响应变量的值。

例如,我们可以使用预测变量 "打球年限 "和 "平均全垒打 "来预测职业棒球运动员的年薪。

使用这个数据集,下面是决策树模型可能的样子。

example of a decision tree

以下是我们如何解释这个决策树。

  • 出场时间少于4.5年的球员,预测工资为225.8千美元
  • 大于或等于4.5年的球员,平均16.5支全垒打以下的球员,预测工资为577.6千美元。
  • 大于或等于4.5年的比赛,并且大于或等于16.5支平均全垒打的球员的预测工资为975.6千美元

决策树的主要优点是,它可以快速拟合数据集,并且最终的模型可以通过像上面那样的 "树状 "图进行整齐的可视化和解释。

主要的缺点是,决策树很容易过度拟合训练数据集,这意味着它很可能在未见过的数据上表现不佳。它还会受到数据集中的异常值的严重影响。

决策树的延伸是一种被称为随机森林的模型,它本质上是决策树的集合。

以下是我们用来建立随机森林模型的步骤。

**1.**从原始数据集中提取自举样本。

**2.**2.对于每个引导样本,使用预测变量的随机子集建立一个决策树。

**3.**3.对每棵树的预测进行平均,得出最终模型。

随机森林的好处是,它们在未见过的数据上的表现往往比决策树好得多,而且它们不容易出现异常值。

随机森林的缺点是,没有办法将最终模型可视化,如果你没有足够的计算能力,或者你正在处理的数据集非常大,它们可能需要很长时间来构建。

优点和缺点:决策树与随机森林的比较

下表总结了决策树与随机森林的优点和缺点。

table summarizing difference between decision tree and random forest

下面是对表格中每一行的简要解释。

1.可解释性

决策树很容易解释,因为我们可以创建一个树状图来可视化和理解最终模型。

相反,我们不能将随机森林可视化,要理解最终的随机森林模型是如何做出决策的,往往会有困难。

2.准确度

由于决策树有可能过度拟合训练数据集,因此它们在未见过的数据集上的表现往往不尽如人意。

相反,随机森林在未见过的数据集上往往是高度准确的,因为它们避免过度拟合训练数据集。

3.过度拟合

如前所述,决策树经常过度拟合训练数据--这意味着它们可能会拟合数据集中的 "噪音",而不是真正的底层模式。

相反,由于随机森林只使用一些预测变量来构建每个单独的决策树,最终的树往往是装饰性的,这意味着随机森林模型不太可能过度拟合数据集。

4.异常值

决策树很容易受到离群值的影响。

相反,由于随机森林模型建立了许多单独的决策树,然后取这些树预测的平均值,它受异常值影响的可能性要小得多。

5.5.计算

决策树可以快速适应数据集。

相反,随机森林的计算量要大得多,根据数据集的大小,可能需要很长的时间来构建。

何时使用决策树与随机森林

作为一个经验法则。

如果你想快速建立一个非线性模型,并且希望能够轻松地解释模型是如何做出决策的,你应该使用决策树

然而,如果你有足够的计算能力,并且你想建立一个可能高度准确的模型,而不用担心如何解释这个模型,那么你应该使用随机森林

在现实世界中,机器学习工程师和数据科学家经常使用随机森林,因为它们高度准确,而且现代计算机和系统通常可以处理过去无法处理的大型数据集。

其他资源

以下教程对决策树和随机森林模型进行了介绍。

下面的教程解释了如何在R中拟合决策树和随机森林。

The postDecision Tree vs. Random Forests:首先出现在Statology