决策树与随机森林有什么区别？决策树是一种机器学习模型，当一组预测变量和一个响应变量之间的关系是非线性的时候，就会使用这种

决策树是一种机器学习模型，当一组预测变量和一个响应变量之间的关系是非线性的时候，就会使用这种模型。

决策树的基本思想是使用一组预测变量建立一棵 "树"，使用决策规则预测一些响应变量的值。

例如，我们可以使用预测变量 "打球年限 "和 "平均全垒打 "来预测职业棒球运动员的年薪。

使用这个数据集，下面是决策树模型可能的样子。

example of a decision tree

以下是我们如何解释这个决策树。

决策树的主要优点是，它可以快速拟合数据集，并且最终的模型可以通过像上面那样的 "树状 "图进行整齐的可视化和解释。

主要的缺点是，决策树很容易过度拟合训练数据集，这意味着它很可能在未见过的数据上表现不佳。它还会受到数据集中的异常值的严重影响。

决策树的延伸是一种被称为随机森林的模型，它本质上是决策树的集合。

以下是我们用来建立随机森林模型的步骤。

**1.**从原始数据集中提取自举样本。

**2.**2.对于每个引导样本，使用预测变量的随机子集建立一个决策树。

**3.**3.对每棵树的预测进行平均，得出最终模型。

随机森林的好处是，它们在未见过的数据上的表现往往比决策树好得多，而且它们不容易出现异常值。

随机森林的缺点是，没有办法将最终模型可视化，如果你没有足够的计算能力，或者你正在处理的数据集非常大，它们可能需要很长时间来构建。

下表总结了决策树与随机森林的优点和缺点。

table summarizing difference between decision tree and random forest

下面是对表格中每一行的简要解释。

1.可解释性

决策树很容易解释，因为我们可以创建一个树状图来可视化和理解最终模型。

相反，我们不能将随机森林可视化，要理解最终的随机森林模型是如何做出决策的，往往会有困难。

2.准确度

由于决策树有可能过度拟合训练数据集，因此它们在未见过的数据集上的表现往往不尽如人意。

相反，随机森林在未见过的数据集上往往是高度准确的，因为它们避免过度拟合训练数据集。

3.过度拟合

如前所述，决策树经常过度拟合训练数据--这意味着它们可能会拟合数据集中的 "噪音"，而不是真正的底层模式。

相反，由于随机森林只使用一些预测变量来构建每个单独的决策树，最终的树往往是装饰性的，这意味着随机森林模型不太可能过度拟合数据集。

4.异常值

决策树很容易受到离群值的影响。

相反，由于随机森林模型建立了许多单独的决策树，然后取这些树预测的平均值，它受异常值影响的可能性要小得多。

5.5.计算

决策树可以快速适应数据集。

相反，随机森林的计算量要大得多，根据数据集的大小，可能需要很长的时间来构建。

作为一个经验法则。

如果你想快速建立一个非线性模型，并且希望能够轻松地解释模型是如何做出决策的，你应该使用决策树。

然而，如果你有足够的计算能力，并且你想建立一个可能高度准确的模型，而不用担心如何解释这个模型，那么你应该使用随机森林。

在现实世界中，机器学习工程师和数据科学家经常使用随机森林，因为它们高度准确，而且现代计算机和系统通常可以处理过去无法处理的大型数据集。

以下教程对决策树和随机森林模型进行了介绍。

下面的教程解释了如何在R中拟合决策树和随机森林。