随机森林与梯度提升的区别

443 阅读5分钟

Random forest vs Gradient boosting

随机森林与梯度提升的区别

随机森林与梯度森林的定义是:随机森林是一种集合学习方法,用于解决分类和回归问题,它有两个步骤,第一步涉及训练和测试的引导技术,第二步涉及预测目的的决策树,而梯度提升被定义为机器学习技术,也用于解决回归和分类问题,它以逐步的方式创建一个模型,它通过优化目标函数得出,我们可以结合一组弱学习模型来建立一个强学习者。

随机森林与梯度提升之间的比较(信息图)

以下是随机森林与梯度提升之间的主要区别。

Random-forest-vs-Gradient-boosting-info

关键差异

  • 性能。

随机森林和梯度提升之间的性能有两个区别,即随机森林能够独立地构建每一棵树,而梯度提升可以一次构建一棵树,因此随机森林的性能比梯度提升要低,另一个区别是随机森林在过程结束时结合其结果,而梯度在过程中结合其结果。

  • 装袋与提升。

决策树的组合是随机森林和梯度提升的主要区别,随机森林是通过使用装袋方法建立的,装袋方法是每个决策树平行使用的方法,其中的每个决策树可以适合从整个数据集中提取的子样本。另一方面,梯度提升法使用提升技术来建立一个集合模型,为了建立一个新的强树,决策树被串联起来,其中的决策树并不适合整个数据集。

  • 过度拟合。

过度拟合是机器学习技术中的关键问题,我们知道在机器学习中,我们使用的算法存在过度拟合的风险,这可以被认为是机器学习的瓶颈,当任何模型很好地适合训练数据时,可能会出现过度拟合,由于我们的模型可以在训练数据下采取一些不必要的细节,所以它不能概括整个数据。

正如我们在上面看到的,随机森林和梯度提升都是集合学习模型,随机森林使用了几棵不是很关键的决策树,也不会导致过拟合,如果我们在其中添加更多的树,那么模型的准确性就会下降,所以我们不想添加更多的树,因此可能会出现计算方面的原因,但在随机森林中。而在梯度提升中,由于树的数量多,可能会出现过拟合的情况,在梯度中,新的树是从剩余的树中加入的,所以每次加入都可能在训练数据中出现噪声,所以在梯度提升中加入许多树会造成过拟合。

  • 引导(Bootstrapping)。

Bootstrapping是统计学中使用的技术,它使用数据样本来预测数据,每个数据样本被称为bootstrap样本,在随机森林中,如果我们不使用bootstrapping技术,那么每个决策树都适合于数据集,由于许多算法将被应用于同一个数据集,它的方式很好,因为我们正在重复做,因此,它提供了更好的性能。如果我们使用相同或不同的决策树,那么我们得到的结果与我们通过单一决策树得到的结果相比不会有很大的不同,因此自举在创建不同的决策树方面起着重要的作用,而梯度提升没有使用自举技术,它的每一棵决策树都与前一棵树相适应,所以它在有不同树的情况下不能很好地工作。

随机森林与梯度提升的比较表

S.N.随机森林梯度提升
1.它可以独立构建每棵树。而它一次建立一棵树。
2.bagging方法已经建立了随机森林,它被用来构建良好的预测/猜测结果。而它是一种非常强大的技术,用于构建猜测模型。
3.随机森林有许多决策树,所以通过使用引导法,单个树将试图创建一个不相关的树的森林。使用梯度提升法有助于建立一个人类运动追踪器模型。
4.它所给出的预测模型比其他的个体树更准确。另一方面,与单一的强学习方法相比,它创造了更高的准确结果。
5.结果在过程结束时被合并。而它则是沿途结合结果。
6.与梯度提升相比,它的性能较差。它能提供更好的性能,但当我们有很多噪音时,它的性能就不好了。
7.7.多类物体检测和生物信息学也能提供更好的性能。另一方面,当我们有不平衡的数据时,如在实时风险评估中,它能给出一个好的性能。
8.它使用决策树进行预测/猜测。但是,它使用回归树进行预测/猜测的目的。
9.9.它很容易使用。因为它们涉及许多步骤,所以很难使用。
10.训练数据的样本已经被过度拟合,然后通过使用预测器的简单平均化来减少过度拟合。而它重复训练树或以前预测器的剩余部分。

结论

在这篇文章中,我们得出结论,随机森林和梯度提升都有非常高效的算法,它们使用回归和分类来解决问题,同时,在随机森林中不会出现过拟合,但在梯度提升算法中,由于增加了几棵新树,所以会出现过拟合。