当数据集中存在异常值时，为什么随机森林比普通决策树和逻辑回归表现更好？大多数时候，很难想象没有离群值的真实世界数据集。让

大多数时候，很难想象没有离群值的真实世界数据集。让我们看看与决策树和逻辑回归相比，RF 在处理异常值方面如何更有效！

分类上下文：

1> 决策树的工作：根据分类或数值特征，我们以最大信息增益拆分每个节点（wrt 特征）以构建树。然后使用 if-else 语句跟踪树以获得查询输入的预测输出。如果数据中存在 Outliers，树的深度会增加，导致预测输出不稳定。
2> Logistic 回归的工作：这里我们简单地尝试拟合具有最大平方误差/成本函数的线性超平面分隔符。异常值肯定会干扰优化的超平面分离器。
3> 随机森林的工作：我们通过替换数据集k次进行行和列采样，产生k个子数据集。现在我们在决策树上训练所有这些 k 个子数据集，从而训练 k 个基学习器 (DT)，然后我们通过聚合（每个基模型的所有结果的多数投票）所有基学习器的结果得到最终输出。如果你敏锐地观察Random Forest的工作原理，我们就能清楚地理解RF是如何处理Outliers的。

任何机器学习模型的目标都是减少这个误差：
误差 = 偏差**2 + 方差 + 不可约误差
（暂时忽略不可约误差）
这意味着理想情况下我们想要一个低方差（无过度拟合）和低偏差（无欠拟合）。我们尝试使用 RF 来实现这一点。
由于我们有 k 个基学习器，因此我们将有许多具有高方差的基学习器。然后我们聚合 k 个基学习器的所有结果以获得我们的最终输出。在此聚合期间，“高方差”将减少，同时平衡偏差。

所以在 RF 中，我们试图减少方差并稍微减少或保持偏差不变。我们在 RF 中得到的错误小于我们在正常 DT 或逻辑回归中得到的错误。

所以 RF 中的 HEROIC 元素是聚合步骤。

故事的转折：带正则化的逻辑回归 v/s RF ??
**对于 RF，正则化以聚合的形式发生，而不是成本函数的形式。
当离群值非常低或没有离群值时，逻辑回归比 RF 表现更好。