大多数时候,很难想象没有离群值的真实世界数据集。让我们看看与决策树和逻辑回归相比,RF 在处理异常值方面如何更有效!
分类上下文:
1> 决策树的工作:根据分类或数值特征,我们以最大信息增益拆分每个节点(wrt 特征)以构建树。然后使用 if-else 语句跟踪树以获得查询输入的预测输出。如果数据中存在 Outliers,树的深度会增加,导致预测输出不稳定。
2> Logistic 回归的工作:这里我们简单地尝试拟合具有最大平方误差/成本函数的线性超平面分隔符。异常值肯定会干扰优化的超平面分离器。
3> 随机森林的工作:我们通过替换数据集k次进行行和列采样,产生k个子数据集。现在我们在决策树上训练所有这些 k 个子数据集,从而训练 k 个基学习器 (DT),然后我们通过聚合(每个基模型的所有结果的多数投票)所有基学习器的结果得到最终输出。如果你敏锐地观察Random Forest的工作原理,我们就能清楚地理解RF是如何处理Outliers的。
任何机器学习模型的目标都是减少这个误差:
误差 = 偏差**2 + 方差 + 不可约误差
(暂时忽略不可约误差)
这意味着理想情况下我们想要一个低方差(无过度拟合)和低偏差(无欠拟合)。我们尝试使用 RF 来实现这一点。
由于我们有 k 个基学习器,因此我们将有许多具有高方差的基学习器。然后我们聚合 k 个基学习器的所有结果以获得我们的最终输出。在此聚合期间,“高方差”将减少,同时平衡偏差。
所以在 RF 中,我们试图减少方差并稍微减少或保持偏差不变。我们在 RF 中得到的错误小于我们在正常 DT 或逻辑回归中得到的错误。
所以 RF 中的 HEROIC 元素是聚合步骤。
故事的转折:带正则化的逻辑回归 v/s RF ??
**对于 RF,正则化以聚合的形式发生,而不是成本函数的形式。
当离群值非常低或没有离群值时,逻辑回归比 RF 表现更好。