[机器学习]随机森林(介绍)什么是随机森林 0/随机森林的特点 1/随机森林的概述 2/随机森林构造过程 <1>随机选择

下面详细介绍随机森林算法

关键词:

集成学习, bagging思想, 有放回的重复采样.

有放回抽样,每个子训练数据集生成一棵决策树, 并行训练. 2个随机(样本随机,特征随机)

cart决策树, 二叉树, 分类采用基尼系数, 回归采用mse均方差

不剪枝, 允许树生长到最大的深度, 因为随机性和集成, 可以抵消过拟合的风险.

没有显示的惩罚, 没有L1和L2正则项

不剪枝, 允许树生长到最大的深度, 做到了低偏差, 也就是准确. 集成思想, 做到了低方差, 也就是鲁棒性好, 泛化能力强.

随机森林（Random Forest）是一种基于集成学习思想（Ensemble Learning）的机器学习算法，通过组合多个决策树（Decision Tree）来提高模型的泛化能力和鲁棒性。

其核心思想是：

Bagging（Bootstrap Aggregating） ：通过有放回抽样（Bootstrap Sampling）生成多个训练数据子集，每个子集训练一个决策树。
特征随机性：每棵树在节点分裂时，随机选择部分特征进行最优划分（减少特征间的相关性）。

最终，分类问题通过投票（多数表决），回归问题通过平均得到预测结果。

随机森林适用于以下场景：

随机森林通常使用 CART（Classification and Regression Tree） 作为基学习器，特点包括：

每棵树的节点划分通过以下步骤实现：

随机选择特征子集：在全部特征中随机选取 m 个候选特征（通常 m=总特征数
最优划分选择：
- 分类任务：使用基尼系数或信息增益（Information Gain）。
- 回归任务：使用均方误差（MSE）或平均绝对误差（MAE）。
递归分裂：重复上述过程直到达到停止条件（如节点样本数小于阈值）。

随机森林 没有显式的惩罚项（如L1/L2正则化），但通过以下机制防止过拟合：

随机森林通过集成和随机性平衡偏差与方差，是解决复杂问题的通用工具。