西瓜书 - 随机森林这是我参与11月更文挑战的第6天，活动详情查看：2021最后一次更文挑战随机森林强学习器和弱学习

这是我参与11月更文挑战的第6天，活动详情查看：2021最后一次更文挑战

随机森林

强学习器和弱学习器的定义以及划分的依据是什么？
强学习器和弱学习器 - 相对的概念，没有很明确的划分界限 - 体现在学习器对复杂场景的处理能力上
相比于决策树模型 - 随机森林就可称为强学习器。和其他更复杂的模型相比，就是弱学习器
模型集成 - 多个弱学习器构造成一个强学习器
1. 解释模型集成和模型融合的概念，并举出相应的例子
  模型集成 - 将多个弱学习器【基模型】组合 - 提高模型的学习泛化能力
  同质集成模型 - 将相同种类模型进行集成异质集成模型 - 不同种类的模型进行集成
  常用的模型集成方法 - Bagging和Boosting - 随机森林和GBDT是各自的代表
2. 模型融合 - 基于模型集成而产生的概念在模型集成中，需要将各个基模型的结果进行组合，得到最终的结果，这个过程称为模型融合
  常用的模型融合方法：
  1. 平均法：预测问题 - 各个基模型的结果进行平均作为最终结果
  2. 投票法：分类问题 - 选择基模型中预测较多的类别作为最终结果

随机森林的基本原理

模型集成 - Bagging方法的典型代表 - 样本/变量的n次随机采样 - 得到n个样本集 - 每个样本集 独立训练决策树模型 - n个决策树模型的结果 - 集合策略得到最终的输出 - n个决策树模型相对独立【非完全独立，训练集间有交集】

Booststrap Sample[有放回采样]方法 - 对样本随机采样 - lim 1-(1-1/n)^n = 1 - 1/e ≈ 63.2%
每次采样大约有63.3%的样本被选中 - 同样适用于对变量进行随机抽取

相比于决策树模型，随机森林模型为何能实现更好的效果？
模型误差 = 偏差+方差
各个决策树模型 - 相同的偏差和方差 - 多个决策树模型的结果进行平均/投票 - 保证随机森林模型的偏差与单个决策树模型的偏差基本相同
由于各个决策树模型之间的相对独立性 - 对结果进行平均/加权 - 大幅度减小随机森林模型的方差 - 将误差变小