西瓜书 - 随机森林

320 阅读2分钟

这是我参与11月更文挑战的第6天,活动详情查看:2021最后一次更文挑战

随机森林

  1. 强学习器和弱学习器的定义以及划分的依据是什么?
    强学习器和弱学习器 - 相对的概念,没有很明确的划分界限 - 体现在学习器对复杂场景的处理能力
    相比于决策树模型 - 随机森林就可称为强学习器。和其他更复杂的模型相比,就是弱学习器
    模型集成 - 多个弱学习器构造成一个强学习器
    1. 解释模型集成和模型融合的概念,并举出相应的例子
      模型集成 - 将多个弱学习器【基模型】组合 - 提高模型的学习泛化能力
      同质集成模型 - 将相同种类模型进行集成 异质集成模型 - 不同种类的模型进行集成
      常用的模型集成方法 - Bagging和Boosting - 随机森林和GBDT是各自的代表
    2. 模型融合 - 基于模型集成而产生的概念 在模型集成中,需要将各个基模型的结果进行组合,得到最终的结果, 这个过程称为模型融合
      常用的模型融合方法:
      1. 平均法:预测问题 - 各个基模型的结果进行平均作为最终结果
      2. 投票法:分类问题 - 选择基模型中预测较多的类别作为最终结果

随机森林的基本原理

模型集成 - Bagging方法的典型代表 - 样本/变量 的n次随机采样 - 得到n个样本集 - 每个样本集 独立训练决策树模型 - n个决策树模型的结果 - 集合策略得到最终的输出 - n个决策树模型相对独立【非完全独立,训练集间有交集】

Booststrap Sample[有放回采样]方法 - 对样本随机采样 - lim 1-(1-1/n)^n = 1 - 1/e ≈ 63.2%
每次采样大约有63.3%的样本被选中 - 同样适用于对变量进行随机抽取

相比于决策树模型,随机森林模型为何能实现更好的效果?
模型误差 = 偏差+方差
各个决策树模型 - 相同的偏差和方差 - 多个决策树模型的结果进行平均/投票 - 保证随机森林模型的偏差与单个决策树模型的偏差基本相同
由于各个决策树模型之间的相对独立性 - 对结果进行平均/加权 - 大幅度减小随机森林模型的方差 - 将误差变小