Xgboost随记

212 阅读1分钟

概述

集成算法

既可以做分类也可以做回归

目的是将前一阶段没做好的东西,用后面的树将他们弥补上,使得整体表达效果更好。后续构造的树是用来找回上棵树的残差。

怎样构造后续的树来弥补前一棵树的残差,使得整体的表达效果好呢?

我们选择这个决策树,在构造过程当中,每切分一个节点,就要看这么切分之后,他的表达效果好不好。当然我要看的绝对不是当前这棵树它的表达效果好不好,而是要看与前面的树组合起来整体的表达效果好不好。

如何集成

树模型结构

γ和λ都是惩罚因子。

目标函数

泰勒展开中的x代表原来的模型,Δx是新增加的模型。

将在样本上遍历转换成在叶子节点上遍历

W是最终的值

上面式子中的G和H是可以求解的。
决策树是用信息增益来构造模型的!!

假设在a点处切分,就有了左子树和右子树,左子树和右子树都可以当增益看待,就相当于看下评分函数有木有下降,用原始值减去切分后两个子树分数的和。