随机森林-当算法是回归算法,模型的泛化误差公式推导

318 阅读1分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 1 天,点击查看活动详情

符号含义
xx测试样本
DD数据集
yDy_Dxx 在数据集中的标记
yyxx 的真实标记
ff训练集 DD 学到的模型
f(x;D)f (x;D)由训练集 DD 学得的模型 ffxx 的预测输出
fˉ(x)\bar{f}(x)模型 ffxx 的期望预测输出

因此我们可以得到,学得的算法预测结果的期望为

fˉ(x)=ED[f(x;D)]\bar{f}(x)=\mathbb{E}_{D}[f(x;D)]

根据描述,我们来看一下偏差、方差、噪音的公式 偏差是预测值与真实值之间的差异,衡量模型的精度。

bias2(x)=(fˉ(x)y)2bias^{2}(x)=(\bar{f}(x)-y)^{2}

方差是模型在不同数据集上输出的结果的方差,衡量模型稳定性。

var(x)=ED[(f(x;D)fˉ(x))2]var(x)=\mathbb{E}_{D}[(f(x;D)-\bar{f}(x))^{2}]

噪音是数据收集过程当中不可避免的、与数据真实分布无关的信息

noise2=ED[(yDy)2]noise ^{2}=\mathbb{E}_{D}[(y_{D}-y)^{2}]

现在证明

泛化误差=2+方差+2=bias2+variance+noise2\begin{aligned} 泛化误差 &= 偏差^2 + 方差 + 噪音^2 \\ &= bias^2 + variance + noise^2 \end{aligned}

首先我们假定噪声的期望为 0,也就是

ED[yDy]=0\mathbb{E}_{D}[y_{D}-y]=0

image.png

这里公式不知道哪里错了,在latex上能渲染出来,就截图了

(1)(1) 证明 ED[2(f(x;D)fˉ(x))(fˉ(x)yD)]=0\mathbb{E}_{D}[2 (f (x; D)-\bar{f}(x))(\bar{f}(x)-y_{D})]=0,也就是证明变量 f(x;D)fˉ(x)f (x; D)-\bar{f}(x)fˉ(x)yD\bar{f}(x)-y_{D} 不相关

Cov[(f(x;D)fˉ(x)),(fˉ(x)yD)]=E[(f(x;D)fˉ(x))E(f(x;D)fˉ(x))]×E[(fˉ(x)yD)E(fˉ(x)yD)]=E[f(x;D)E[f(x;D)]]×E[(fˉ(x)yD)E(fˉ(x)yD)]=E[f(x;D)fˉ(x)]×E[(fˉ(x)yD)E(fˉ(x)yD)]=0×E[(fˉ(x)yD)E(fˉ(x)yD)]=0\begin{aligned} &\text{Cov}[(f (x; D)-\bar{f}(x)),(\bar{f}(x)-y_{D})]\\ =&\text{E}[(f (x; D)-\bar{f}(x))-\text{E}(f (x; D)-\bar{f}(x))]\\ &\times \text{E}[(\bar{f}(x)-y_{D})-\text{E}(\bar{f}(x)-y_{D})]\\ =&\text{E}[f(x;D)-\text{E}[f(x;D)]]\times \text{E}[(\bar{f}(x)-y_{D})-\text{E}(\bar{f}(x)-y_{D})]\\ =&\text{E}[f(x;D)-\bar{f}(x)]\times \text{E}[(\bar{f}(x)-y_{D})-\text{E}(\bar{f}(x)-y_{D})]\\ =&0\times \text{E}[(\bar{f}(x)-y_{D})-\text{E}(\bar{f}(x)-y_{D})]\\ =&0 \end{aligned}

因此不相关 ED[2(f(x;D)fˉ(x))(fˉ(x)yD)]=0\mathbb{E}_{D}[2 (f (x; D)-\bar{f}(x))(\bar{f}(x)-y_{D})]=0

(2)(2) 证明 ED[(fˉ(x)y)(yyD)]=0\mathbb{E}_{D}[(\bar{f}(x)-y)(y-y_{D})]=0,也就是证明变量 fˉ(x)y\bar{f}(x)-yyyDy-y_{D} 不相关

Cov[(fˉ(x)y),(yyD)]=E[(fˉ(x)y)E(fˉ(x)y)]×E[(yyD)E(yyD)]=E[(fˉ(x)y)E(fˉ(x)y)]×E[(yyD)0]=E[(fˉ(x)y)E(fˉ(x)y)]×0=0\begin{aligned} &\text{Cov}[(\bar{f}(x)-y),(y-y_{D})]\\ =&\text{E}[(\bar{f}(x)-y)-\text{E}(\bar{f}(x)-y)]\times \text{E}[(y-y_{D})-\text{E}(y-y_{D})]\\ =&\text{E}[(\bar{f}(x)-y)-\text{E}(\bar{f}(x)-y)]\times \text{E}[(y-y_{D})-0]\\ =&\text{E}[(\bar{f}(x)-y)-\text{E}(\bar{f}(x)-y)]\times0\\ =&0 \end{aligned}