随机森林-当算法是回归算法，模型的泛化误差公式推导发布技术文章，文章内首/尾句带关键词“开启掘金成长之旅！这是我参与「掘

开启掘金成长之旅！这是我参与「掘金日新计划 · 2 月更文挑战」的第 1 天，点击查看活动详情

因此我们可以得到，学得的算法预测结果的期望为

\bar{f}(x)=\mathbb{E}_{D}[f(x;D)]

根据描述，我们来看一下偏差、方差、噪音的公式偏差是预测值与真实值之间的差异，衡量模型的精度。

bias^{2}(x)=(\bar{f}(x)-y)^{2}

方差是模型在不同数据集上输出的结果的方差，衡量模型稳定性。

var(x)=\mathbb{E}_{D}[(f(x;D)-\bar{f}(x))^{2}]

噪音是数据收集过程当中不可避免的、与数据真实分布无关的信息

noise ^{2}=\mathbb{E}_{D}[(y_{D}-y)^{2}]

现在证明

\begin{aligned} 泛化误差 &= 偏差^2 + 方差 + 噪音^2 \\ &= bias^2 + variance + noise^2 \end{aligned}

首先我们假定噪声的期望为 0，也就是

\mathbb{E}_{D}[y_{D}-y]=0

有

这里公式不知道哪里错了，在latex上能渲染出来，就截图了

$(1)$ 证明 $\mathbb{E}_{D}[2 (f (x; D)-\bar{f}(x))(\bar{f}(x)-y_{D})]=0$ ，也就是证明变量 $f (x; D)-\bar{f}(x)$ 和 $\bar{f}(x)-y_{D}$ 不相关

\begin{aligned} &\text{Cov}[(f (x; D)-\bar{f}(x)),(\bar{f}(x)-y_{D})]\\ =&\text{E}[(f (x; D)-\bar{f}(x))-\text{E}(f (x; D)-\bar{f}(x))]\\ &\times \text{E}[(\bar{f}(x)-y_{D})-\text{E}(\bar{f}(x)-y_{D})]\\ =&\text{E}[f(x;D)-\text{E}[f(x;D)]]\times \text{E}[(\bar{f}(x)-y_{D})-\text{E}(\bar{f}(x)-y_{D})]\\ =&\text{E}[f(x;D)-\bar{f}(x)]\times \text{E}[(\bar{f}(x)-y_{D})-\text{E}(\bar{f}(x)-y_{D})]\\ =&0\times \text{E}[(\bar{f}(x)-y_{D})-\text{E}(\bar{f}(x)-y_{D})]\\ =&0 \end{aligned}

因此不相关 $\mathbb{E}_{D}[2 (f (x; D)-\bar{f}(x))(\bar{f}(x)-y_{D})]=0$

$(2)$ 证明 $\mathbb{E}_{D}[(\bar{f}(x)-y)(y-y_{D})]=0$ ，也就是证明变量 $\bar{f}(x)-y$ 和 $y-y_{D}$ 不相关

\begin{aligned} &\text{Cov}[(\bar{f}(x)-y),(y-y_{D})]\\ =&\text{E}[(\bar{f}(x)-y)-\text{E}(\bar{f}(x)-y)]\times \text{E}[(y-y_{D})-\text{E}(y-y_{D})]\\ =&\text{E}[(\bar{f}(x)-y)-\text{E}(\bar{f}(x)-y)]\times \text{E}[(y-y_{D})-0]\\ =&\text{E}[(\bar{f}(x)-y)-\text{E}(\bar{f}(x)-y)]\times0\\ =&0 \end{aligned}