开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 1 天,点击查看活动详情
| 符号 | 含义 |
|---|
| x | 测试样本 |
| D | 数据集 |
| yD | x 在数据集中的标记 |
| y | x 的真实标记 |
| f | 训练集 D 学到的模型 |
| f(x;D) | 由训练集 D 学得的模型 f 对 x 的预测输出 |
| fˉ(x) | 模型 f 对 x 的期望预测输出 |
因此我们可以得到,学得的算法预测结果的期望为
fˉ(x)=ED[f(x;D)]
根据描述,我们来看一下偏差、方差、噪音的公式
偏差是预测值与真实值之间的差异,衡量模型的精度。
bias2(x)=(fˉ(x)−y)2
方差是模型在不同数据集上输出的结果的方差,衡量模型稳定性。
var(x)=ED[(f(x;D)−fˉ(x))2]
噪音是数据收集过程当中不可避免的、与数据真实分布无关的信息
noise2=ED[(yD−y)2]
现在证明
泛化误差=偏差2+方差+噪音2=bias2+variance+noise2
首先我们假定噪声的期望为 0,也就是
ED[yD−y]=0
有

这里公式不知道哪里错了,在latex上能渲染出来,就截图了
(1) 证明 ED[2(f(x;D)−fˉ(x))(fˉ(x)−yD)]=0,也就是证明变量 f(x;D)−fˉ(x) 和 fˉ(x)−yD 不相关
=====Cov[(f(x;D)−fˉ(x)),(fˉ(x)−yD)]E[(f(x;D)−fˉ(x))−E(f(x;D)−fˉ(x))]×E[(fˉ(x)−yD)−E(fˉ(x)−yD)]E[f(x;D)−E[f(x;D)]]×E[(fˉ(x)−yD)−E(fˉ(x)−yD)]E[f(x;D)−fˉ(x)]×E[(fˉ(x)−yD)−E(fˉ(x)−yD)]0×E[(fˉ(x)−yD)−E(fˉ(x)−yD)]0
因此不相关 ED[2(f(x;D)−fˉ(x))(fˉ(x)−yD)]=0
(2) 证明 ED[(fˉ(x)−y)(y−yD)]=0,也就是证明变量 fˉ(x)−y 和 y−yD 不相关
====Cov[(fˉ(x)−y),(y−yD)]E[(fˉ(x)−y)−E(fˉ(x)−y)]×E[(y−yD)−E(y−yD)]E[(fˉ(x)−y)−E(fˉ(x)−y)]×E[(y−yD)−0]E[(fˉ(x)−y)−E(fˉ(x)−y)]×00