继续紧接上文内容,接下来我们要学习统计领域的相关知识,统计领域给了我们很多工具来实现机器学习的目标,不仅可以解决训练集上的任务,还可以泛化。例如一些基本概念,估计、偏差和方差,对于正式刻画泛化、欠拟合和过拟合都非常有帮助。
估计、偏差和方差
点估计
点估计试图为一些感兴趣的量提供一个单例“最优”预测。一般地,感兴趣的量可以是单个参数,或是某些参数模型中的一个向量参数,也有可能是整个函数。
为了区分参数估计和真实值,我们习惯将参数θ的点估计表示为θ^。
令{x(1),…,x(m)}是m个独立同分布的数据点。点估计或统计量是这些数据的任意函数:
θ^m=g(x(1),…,x(m))
这个定义不要求g返回一个接近θ的值,或者g的值域恰好是θ的允许取值范围。点估计也可以指输入和目标变量之间关系的估计,我们将这种类型的点估计称为函数估计。
函数估计:有时我们会关注函数估计。这时我们试图从输入向量x预测变量y。假设有一个函数f(x)表示y和x之间的近似关系。例如,我们可能假设y=f(x)+ϵ,其中ϵ是y中未能从x预测的一部分。在函数估计中,我们感兴趣的是用模型估计去近似f,或者估计f^。函数估计和参数估计是一样的,函数估计是函数空间中的一个点估计。
偏差
估计的偏差量被定义为
bias(θ^m)=E(θ^m)−θ
其中期望作用在所有的数据上,θ是用于定义数据生成分布的真实值。如果bias(θ^m)=0,那么估计量θ^m被称为无偏,这意味着E(θ^m)=θ。如果m→∞limbias(θ^m)=0,那么估计量θ^m被称为是渐近无偏,这意味着m→∞limE(θ^m)=θ。
示例1:伯努利分布
考虑一组服从均值为θ的伯努利分布的独立同分布样本{x(1),…,x(m)}:
P(x(i);θ)=θx(i)(1−θ)(1−x(i))
这个分布中的参数θ的常用估计量是训练样本的均值:
θ^m=m1i=1∑mx(i)
判断这个估计量是否有偏,我们将上式代入到偏差定义式中:
bias(θ^m)=E(θ^m)−θ=E[m1i=1∑mx(i)]−θ=m1i=1∑mE[x(i)]−θ=m1i=1∑mx(i)=0∑1(x(i)θx(i)(1−θ)(1−x(i)))−θ=m1i=1∑m(θ)−θ=θ−θ=0
因为bias(θ^)=0,我们称估计θ^是无偏的。
示例2:均值的高斯分布估计
现在考虑一组独立同分布的样本{x(1),…,x(m)}服从高斯分布p(x(i))=N(x(i);μ,σ2),其中i∈{1,…,m}。高斯分布密度函数如下:
p(x(i);μ,σ2)=2πσ21exp(−21σ2(x(i)−μ)2)
高斯均值参数的常用估计量被称为样本均值:
μ^m=m1∑i=1mx(i)
判断样本均值是否有偏,我们再次计算它的期望:
bias(μ^m)=E[μ^m]−μ=E[m1i=1∑mx(i)]−μ=(m1i=1∑mE[x(i)])−μ=(m1i=1∑mμ)−μ=μ−μ=0
因此我们发现样本均值是高斯均值参数的无偏估计量。
示例3:高斯分布方差估计
本例中,我们比较高斯分布方差参数σ2的两个不同估计。我们探讨是否存在一个是有偏的。
我们考虑的第一个方差估计被称为样本方差:
σ^m=m1i=1∑m(x(i)−μ^m)2
其中μ^m是样本均值,更形式化的表示我们对计算感兴趣
bias(σ^m2)=E[σ^m2]−σ2
首先我们估计项E[σ^m2]:
E[σ^m2]=E[m1i=1∑m(x(i)−μ^m)2]=mm−1σ2
回到上面的式子,我们可以得到σ^m2的偏差时−mσ2。因此样本方式是有偏估计。
无偏样本方差估计:
σ~m2=m−11i=1∑m(x(i)−μ^m)2
提供了另一种可选方案。正如名字所示,这个估计是无偏的。也就是说这里E[σ~m2]=σ2:
E[σ~m2]=E[m−11i=1∑m(x(i)−μ^m)2]=m−1mE[σ^m2]=m−1m(mm−1σ2)=σ2
我们有两个估计量:一格式有偏的,另一个是无偏的。尽管无偏是我们所满意的情况,但是它并不总是“最好”的估计。经常会使用一些重要性质的有偏估计。
方差和标准差
有时我们希望能够对估计量的另一个性值进行判断,期望变化的程度是多少。正如前文提到的估计量的期望可以决定它的偏差,我们可以计算它的方差来判断它变化的程度:
Var(θ^)
其中的变量为训练集。另外如果对方差开根号,得到的就是标准差,记作SE(θ^)。
正如我们希望我们训练的模型的偏差更小,同样的方差我们也希望它能尽可能的小。
均值的标准差:
SE(μm^)=Var[m1i=1∑mx(i)]=mσ
其中σ2是样本x(i)的真实方差。标准差记作σ。均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布,我们可以用标准差计算出真实期望落在所选定区域的概率。例如,以均值μ^m为中心的95%置信区间是
(μ^m−1.96SE(μ^m),μ^m+1.96SE(μ^m))
以上区间是基于均值μ^m和方差SE(μ^m)2的高斯分布。在机器学习中算法A比算法B好的指标就是指算法A的误差的95%置信区间的上界小于算法B的误差的95%置信区间的下界。