经验误差与过拟合
error rate 错误率 and accuracy 精度
m m m 个样本中有a a a 个分类错误则错误率E = a / m E=a/m E = a / m ,精度= 1 − E =1-E = 1 − E 。
traning error 训练误差 or empirical error 经验误差
学习器在训练集上的误差称之为训练误差(经验误差)
generalization error 泛化误差
学习器在新样本(测试集)上的误差称之为泛化误差
overfittting 过拟合
学习器把训练样本上学得“太好了”,将其中存在的一些特点当成了所有潜在样本的一般性质,导致泛化性能下降,称之为过拟合。
与过拟合相反的叫underfitting 欠拟合
评估方法
对于一个包含m m m 个样本的数据集D = { ( x 1 , y 1 ) , . . . , ( x m , y m ) } D=\{(\pmb{x}_1,y_1),...,(\pmb{x}_m,y_m)\} D = {( x x 1 , y 1 ) , ... , ( x x m , y m )} ,怎么将其分成测试集和训练集?以下介绍几个方法
hold-out 留出法
直接将数据集拆分成两个互斥的合集,一个作为训练集S S S ,另一个是测试集T T T ,D = S ∪ T , S ∩ T = ∅ D=S \cup T,S\cap T=\emptyset D = S ∪ T , S ∩ T = ∅ 。
cross alidation 交叉验证法
将数据集划分成k k k 个大小相似的互斥子集(又称k折交叉验证),每次用k − 1 k-1 k − 1 个子集训练剩下一个子集做测试,因此可以获得k k k 组训练/测试结果,再求均值得到最终的结果,k k k 常取值为10。
boostrapping 自助法
以自主采样法(boosrtapping sampling)为基础,通过对包含m m m 个样本的数据集D D D 采样获得数据集D ′ D' D ′ 。每次从D D D 中随机采样一个样本放到D ′ D' D ′ 中,再将采样过的样本放回D D D 中,这样样本在下一次采样中还可能被采样到。m m m 次后获得包含m m m 个样本的D ′ D' D ′ ,D D D 中一些样本会在D ′ D' D ′ 中反复出现,样本在m m m 次中不被采样到的概率为( 1 − 1 m ) m (1-\frac{1}{m})^m ( 1 − m 1 ) m ,求极限得到(计算方法见微积分求极限方法及公式 ):
lim m → ∞ ( 1 − 1 m ) m → 1 e ≈ 0.368 \lim_{m\rightarrow \infty}(1-\frac{1}{m})^m\rightarrow\frac{1}{e}\approx 0.368 m → ∞ lim ( 1 − m 1 ) m → e 1 ≈ 0.368
可知D D D 中约有36.8%的样本未出现在D ′ D' D ′ 中。
performance measure 性能度量
性能度量反映了任务需求,用于衡量模型泛化能力,预测任务中给定样本集D = { ( x 1 , y 1 ) , . . . , ( x m , y m ) } D=\{(\pmb{x}_1,y_1),...,(\pmb{x}_m,y_m)\} D = {( x x 1 , y 1 ) , ... , ( x x m , y m )} ,其中y i y_i y i 为x i \pmb{x}_i x x i 的真实标记,通过比较学习得到映射函数f ( x ) f(\pmb{x}) f ( x x ) 和y y y 来评估模型性能。
mean squared error 均方误差
回归任务最常用的性能度量:
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) , y i ) 2 E(f;D)=\frac{1}{m}\sum^m_{i=1}(f(\pmb{x}_i),y_i)^2 E ( f ; D ) = m 1 i = 1 ∑ m ( f ( x x i ) , y i ) 2
对于数据分布D \mathcal{D} D 和概率密度函数p ( ⋅ ) p(\cdot) p ( ⋅ ) ,均方误差可以描述为:
E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x E(f;\mathcal{D})=\int_{\pmb{x} \sim \mathcal{D}}(f(\pmb{x})-y)^2p(\pmb{x})d\pmb{x} E ( f ; D ) = ∫ x x ∼ D ( f ( x x ) − y ) 2 p ( x x ) d x x
错误率与精度
分类任务中最常用的两种性能度量,同时适用于二分类和多分类任务。对于样本集D D D ,错误率为(Ⅱ表示取0或1):
E ( f ; D ) = 1 m ∑ i = 1 m Ⅱ ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum^m_{i=1}Ⅱ(f(\pmb{x}_i)\neq y_i) E ( f ; D ) = m 1 i = 1 ∑ m Ⅱ ( f ( x x i ) = y i )
精度的定义为:
a c c ( f ; D ) = 1 m ∑ i = 1 m Ⅱ ( f ( x i ) = y i ) = 1 − E ( f ; D ) acc(f;D)=\frac{1}{m}\sum^m_{i=1}Ⅱ(f(\pmb{x}_i)= y_i)=1-E(f;D) a cc ( f ; D ) = m 1 i = 1 ∑ m Ⅱ ( f ( x x i ) = y i ) = 1 − E ( f ; D )
使用概率密度函数p ( ⋅ ) p(\cdot) p ( ⋅ ) 和数据分布D \mathcal{D} D 得到的描述方法为:
E ( f ; D ) = ∫ x ∼ D Ⅱ ( f ( x ) ≠ y ) p ( x ) d x E(f;\mathcal{D})=\int_{\pmb{x} \sim \mathcal{D}}Ⅱ(f(\pmb{x})\neq y)p(\pmb{x})d\pmb{x} E ( f ; D ) = ∫ x x ∼ D Ⅱ ( f ( x x ) = y ) p ( x x ) d x x
a c c ( f ; D ) = ∫ x ∼ D Ⅱ ( f ( x ) = y ) p ( x ) d x acc(f;\mathcal{D})=\int_{\pmb{x} \sim \mathcal{D}}Ⅱ(f(\pmb{x})= y)p(\pmb{x})d\pmb{x} a cc ( f ; D ) = ∫ x x ∼ D Ⅱ ( f ( x x ) = y ) p ( x x ) d x x
precision recall and F1 score 准确率、召回率与F1分数
可以把真实分类和预测器分类结果的组合划分成四个类别如下表所示:
准确率P P P 和召回率R R R 的定义为:
P = T P T P + F P , R = T P T P + F N P=\frac{TP}{TP+FP},R=\frac{TP}{TP+FN} P = TP + FP TP , R = TP + FN TP
准确率和召回率是一堆矛盾的度量,一个高时另一个就可能会低,如下图所示。
因此在学习中人们希望能找到一个点来平衡两个度量,从而找到最合适的取值。
平衡点(Break-Event Point,BEP)是准确率等于召回率时的点,在上图中学习器C的BEP是0.64,学习器A的平衡点最高因此可以认为A是最优的学习器。
BEP的方法还是比较简单,F1分数是一个更好的度量方法(它是两个度量的调和平均(harmonic mean)值的倒数):
F 1 = 2 × P × R P + R = 2 × T P 样本总量 + T P − T N F1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{样本总量+TP-TN} F 1 = P + R 2 × P × R = 样本总量 + TP − TN 2 × TP
在一些应用中用户可能会对准确率和召回率存在“偏好”,因此定义F1分数的一般形式F β F_\beta F β :
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_\beta=\frac{(1+\beta^2)\times P\times R}{(\beta^2 \times P)+R} F β = ( β 2 × P ) + R ( 1 + β 2 ) × P × R
通过调节β \beta β 的值来调节两个度量对F1分数的影响程度,β = 1 \beta =1 β = 1 时,两个度量平等,1 > β > 0 1>\beta >0 1 > β > 0 时,准确率影响更大,β > 1 \beta >1 β > 1 时,召回率影响更大(因为调和平均 的方法更注重比较小的值)。
ROC曲线和AUC面积
二分类学习器通过映射函数为测试样本生成一个实值或概率预测,然后将这个预测值与某个分类阈值(threshold)比较来确定其分类。这个阈值如何确定影响到学习器的泛化性能,通常学习过程中会按照某种规则(如准确率或召回率的值)将测试样本进行排序然后确定一个“截断点(cut point)来将样本分为两部分,截断点的值即为分类阈值。
ROC(Receiver Operating Characteristic)曲线基于样本的测试结果绘制曲线,其原理与P-R曲线相似,但其横轴为FPR,纵轴为TPR:
T P R = T P T P + F N , F P R = F P T N + F P TPR=\frac{TP}{TP+FN},FPR=\frac{FP}{TN+FP} TPR = TP + FN TP , FPR = TN + FP FP
若学习器A的ROC曲线被学习器B完全包裹住,则学习器B优于学习器A;若二者有交叉一般则比较其AUC(Area Under ROC Curv)面积,AUC通过计算ROC曲线下各部分的面积和求得,假定ROC曲线由坐标值为{ ( x 1 , y 1 ) , . . . ( x m , y m ) } , x 1 = 0 , x m = 1 \{(x_1,y_1),...(x_m,y_m)\},x_1=0,x_m=1 {( x 1 , y 1 ) , ... ( x m , y m )} , x 1 = 0 , x m = 1 的点构成(样本点是离散的因此ROC曲线实际上是由离散的样本点取值连接后平滑而成),如下图(b)所示,则AUC面积可以估算为:
A U C = 1 2 ∑ i = 1 m − 1 ( x i + 1 − x i ) × ( y i + y i + 1 ) AUC=\frac{1}{2}\sum^{m-1}_{i=1}(x_{i+1}-x_i)\times (y_i+y_{i+1}) A U C = 2 1 i = 1 ∑ m − 1 ( x i + 1 − x i ) × ( y i + y i + 1 )
cost-sensitive 代价敏感错误率和代价曲线
错误会被赋予不均等代价,前面一些性能度量中大多将所有类型的错误都设置为代价均等的,没有考虑不同错误可能会造成不同的后果,某些错误造成后果产生的“代价更大”,某些代价则较小。因此在代价敏感任务的度量中不是简单的最小化错误率而是希望最小化“总体代价”(total cost)。
下表展示了一个二分类代价矩阵:
基于表内信息得到的代价敏感错误率为(D + , D − D^+,D^- D + , D − 表示样本集的两个分类子集):
E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + Ⅱ ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − Ⅱ ( f ( x i ) ≠ y i ) × c o s t 10 ) E(f;D;cost)=\frac{1}{m}(\sum_{\pmb{x}_i \in D^+}Ⅱ(f(\pmb{x}_i)\neq y_i)\times cost_{01}+\sum_{\pmb{x}_i \in D^-}Ⅱ(f(\pmb{x}_i)\neq y_i)\times cost_{10}) E ( f ; D ; cos t ) = m 1 ( x x i ∈ D + ∑ Ⅱ ( f ( x x i ) = y i ) × cos t 01 + x x i ∈ D − ∑ Ⅱ ( f ( x x i ) = y i ) × cos t 10 )
这种情况下ROC曲线不能反映学习器的总体期望,因此需要使用代价曲线(cost curve)来做问题的形式化展现,代价曲线的横轴取值为[ 0 , 1 ] [0,1] [ 0 , 1 ] 的正例概率代价:
P ( + ) c o s t = p × c o s t 01 p × c o s t 01 + ( 1 − p ) × c o s t 10 P(+)_{cost}=\frac{p\times cost_{01}}{p\times cost_{01}+(1-p)\times cost_{10}} P ( + ) cos t = p × cos t 01 + ( 1 − p ) × cos t 10 p × cos t 01
其中p p p 是样本为正例的概率,纵轴的取值是[ 0 , 1 ] [0,1] [ 0 , 1 ] 区间的归一化代价。
比较检验
基于上述的实验评估方法和性能度量,怎么对学习器的性能做评估呢?性能评估存在几个需要解决的问题:
大多数人希望比较的是泛化性能,但实验评估得到的是测试集上的性能,二者不一定共通。
测试集上的性能和测试集选择有很大的联系,如何排除测试集的影响?
机器学习算法大多包含一定的随机性,即使相同的参数在相同的测试集测试也可能得到不同的结果,如何在这种情况下比较学习器的性能?
接下来的内容中以错误率(ϵ \epsilon ϵ )为性能度量讨论比较检验方法。
hypothesis test 假设检验
假设表示对学习器泛化错误率分布的一种猜想或推断,例如ϵ = ϵ 0 \epsilon=\epsilon_0 ϵ = ϵ 0 ,任务中并不能感知学习器的泛化错误率,只能通过测试集获取其测试错误率ϵ ^ \hat{\epsilon} ϵ ^ ,二者不一定相同,但总体趋势比较接近(相差很远的可能性很小),因此可以通过ϵ ^ \hat{\epsilon} ϵ ^ 来推断ϵ \epsilon ϵ 。
对于包含m m m 个测试样本的集合,ϵ ^ \hat{\epsilon} ϵ ^ 意味着有ϵ ^ × m \hat{\epsilon} \times m ϵ ^ × m 个样本被分类错误,而泛化错误率为ϵ \epsilon ϵ ,它将m ′ m' m ′ 个样本全部分类正确的概率是ϵ m ′ ( 1 − ϵ ) m − m ′ \epsilon^{m'}(1-\epsilon)^{m-m'} ϵ m ′ ( 1 − ϵ ) m − m ′ 、因此可以计算学习器恰好将ϵ ^ × m \hat{\epsilon} \times m ϵ ^ × m 个样本分类错误的概率为(即泛化错误率为ϵ \epsilon ϵ 的学习器测试得到ϵ ^ \hat{\epsilon} ϵ ^ 的概率):
P ( ϵ ^ ; ϵ ) = ( m ϵ ^ × m ) ϵ ϵ ^ × m ( 1 − ϵ ) m − ϵ ^ × m P(\hat{\epsilon};\epsilon)=
\left(
\begin{matrix}
m\\
\hat{\epsilon}\times m
\end{matrix}
\right)
\epsilon^{\hat{\epsilon}\times m}(1-\epsilon)^{m-\hat{\epsilon}\times m} P ( ϵ ^ ; ϵ ) = ( m ϵ ^ × m ) ϵ ϵ ^ × m ( 1 − ϵ ) m − ϵ ^ × m
给定ϵ ^ \hat{\epsilon} ϵ ^ 的情况下求得∂ P ( ϵ ^ ; ϵ ) ∂ ϵ = 0 \frac{\partial P(\hat{\epsilon};\epsilon)}{\partial\epsilon}=0 ∂ ϵ ∂ P ( ϵ ^ ; ϵ ) = 0 ,可知当ϵ ^ = ϵ \hat{\epsilon}=\epsilon ϵ ^ = ϵ 时,P ( ϵ ^ ; ϵ ) P(\hat{\epsilon};\epsilon) P ( ϵ ^ ; ϵ ) 最大,符合二项分布的原理。
binomial test 二项检验
下图展现了一个二项分布的误分类概率直方图:
考虑假设ϵ ≤ ϵ 0 \epsilon \leq \epsilon_0 ϵ ≤ ϵ 0 ,则1 − α 1-\alpha 1 − α 的概率内观测到的最大错误率如下式所示(s.t. 即 subject to):
ϵ ˉ = m a x ϵ s . t . ∑ i = ϵ 0 × m + 1 m ϵ i ( 1 − ϵ ) m − i < α \bar{\epsilon}= max\ \epsilon\ s.t. \ \sum^m_{i=\epsilon_0\times m + 1}\epsilon^i(1-\epsilon)^{m-i} < \alpha ϵ ˉ = ma x ϵ s . t . i = ϵ 0 × m + 1 ∑ m ϵ i ( 1 − ϵ ) m − i < α
1 − α 1- \alpha 1 − α 表示置信度(confidence),即图2.6中非阴影部分的范围。
t-test t检验
在多次训练和测试的情况(如交叉验证),会得到多个ϵ ^ \hat{\epsilon} ϵ ^ ,这次情况二项检验不适用,可采用t检验法,假定得到了k k k 个测试错误率:ϵ ^ 1 , . . . , ϵ ^ k \hat{\epsilon}_1,...,\hat{\epsilon}_k ϵ ^ 1 , ... , ϵ ^ k ,求得其平均错误率μ \mu μ 和方差σ 2 \sigma^2 σ 2 。
这k k k 个测试错误率可看做ϵ 0 \epsilon_0 ϵ 0 的独立采样,变量T t = k ( μ − ϵ 0 ) σ \mathcal{T}_t=\frac{\sqrt{k}(\mu-\epsilon_0)}{\sigma} T t = σ k ( μ − ϵ 0 ) 服从自由度k − 1 k-1 k − 1 的t t t 分布 ,如下图所示:
交叉验证t检验
对于学习器A和B使用k k k 折交叉验证得到测试错误率:( ϵ 1 A , . . . , ϵ k A ) , ( ϵ 1 B , . . . , ϵ 1 B ) (\epsilon_1^A,...,\epsilon^A_k),(\epsilon_1^B,...,\epsilon_1^B) ( ϵ 1 A , ... , ϵ k A ) , ( ϵ 1 B , ... , ϵ 1 B ) ,这种情况可以使用成对t检验(paired t-tests)来进行比较检验。
先对像个结果求差:Δ i = ϵ i A − ϵ i B \Delta_i=\epsilon_i^A-\epsilon^B_i Δ i = ϵ i A − ϵ i B ,若Δ i = 0 \Delta_i=0 Δ i = 0 则两个学习器性能相同;若不为0,则使用:Δ 1 , . . . , Δ k \Delta_1,...,\Delta_k Δ 1 , ... , Δ k 来对两个学习器性能相同这个假设做t检验 ,计算均值和方差,在显著度为α \alpha α 的情况下若变量:
T t = k μ σ \mathcal{T}_t=\frac{\sqrt{k}\mu}{\sigma} T t = σ k μ
小于临界值t α / 2 , k − 1 t_{\alpha /2,k-1} t α /2 , k − 1 则假设不能拒绝,即两个学习器性能没有显著差异,若大于临界值则错误率平均值较小的学习器显著较优。
McNemar 检验
对于学习器A和B,不仅可以估计其测试错误率还能计算其分类结果差别(即都对、都错或一个对一个错),如下表所示:
若两个学习器性能相同,应有e 01 = e 10 e_{01}=e_{10} e 01 = e 10 ,变量∣ e 01 − e 10 ∣ |e_{01}-e_{10}| ∣ e 01 − e 10 ∣ 应服从正态分布,且均值为1,方差为e 01 + e 10 e_{01}+e_{10} e 01 + e 10 。变量:
T X 2 = ( ∣ e 01 − e 10 ∣ − 1 ) 2 e 01 + e 10 \mathcal{T}_{\mathcal{X}^2}=\frac{(|e_{01}-e_{10}|-1)^2}{e_{01}+e_{10}} T X 2 = e 01 + e 10 ( ∣ e 01 − e 10 ∣ − 1 ) 2
应服从自由度为1的X 2 \mathcal{X}^2 X 2 分布(卡方分布)。
Friedman 检验与 nenyl 后续检验
上述方法都是关于两个算法比较的方法,当涉及多个算法比较时,一种的分别两两进行比较,另一种方法是使用基于算法排序的Freidman检验。
假设有A、B、C三个学习算法,在D 1 , D 2 , D 3 , D 4 D_1,D_2,D_3,D_4 D 1 , D 2 , D 3 , D 4 四个数据集上比较,根据测试性能的好坏赋予序值1,2,...。如下表所示:
使用Freidman检验来判断这些算法的性能是否相同,若相同则其平均序值应相近。假定在N N N 个数据集上比较k k k 个算法,r i r_i r i 表示第i i i 个算法的平均序值,r i r_i r i 服从正态分布,其均值和方差为( k + 1 ) / 2 , ( k 2 − 1 ) / 12 (k+1)/2,(k^2-1)/12 ( k + 1 ) /2 , ( k 2 − 1 ) /12 。变量:
T X 2 = k − 1 k × 12 N k 2 − 1 ∑ i = 1 k ( r i − k + 1 2 ) 2 \mathcal{T}_{\mathcal{X}^2}=\frac{k-1}{k}\times \frac{12N}{k^2-1}\sum^k_{i=1}(r_i-\frac{k+1}{2})^2 T X 2 = k k − 1 × k 2 − 1 12 N i = 1 ∑ k ( r i − 2 k + 1 ) 2
当k , N k,N k , N 较大时,服从自由度为k − 1 k-1 k − 1 的X 2 \mathcal{X}^2 X 2 分布。
通过表2.5可以画出Friedman 检验图,直观看出差别,若有交界则算法性能相似,若没有交界则算法性能存在显著差别。
bias-variance 偏差-方差
估计学习器的泛化性能后,通常大家还希望能解释其具有这样(好的或坏的)泛化性能的原因,偏差-方差分解 (bias-variance decomposition)是其中一个重要的解释工具。
偏差-方差分解通过拆解对学习算法的期望来解释其构成,对于测试样本x \pmb{x} x x ,y D y_D y D 为x \pmb{x} x x 在数据集中的标记集,y y y 为x \pmb{x} x x 的真实标记,f ( x ; D ) f(\pmb{x};D) f ( x x ; D ) 为基于训练集D D D 得到的学习模型f f f 在x \pmb{x} x x 上的输出,学习算法的期望预测为:
f ˉ ( x ) = E D [ f ( x ; D ) ] \bar{f}(x)=\mathbb{E}_D[f(\pmb{x};D)] f ˉ ( x ) = E D [ f ( x x ; D )]
使用样本数相同的不同训练集产生的方差为:
v a r ( x ) = E D [ ( f ( x ; D ) − f ˉ ( x ) ) 2 ] var(\pmb{x})=\mathbb{E}_D[(f(\pmb{x};D)-\bar{f}(\pmb{x}))^2] v a r ( x x ) = E D [( f ( x x ; D ) − f ˉ ( x x ) ) 2 ]
噪声为:
ε 2 = E D [ ( y D − y ) 2 ] \varepsilon^2=\mathbb{E}_D[(y_D-y)^2] ε 2 = E D [( y D − y ) 2 ]
期望输出与真实标记的差值称为偏差(bias):
b i a s 2 ( x ) = ( f ˉ ( x ) − y ) 2 bias^2(\pmb{x})=(\bar{f}(\pmb{x})-y)^2 bia s 2 ( x x ) = ( f ˉ ( x x ) − y ) 2
假定噪声为0(便于简化问题),则可以通过多项式展开合并来分解算法的期望泛化误差:
最后得到(泛化误差可分解为偏差、方差与噪声之和):
E ( f : D ) = b i a s 2 ( ( x ) 2 ) + v a r ( x ) + ε 2 E(f:D)=bias^2(\pmb(x)^2)+var(\pmb{x})+\varepsilon^2 E ( f : D ) = bia s 2 ( ( ( x ) 2 ) + v a r ( x x ) + ε 2