分类评估指标

1,256 阅读2分钟

这是我参与11月更文挑战的第1天,活动详情查看:2021最后一次更文挑战

一、正确率与召回率

正确率与召回率(Precision & Recall)是广泛应用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。 正确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。精确率是对部分样本的统计量,侧重对分类器判定为正类的数据的统计。一般来说,正确率就是检索出来的条目有多少是正确的,可以看作精确性的度量(标记为正类的元组实际为正类所占的百分比)。 召回率是指分类正确的正样本个数占真正的正样本个数的比例。召回率也是对部分样本的统计量,侧重对真实的正类样本的统计。召回率也就是所有正确的条目有多少被检索出来了,它完全性的度量(正元组标记为正的百分比),就是灵敏度。

F1值=2 ∗(正确率∗召回率)/(正确率+召回率)。是综合上面二个指标的评估指标,用于综合反映整体的指标。

这几个指标的取值都在0-1之间,数值越接近于1,效果越好。

举例1:

某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:

image.png

举例2:

某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了所有的鱼虾鳖:

image.png

我们希望检索结果Precision越高越好,同时Recall也越高越好,但事实上这两者在某些情况下有矛盾的。比如极端情况下,我们只搜索出了一个结果,且是准确的,那么Precision就是100%,但是Recall就很低;而如果我们把所有结果都返回,那么比如Recall是100%,但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。

二、综合评价指标

正确率与召回率指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score):

image.png

F1-Score

F1-Score 能够很好的评估模型,其主要用于二分类问题, 计算公式如下:

image.png