全栈基础杂谈第五期:什么是模型训练中常见的F1_Score

219 阅读8分钟

简介😶

F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。 ————《百度百科》

在机器学习和深度学习中,模型的评估是一个至关重要的环节,它帮助我们了解模型在真实世界中的表现,而F1 Score(F1得分)则是其中一种常用的评估指标,尤其在处理不平衡数据集时表现突出。F1 Score因为其结合了“精确率”(Precision)和“召回率”(Recall),成为许多分类任务的首选评估指标。

在分类任务中,我们通常会预测样本是否属于某一类别,比如“猫”或“狗”、电子邮件“垃圾”或“非垃圾”。以二分类问题为例,预测结果和真实情况之间会有以下四种情况:

  1. True Positive (TP):模型正确地将正类预测为正类。
  2. False Positive (FP):模型将负类错误地预测为正类。
  3. True Negative (TN):模型正确地将负类预测为负类。
  4. False Negative (FN):模型将正类错误地预测为负类。

基于这四种情况,我们可以计算出不同的评估指标。

细究🤔

想要细究问题,首先我们得弄明白什么是精确率和召回率。

精确率

精确率表示在模型预测为正的所有样本中,真正为正的比例,即有多少预测为正的样本是真正的正类样本。

公式如下:

Precision=TPTP+FP{Precision} = \frac{TP}{TP + FP}

TP是我们上文提到的True Positive (TP):模型正确地将正类预测为正类。

FP是我们上文提到的False Positive (FP):模型将负类错误地预测为正类。

召回率

召回率表示所有实际为正的样本中被模型正确预测为正的比例,即模型能正确捕捉到多少真实的正类样本。

公式如下:

Recall=TPFN+TP{Recall} = \frac{TP}{FN+TP}

TP是我们上文提到的True Positive (TP):模型正确地将正类预测为正类。

FN是我们上文提到的False Negative (FN):模型将正类错误地预测为负类。

在模型评估中,之所以会存在精确率和召回率,是因为它们分别衡量了分类模型在正类样本的识别准确性捕获完整性方面的表现,两者互补,帮助我们全面了解模型的性能。

场景示例

我们可以用一个形象的例子,例如“寻找失踪儿童”来解释精确率和召回率的概念。

假设我们有一支救援队正在一个拥挤的购物中心寻找一名失踪的儿童。救援队中有一些观察员专门负责寻找符合孩子特征的人。每次观察员认为某个人可能是失踪的儿童,他们就会发出信号(即“检测到儿童”)。

在这种情况下,我们可以定义以下情况:

  • True Positive (TP):观察员正确地发现了失踪儿童。
  • False Positive (FP):观察员误以为另一个孩子是失踪儿童。
  • False Negative (FN):观察员错过了真正的失踪儿童。
  • True Negative (TN):观察员没有发出信号,因为发现的不是目标儿童。

精确率表示在所有被标记为“疑似失踪儿童”的人中,有多少是真正的失踪儿童。

例如,如果观察员标记了10个孩子为“疑似失踪儿童”,但其中只有2个是正确的,那么精确率是

Precision=TPTP+FP=210=0.2{Precision} = \frac{TP}{TP + FP}=\frac{2}{10} = 0.2

即20%。

精确率高,意味着观察员的“怀疑”准确率高,他们很少错认别人是失踪儿童;但如果精确率低,则表明观察员经常把其他孩子误认为失踪儿童。

召回率表示在所有真正的失踪儿童中,有多少被观察员成功发现。

例如,假设总共有5名符合特征的失踪儿童在场,观察员成功发现了其中的2个,那么召回率是

Recall=TPFN+TP=25=0.4{Recall} = \frac{TP}{FN+TP} = \frac{2}{5} = 0.4

即40%。

召回率高,意味着观察员可以发现大部分失踪儿童;而召回率低,则表明观察员可能会漏掉一些失踪儿童。

二者平衡

F1 Score 是精确率和召回率的调和平均数,这种平均方式使得它对较小的值更加敏感。简单来说,如果精确率或召回率其中之一较低,F1 Score 也会较低。通过这种方式,F1 Score 强调了精确率和召回率的平衡性,适合于对这两者都同样重要的任务,尤其是当正负样本不平衡时。

在上面的场景示例中,如果二者没有达到平衡会造成哪些影响呢?

高精确率,低召回率:如果观察员十分谨慎,只标记那些高度匹配失踪儿童特征的孩子,则精确率会很高,但可能会漏掉一些儿童(召回率低)。

高召回率,低精确率:如果观察员广撒网,将很多孩子标记为疑似失踪儿童,观察员更有可能找到所有真正的失踪儿童,但会产生大量误判(精确率低)

而F1 Score可以帮助我们在找到失踪儿童的数量和误判数量之间进行权衡。这就是为什么在很多类似“寻找失踪儿童”这样不允许遗漏但也不希望过多误判的任务中,F1 Score是一个重要的评估指标。

应用场景👋

在以下几个情况下,F1 Score 显得尤为重要:

  1. 不平衡数据集:当正类和负类的样本数量差异较大时,传统的准确率可能会误导我们。比如在欺诈检测中,正类(欺诈)样本很少,而负类(正常)样本占多数。此时,F1 Score能更准确地反映模型的性能。
  2. 对误判的成本较高:在医学诊断等任务中,误诊一个患者可能带来严重后果。因此,单独考虑精确率或召回率都不够,F1 Score可以帮助我们找到一个适合的平衡点。
  3. 信息检索和自然语言处理:在文本分类、情感分析等自然语言处理任务中,F1 Score广泛应用。对于信息检索的任务,如搜索引擎排名等,F1 Score可以作为排名效果的重要衡量指标。

相关变种👐

在一些多分类问题中,F1 Score有时会扩展为宏观平均F1(Macro F1)和微观平均F1(Micro F1):

  1. 宏观平均F1(Macro F1):对每个类别分别计算F1 Score,然后求平均值。它同等重视各类别,适合类别分布较平衡的情况。
  2. 微观平均F1(Micro F1):将所有类别的TP、FP和FN相加再计算F1 Score,适合于类别不平衡的情况,结果偏向于大类别。

局限性❗️

虽然F1 Score是一个重要的评估指标,但它也存在一定局限性:

  1. 忽略了TN:F1 Score 仅依赖于 TP、FP、FN,完全忽略了 True Negative 的情况。因此,当负类样本多时,F1 Score 的值可能会与实际效果有所偏差。
  2. 难以提供具体业务背景下的误差成本:F1 Score 只考虑了精确率和召回率的平衡,而没有针对不同的业务需求进行加权调整。在某些业务中,误报和漏报的成本可能并不对等。

总结📜

F1分数是一种在机器学习和深度学习中常用的分类模型评估指标,尤其适用于不平衡数据集。它综合了精确率召回率两个指标的调和平均,因此能够在模型的预测准确性和覆盖度之间达到平衡。F1分数的值介于0和1之间,越接近1表示模型的表现越好。

F1分数在一些特定应用场景中尤为重要,比如不平衡数据集(如欺诈检测)或误判成本高的任务(如医学诊断)。此外,F1分数在自然语言处理中的文本分类等任务中广泛使用。对于多分类问题,F1分数有宏观平均(Macro F1)和微观平均(Micro F1)等变种以适应不同的任务需求。

尽管F1分数具有很高的评价价值,但它也存在局限性,如忽略了真负例(TN),并且未对不同业务场景中的误报和漏报的成本差异进行加权调整。因此,在实际应用中需要结合业务场景综合考虑。

欢迎关注公众号:“全栈开发指南针”

这里是技术潮流的风向标,也是你代码旅程的导航仪!🚀

Let’s code and have fun! 🎉