- 准确率,即查准率(指标),指模型predict为真的样本中,确实为真的比率;
- 召回率,即查全率(指标),指数据集实际值为真的样本中,被预测为真的比率。
还有个例子再解释一下:
你是一名侦探,你的任务是找出所有的罪犯。
- 准确率就是指你抓到的罪犯中,真正是罪犯的比例。换句话说,你不想抓错好人。
- 召回率指在所有真正的罪犯中,你抓到了多少。这个指标关注的是不要漏掉任何一个罪犯。
- F1值****(指标)是一个综合考虑准确率和召回率的指标。它试图找到一个平衡点,因为通常准确率和召回率是相互矛盾的。
- 如果你的模型非常严格,只预测那些几乎可以确定为真的样本,那么准确率可能会很高,但可能会错过一些真正的正样本(召回率低)。
非常确定这个人是罪犯的时候,才去抓人,准确率很高,但是召回率(即想要抓到所有犯人)很低
- <font style="color:rgb(6, 6, 7);">相反,如果你的模型非常宽松,几乎所有样本都预测为正,那么召回率会很高,但准确率会下降。</font>
把所有看着像犯人的人都抓了,甚至所有人都抓了,那召回率必定很高,但是准确率很低。
- ROC****(综合考虑准确率和召回率,帮助我们选择模型)
蓝色
模型的性能总是比绿色模型更好,曲线下面积更大,所以我们会考虑蓝色模型。蓝色这个曲线代表了对召回率和准确率的权衡,往右上走说明更考虑召回率,往左下走说明更考虑准确率。
- 纵坐标其实就是**召回率(TPR)****,横坐标就是1-准确率(FPR)**
- 想象你是一名侦探,你的任务是识别一个犯罪团伙中的成员。"正样本"代表犯罪团伙的成员,"负样本"代表无辜的市民。分类模型需要在不冤枉好人(低FPR)的同时,尽可能多地识别出犯罪团伙成员(高TPR)。
- AUC(曲线下面积):AUC面积为1意味着完美,你总能准确无误地识别出所有犯罪团伙成员而不误抓任何无辜市民。AUC为0.5意味着你的技能和随机猜测一样,没有实际用处。