混淆矩阵

1,171 阅读2分钟

介绍

在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。是用来评价算法或者说分类器的结果分析表。其每一列代表预测值,每一行代表的实际值。

有了混淆矩阵,可以构造出很多指标,来从不同角度反映分类器的分类准确程度,主要看以下几个。

准确率:(TP+TN)/(TP+TN+FN+FP),即不管是哪种类别,预测结果与实际结果一致的比例

召回率:TP/(TP+FN),即有多少正样本被准确识别

错检率:FP/(FP+TN),即有多少负样本被错误识别

F-measure:又称为F-Score,是准确率和召回率加权调和平均,用于综合反映整体的指标。计算公式为:

其中α是参数,P是精确率,R是召回率。当参数α=1时,就是最常见的F1-Measure了:

不平衡数据集

不平衡数据集是指在解决分类问题时每个类别的样本量不均衡的数据集。

不平衡数据集例子

  • 在二分类中你有100个样本其中80个样本被标记为class 1, 其余20个被标记为class 2. 这个数据集就是一个不平衡数据集,class 1和class 2的样本数量之比为4:1.

  • 在信用卡欺诈检测数据集中,大多数信用卡交易类型都不是欺诈,仅有很少一部分类型是欺诈交易,如此以来,非欺诈交易和欺诈交易之间的比率达到50:1

混淆矩阵的缺点:

不平衡数据集(就是正负样本的比例相差很大),混淆矩阵效果不好。比如对信用卡交易是否异常做分类,很可能1万笔交易中只有1笔交易是异常的。一个将所有交易都判定为正常的分类器的混淆矩阵如下