1.PASCAL VOC2012数据集
PASCAL VOC2012数据集简介
PASCAL VOC挑战赛是一个世界级的计算机视觉挑战赛,PASCAL全称:Pattern Analysis,Statical Modeling and Computational Learning,是一个欧盟资助的网络组织。PASCAL VOC挑战赛主要包括以下几类:图像分类、目标检测、目标分割、动作识别等。
文件结构
图1-1 PASCAL VOC数据集文件结构
- Annotations:每个图片的标注信息,.xml文件的形式,里面有:是否被截断位置信息(segmented),左上角x,y坐标(xmin,ymin),右下角的x,y坐标(xmax,ymax)。
- train.txt:训练集的名称。
2.COCO数据集
COCO数据集简介
MS COCO是一个非常大型且常用的数据集,其中包括了目标检测,分割,图像描述等。MS COCO 通常进行预训练。
图2-1 MS COCO数据集特性
stuff类别:没有明确边界的材料和对象。 object80类是stuff91类的子集。目标检测任务object80类足够了。图2-2 PASCAL VOC数据集和MS COCO数据集类别对比
有些论文会用MS COCO预训练,再用PASCAL VOC再训练。文件结构
目标检测需要下载的COCO的三个文件:
- 2017 Train images[118K/18GB]:训练过程中使用到的所有图像文件。
- 2017 Val images[5K/1GB]:验证过程中使用到的所有图像文件。
- 2017 Train/Val annotations[241MB]:对应训练集和验证集的标注json文件。
图12-3 MS COCO数据集文件结构
3.目标检测评价标准
评价指标
- TP(True Positive):Iou>0.5的检测框数量(同一Ground Truth只计算一次)。被预测成正样本,并且预测对了
- FP(False Positive):IoU<=0.5的检测框(或者是检测到同一个GT的多余检测框的数量)。被预测成正样本,但是预测错了
- FN(False Negative):没有检测到的GT的数量。本来是正样本,没有被预测出来是正样本
- TN(True Negative):没有检测到的GT的数量。本来是负样本,没有被预测成正样本
图3-1 评价标准图示
- 模型预测的所有目标中,预测正确的比例。查准率
- 所有真实目标中,模型预测正确的目标。查全率
图3-2 查准率和召回率图示
例子
Tp=1:IoU>0.5,0.9的检测框1个,即被预测成正样本,并且预测对了的框框。
FP=1:IoU<=0.5,0.3的检测框1个,即被预测成正样本,但是预测错了。
FN=1:右下角的猫猫未被检测出来,1个,即本来是正样本,但是没有被预测出来。
- AP:P-R曲线下面积,某个类别在整个数据集下的Average Precision。
- P-R曲线:Precision-Recall曲线。
- mAP:mean Average Precision,即各类别AP的平均值。
- Confidence:置信度,每个边框都有一个置信度,其与置信度门槛比较,低于置信度阈值的,我们把这些boxes当做负的(框);反之,高于置信度阈值的,当做正的(框)。
注:对于置信度,不同论文对其定义是不同的,一般用到比较多的是分类置信度,分类置信度confidence是介于0和1(或100%)之间的数字,它描述模型认为此预测边界框包含某类别目标的概率,一般多分类的话,最后一层输出接softmax函数,会输出n个前景和1个背景的概率分数,预测框属于哪一类看哪个的分数最高。还有新的一些论文,在预测边界框时还预测了预测框与GT的IoU,以此IoU作为置信度分数,这种称为定位置信度。
计算mAP的步骤:
检测数据集中所有的某A类别:
- 根据IOU计算TP,FP。
- 将每个预测框框的confidence从高到低排序。
- 在不同的confidence阈值下获取Precision和Recall。
- 绘制P-R曲线。曲线面积即AP值。
- 计算mAP值。 AP衡量的是对一个类检测好坏,mAP就是对多个类的检测好坏。就是简单粗暴的把所有类的AP值平均就好了。比如有两类,类A的AP值是0.5,类B的AP值是0.2,那么mAP=(0.5+0.2)/2=0.35。
COCO数据集评价指标
:指IoU=0.5时对应的AP值。
:不同面积的目标的AP值。比如想要关注小目标,就看。
:指的是查全率。每张图片提供最多1/10/100个预测边界框。
:不同面积的目标的AR值.
常看指标:、、,如果说差不多那就不需要设定那么多的检测框