1. 摘要
Mask RCNN是在faster RCNN的基础上提出的,在原有的基础上添加了mask模块,可用于实例分割,在检测物体的同时,能获得高质量的分割效果。是一个并行的架构。
2.主要创新点
- 原RCNN并不是为了分割物体而提出的,为校准空间信息提出RoIAlign,RoIAlign能精确地保留原来的空间信息(疑惑?) mask RCNN的精度要高10%-20%,说明了位置信息对分割的重要性。 之前的rolPooling使用的是取整操作,造成不配准的问题,这对于提取准确的mask有巨大的负面影响。现改用双线性插值的RoIAlign。
- 与使用softmax的分类方法不同,mask rcnn 单独地为每一个类预测一个二进制掩膜,不存在类内竞争,依赖ROI分支进行预测。
- 使用的损失函数不同:使用组合损失函数L = Lcls + Lbox + Lmask
盲区知识点
- 损失空间信息:像分类和定位的网络,在全连接层处会将空间信息压缩到短向量;而这个问题可以用像素到像素连接的卷积来提取空间结构。
- pix to pix behavio是什么意思?
3.主要框架
RoIAlign:ROI Align是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式, 很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示,在检测测任务中将 ROI Pooling 替换为 ROI Align 可以提升检测模型的准确性。