跟李沐学AI随记-15-锚框&实例分类简要技术分析

35 阅读2分钟

以每个像素为中心,生成多个缩放比和宽高比(aspect ratio)不同的边界框。 这些边界框被称为锚框(anchor box)

  • 在图像中提取多个被称为锚框的区域
  • 预测每个锚框中是否有关注的物体
  • 若含有,预测该锚框到真实边缘框的偏移量---IOU交并比

缩放比s:s1-sn, 宽高比r:r1-rm

以同一像素为中心的锚框的数量是n+m−1。 对于整个输入图像,将共生成wℎ(n+m−1)个锚框。

image.png

交并比IOU

image.png

锚框个数很多,设置一个IOU阈值将其分为两类:背景类和相关类

  • 赋予锚框标号(有很多种算法可选取)

读取图片后,我们将每个锚框视为一个训练样本。 为了训练目标检测模型,我们需要每个锚框的类别(class)和偏移量(offset)标签,其中前者是与锚框相关的对象的类别,后者是真实边界框(GT)相对于锚框的偏移量。

在预测时,我们为每个图像生成多个锚框,预测所有锚框的类别和偏移量,根据预测的偏移量调整它们的位置以获得预测的边界框,最后只输出符合特定条件的预测边界框。

使用非极大值抑制输出(NMS)

  • 合并属于同一目标的类似的预测边界框。
  • 选中的是非背景类的最大预测值
  • 去掉所有其他和当前锚框IOU大于θ的预测
  • 重复上述过程,直到所有预测的锚框要么是被选中,要么被去掉---去除冗余的预测

技术分析:

  • 数据增强
    • 在测试时多次使用较弱的增强再去平均(?)
  • 使用多个模型预测,最后结果加权平均(多为ResNet变种)
  • 训练算法和学习率的选取
    • 训练算法:SGD/ADAM
    • 学习率:要么固定不变,要么根据每个一定epoch衰减一次,要么基于Cosine
  • 清理数据
    • 真实图像中可能存在大量的噪音
    • 若数据集中,图片的背景占比较大,可进行裁剪
    • 对于没有方向性的数据,可以进行随机旋转
    • 跨图像增强:Mixup(随机选两张图像,随机权重,叠加)、CutMix(在不同图像中随机采样一些块,再利用随机权重进行块的组合,关注数据中的局部信息)
  • 提升精度
    • 模型、优化算法、多个模型融合
    • 数据增强
  • 在工业应用中,更关心数据的质量,对新数据进行标注,对旧数据进行清理