跟李沐学AI随记-15-锚框&实例分类简要技术分析以每个像素为中心，生成多个缩放比和宽高比（aspect ratio）不

以每个像素为中心，生成多个缩放比和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）

缩放比s:s1-sn， 宽高比r:r1-rm

以同一像素为中心的锚框的数量是n+m−1。对于整个输入图像，将共生成wℎ(n+m−1)个锚框。

交并比IOU

锚框个数很多，设置一个IOU阈值将其分为两类：背景类和相关类

读取图片后，我们将每个锚框视为一个训练样本。为了训练目标检测模型，我们需要每个锚框的类别（class）和偏移量（offset）标签，其中前者是与锚框相关的对象的类别，后者是真实边界框（GT）相对于锚框的偏移量。

在预测时，我们为每个图像生成多个锚框，预测所有锚框的类别和偏移量，根据预测的偏移量调整它们的位置以获得预测的边界框，最后只输出符合特定条件的预测边界框。

使用非极大值抑制输出（NMS）

技术分析：

数据增强
- 在测试时多次使用较弱的增强再去平均（？）
使用多个模型预测，最后结果加权平均（多为ResNet变种）
训练算法和学习率的选取
- 训练算法：SGD/ADAM
- 学习率：要么固定不变，要么根据每个一定epoch衰减一次，要么基于Cosine
清理数据
- 真实图像中可能存在大量的噪音
- 若数据集中，图片的背景占比较大，可进行裁剪
- 对于没有方向性的数据，可以进行随机旋转
- 跨图像增强：Mixup（随机选两张图像，随机权重，叠加）、CutMix（在不同图像中随机采样一些块，再利用随机权重进行块的组合，关注数据中的局部信息）
提升精度
- 模型、优化算法、多个模型融合
- 数据增强
在工业应用中，更关心数据的质量，对新数据进行标注，对旧数据进行清理