可变形卷积

833 阅读2分钟
  • 问题:图像任务中同样目标会存在位置偏移、角度旋转、尺度大小,分别对应旋转、平移、尺度不变性。
  • 解决办法:(1)pooling具有平移不变性,受网络层数、卷积核大小、感受野的约束。(2)随机裁剪、旋转、缩放也是为了模型的鲁棒性
  • 对于旋转和尺度问题呢?deformable卷积可以改善~

1. 理解deformable convolutional networks优点

  • 标准卷积是规则的矩形 a图是标准的3*3卷积核,而b,c,d虽然也是9个采样点,但是每个采样点相对于中心点的偏移与a不一样。
  • 两者在感受野上的对比

假如我们有一个分割任务,要分割出图中的尺度不同的动物。

我们先看左边的图,标准的卷积,感受野必然是一个方方正正的区域。顶图有一个中心像素,它的感受野是3*3,到了中间的图,周围四个角点又可以进一步扩展感受野,直到底部的图。

所以对于顶部目标的中心像素,经历了两次3*3卷积,它的感受野是固定的5*5,与动物本身的形状并不匹配。而同样的两个3*3的卷积,右边的空洞卷积,由于灵活的感受野,所覆盖的区域更大,也更匹配了目标本身的形状

目标检测中前景类的bbox大小不同,也需要不同大小的感受野~

2.理解deformable conv的实现

deformable convolutional networks的输入有input_feature_map和offsets
offsets由input_feature_map卷积得到:72通道,3*3的kernel,预测出标准3*3卷积中每个点的(x,y)偏移量,3*3*2=18,共4组,之后作为参数参与deformable卷积
算出来的offset,计算新的9个点在特征图的上的值,由于可能算出来的offset为(0.3, 0.5)这种小数,也就是可能会需要知道特征图上(3.3,4.5)位置的值,所以作者用双线性差值计算这些经过offset修正的位置的响应;

3.deformable roi pooling