计算机视觉的 基础学习

1,077 阅读3分钟

四大基本任务

  • 图像分类:给定一张输入图像,图像分类任务旨在判断该图像所属类别。
  • 目标定位:以包围框的(bounding box)形式得到图像类别位置,通常只有一类目标或固定数目的目标和背景类。
  • 目标检测:相对于目标定位,目标种类和数目不定。
  • 语义分割:语义分割需要判断图像中哪些像素属于哪个目标。
  • 实例分割:语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。与此不同的是,实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫。

在这里插入图片描述

难点

语义鸿沟,拍摄视角变化,目标占据图像的比例变化,光照变化,背景相似,目标形变,遮挡。

卷积层

标准卷积、深度方向的可分离卷积(SeparableConv2D)、深度可分离卷积(DepthwiseConv2D)、转置卷积(反卷积)、空洞卷积。

为什么用卷积

图像数据维度高,Dense参数多、计算量大、容易过拟合。

卷积:

  • 局部连接:
    图像特征、边缘、角点只占据图像很小的部分,相隔较远的图像块关系不大。
    通道上全连接、空间上局部连接。
  • 参数共享:
    提取图像特征的模式可以复用。
    空间上参数共享。

卷积输入输出关系

输入H,滤波器F,零填充P,步长S:
H ′ = ( H + 2 P − F ) / S + 1 {H}' = (H +2P - F)/S + 1 H′=(H+2P−F)/S+1

感受野大小计算

感受野:卷积神经网络的每一层输出的特征图上的像素点在原图像上映射的区域大小。

(尺寸F)小滤波器优点:更小参数量、更多分线性。

  1. 下一层每个像素点的感受野是上一次卷积层滤波器的大小。
  2. 多层:

当有多层3×3标准卷积堆叠时,第l 层卷积(l 从1开始)的输出神经元的感受野为2l +1。
在这里插入图片描述

1x1卷积作用

常用来增加非线性、降维(通道上进行压缩,减少计算量和网络参数)、升维。

池化层

局部最大池化(常用)、局部平均池化、全局最大池化、全局平均池化(常用)

作用:

增加特征平移不变性;减小特征图的大小,降低过拟合,

最大池化为什么最常用

根据相关理论,特征提取的误差主要来自两个方面:邻域大小受限造成的估计值方差增大;卷积层参数误差造成估计均值的偏移。一般来说,mean-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。

参考

zhuanlan.zhihu.com/p/31727402
www.jianshu.com/p/5268b42da…
keras.io
www.zhihu.com/question/23…