深度学习基础-3

119 阅读4分钟
  1. 2维卷积(又称为2维交叉相关)卷积使用的两个原则: 平移不变性和局部性 卷积是特殊的全连接层,卷积也可以对一维数据做处理(文本,语言,时序序列), 卷积层将输入和核矩阵进行交叉相关,加上偏移后得到输出 输入维度是先H再W(H,W)
  • 填充: 在周围添加额外的行、列,使输出的宽高变大或者不变
  • 步幅:是指滑动窗口行/列的滑动步长,使输出宽高成倍变小(步幅通常取2)
  • 填充和步幅是卷积层的超参数

2.彩色图像一般有RGB三个通道,转换为灰度会丢失信息, 核的通道数跟输入通道一样,输出通道数等于卷积核个数 每个输出通道可以识别特定模式 输入通道通过核识别并组合输入中的模式 简单理解 识别 - > 组合

3.11卷积层 它不识别空间模式,只是融合通道。抽取的是通道信息 一般 W,H减少, 而把channel变多,11卷积层相当于一个参数减少了的全连接

4.卷积是能得到位置信息的,通道之间是不共享参数的,一个通道可以理解为一个特征

5.池化层与卷积层类似,都有填充和步幅,但是池化层没有可学习的参数 ,输出通道数= 输入通道数, 在每个输入通道应用池化层以获得相应的输出通道, 池化层是缓解卷积层对位置的敏感性, 默认池化层的步幅和池化窗口的大小相同

6.LeNet 对手写体MNIST 的识别,首先用卷积层来学习图片的空间信息,然后使用全连接层转换到类别空间,2卷积 + 池化层,2全连接层

  1. multiple view geometry in computer vision (几何学)

8.ALexNet 李飞飞 ImageNet数据集, ALexNet是新一轮神经网络热潮的开始 ALexNet是更大更深的LeNet,10倍参数个数, 260倍计算复杂度,更大更深, Relu, dropout, 数据增强

在图像处理中一般保持长宽比例

9.VGG 的目标是让网络更深更大, VGG块, 大量使用3*3的卷积核,更大更深的AlexNet (重复的VGG块),VGG使用可重复手工的卷积块来构建深度卷积神经网络,不同卷积块个数和超参数可以得到不同复杂度的变种,

10.网络中的网络(NiN)(network in network)

image.png 全连接层参数太多, NIN 块(卷积层和 两个1*1卷积层) 所以NIN架构无全连接层,交替使用NIN块和步幅为2的最大池化层(逐步减小宽度和增大通道数),最后使用全局平均池化层得到输出(其输入通道数是类别数)

NIN块使用卷积层加两个11卷积层,(11卷积层对每个像素增加了非线性性) NIN使用全局平均池化层来代替VGG和ALexNet中的全连接层,(不容易过拟合,更少的参数个数)

11.GoogLeNet 加并行的使第一个卷积神经网络层数超过100,使用了9个inception块 inception块: 使用不同窗口大小的卷积层,而从不同层面抽取信息,然后在输出通道维合并,输入和输出等同高宽。 inception块有更少的参数个数和计算复杂度。 inception块用4条有不同超参数的卷积层和池化层了路来抽取不同的信息,

12.LeNet,ALexNet,VGG,GoogLeNet 这些都是图像分类任务

13.计算的时候是按batchsize进行计算的

14.批量归一化:是线性变换,损失出现在最后,后面的层训练较快,底部的层训练的慢,一般用在较深的网络中,作用在全连接层和卷积层输出上,激活函数前, 作用在全连接层和卷积层输入上,对全连接层,作用在特征维,对卷积层,作用在通道维 但是不要跟丢弃法混合使用 批量归一化固定小批量中的均值和方差,然后学习出适合的偏移和缩放,可以加速收敛速度(学习率可以用大的值),但一般不改变模型精度,

15.resnet 模型偏差,至少不比原来差,,(就是说使用不同的残差块),残差块使得很深的网络更加容易训练,甚至可以训练一千层的网络,通常设计就是宽高减半,通道加倍 使用块的概念 resnet变种很多,f(x) = x + g(x)先训练一个简单点的网络M1,然后再训练一个小网络去拟合真实的值和M1网络的差值, 梯度由乘法变成加法

16.增加高质量数据可以提高泛化性,

17.DSP :Digital Signal Processing 数字信号处理