浙大人工智能导论课笔记(三)本文已参与「新人创作礼」活动，一起开启掘金创作之路。神经网络softmax会让分类的结果更

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

一个网络如果只有一层,那么就需要很宽(很多参数),但是如果有很多小小的模型(模型有很多层,很深)

二者的区别,就相当于是在识别人脸的时候,第一种方法是一个像素一个像素地识别,而第二种有很多一层一层地归纳,可以从鼻子\嘴巴来进行归纳识别

方法二需要的参数更少,可以形成语义层次结构(即上面那行),而且更容易训练(一个人地认知更深,更加可以找到一个普遍规律地阶段)

如果网路的隐藏层数更多,前面的网络很难学到知识(就很难更新参数了)

只做逐层的梯度下降(前面固定,只调后面一层,以此类归),无监督训练初始化+有监督训练微调,已经reLU激活函数

几乎所有的优化器都是由梯度下降得到的只是梯度下降的不同方案

用一些神经元来检测这个pattern（特征）

通过一个个小矩阵（pattern的卷积图），类似滑窗的原理一个一个比较，，比较得到的分数表示是大是小，构成一张特征图

然后多层不断地提取其特征

捕捉到之前捕捉到的特征的一部分，导致产生了冗余，池化就是对一个个矩阵组成一个个大块，类似量化压缩（视频图像中的技术）

没有办法识别出什么什么东西是同一个物体，一旦旋转或者怎么样就会有问题。比如自动驾驶时，大卡车翻掉了，看到的是大卡车的底部，其不能理解三位维体

池化会导致矩阵的维度产生变化