开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第4天,点击查看活动详情
比全连接神经网络复杂,一般用在图像识别。
CNN:Cable News Network
视觉系统是什么?
画面识别实际上是寻找(学习)人类的视觉关联方式,并再次应用。图片被识别成什么不仅仅取决于图片本身,还取决于图片是如何被观察的。
CNN 从哪里来?
我们让计算机看到了什么?
多层级结构:我们看到东西是一级一级地通过我们的脑神经将不同的特征结合起来,在我们的大脑中形成我们看到的东西。
本地连接:
过滤:
平移不变性:不论这个物体的大小或者所处的位置,都不影响识别。
机器所看到的图片
黑白照片可以用一个矩阵表示,对于每个像素点,0表示最暗,255表示最亮
彩色图片用三个的矩阵表示RGB 颜色模型:红,绿,蓝 三原色,画面识别的输入x是shape为(width, height, depth)的三维张量。
三维重构与先验知识库
三维重构
要想让计算机理解它所看到的图像,必须先将事物的三维结构从二维的图像中恢复出来
我们大脑看到的立体世界是由我们的两个眼睛所看到的画面叠加形成的立体画面。我们的大脑需要处理两个眼睛看到的东西,并且重构。
先验知识分解
给机器建立一个这样的知识库让机器将看到的图像与之匹配是否可以让机器识别乃至理解它所看到的东西呢
识别苹果:先识别形状,再识别颜色,最后识别色泽,将这些识别到的信息综合处理。
神经认知
1980年,在“感受野”的基础上提出了“神经认知”(Neurocognitron)
- 将脑神经科学的结构在做了计算机模拟
- 提出了现在CNN常用的step-by-step的filter
- 使用ReLU来给网络提供非线性
- 采用平均池化来做downsampling
- 保证了网络的平移不变性
- 实现了稀疏交互
简单细胞,复杂细胞,低阶超复杂细胞,高阶超复杂细胞,祖母细胞
LeNet 5最早的卷积神经网络之一用于高效识别手写体字符识别广泛应用于支票手写金额/信件邮政编码 的识别
MLP 如何识别图片?
MLP识别手写体:
将全连接层做一些缩小处理,让其变成不是全连接的模式,这样可以减少参数的使用。
MLP 如何识别图片:
例如:四个点为一组,进行卷积相乘求和,连接到下一个层级(隐藏层),这样连接的线变少了,参数共享,减少了参数的计算。
全局连接权值单独训练:前馈神经网络,每神经元扫描整张图片寻找一种特征