在第一篇中我们了解到,大脑是通过层层加工来识别物体的。而在 AI 的世界里,实现这种“加工”最核心的工具就是 CNN(卷积神经网络) 。
如果你观察那张架构图,你会发现它由一排排蓝色和红色的方块组成。它们就像是工厂里的两类特殊机器:扫描仪和过滤器。
1. 蓝色方块:卷积层(Convolution)—— 寻找特征的扫描仪
在图中,conv1 到 conv5 都是蓝色的。这些方块内部运行着一种叫“卷积核”的小插件。
想象你手里拿着一个放大镜,在一张巨大的 CT 影像上从左到右、从上到下慢慢滑动。
- 局部视野: 放大镜一次只能看一小块区域(比如3x3 个像素)。
- 特征匹配: 这个放大镜非常特殊,它只对特定的形状敏感。比如有的放大镜专门找“圆形边缘”,有的专门找“高亮白点”。
- 产出: 当放大镜滑过整个图像后,它会生成一张新的图(特征图)。图中亮的地方,表示它找到了匹配的特征。
为什么架构图里的方块越来越“厚”?
你会发现 conv1 的厚度是 64,而 conv5 变成了 512。这代表我们的“放大镜”种类越来越丰富了:
- 底层(左侧): 只有 64 种简单的放大镜(看线条、看颜色)。
- 深层(右侧): 拥有 512 种极其复杂的放大镜(看肿瘤轮廓、看血管走势)。
2. 红色方块:池化层(Pooling)—— 信息压缩的过滤器
在蓝色方块之间,总会夹着一些红色方块(Max Pooling)。
如果你一直用原始尺寸处理图像,计算量会爆炸,而且容易被一些杂乱的干扰信息(噪点)误导。这时候,红色方块就上场了:
- 任务: 它们把图像缩小。比如把 4x4 的区域变成 1x1。
- 逻辑: 它们只保留这个区域内最强、最显著的信号(最大池化)。
- 结果: 图像的尺寸变小了(图中从 224 降到了 14),但最重要的特征被凸显了出来。这就像看报纸,你先扫一眼标题(池化后的关键信息),而不是逐字阅读全文。
3. 绿色方块:全连接层(Fully Connected)—— 最后的决策官
当数据走完所有的蓝色和红色方块,它已经不再是图片了,而是一串高度提炼的数字(特征向量)。
这时候,绿色方块(fc6, fc7, fc8) 出现了:
- 任务: 它们不再扫描局部,而是 “全场关注” 。
- 逻辑: 它们把之前提取到的所有特征(是否有肿块?是否有阴影?是否有异常纹理?)综合起来。
- 输出: 最终通过一个简单的分类器(fc8),给出概率。比如:“98% 的概率是睡眠第一阶段”。
4. 总结:
结合架构图,我们可以梳理出 CNN 处理数据的完整路径:
- 输入(左侧): 原始的扫描图像或信号。
- 提取(蓝色): 靠堆叠的卷积层,从看“线条”进化到看“整体结构”。
- 精炼(红色): 靠池化层不断剔除杂质,只留精华。
- 判定(绿色): 靠全连接层完成最后的逻辑推理。
这就是深度学习在视觉任务中的“标准模板”。 无论是识别手机里的人脸,还是诊断 CT 里的病灶,背后运行的都是这一套蓝红绿的组合拳。
📢 下集预告:
CNN 虽然是视觉领域的王者,但如果我们要处理的不是“图片”,而是看不见、摸不着的 “声音” 呢?
难道 AI 真的长了一双“耳朵”吗?下一篇我们将揭开一个颠覆性的认知:原来 AI 听歌,其实也是在“看图”!
敬请期待第三篇:《声音的画像——当深度学习遇上 MFCC》