ShowMeAI研究中心

持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第1天，点击查看活动详情

Introduction; 深度学习与计算机视觉; Stanford CS231n

本系列为 斯坦福CS231n《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记，对应的课程视频可以在这里查看。更多资料获取方式见文末。

1.课程简介

CS231n 是顶级院校斯坦福出品的深度学习与计算机视觉方向专业课程，核心内容覆盖神经网络、CNN、图像识别、RNN、神经网络训练、注意力机制、生成模型、目标检测、图像分割等内容。

CV引言与基础; 斯坦福CS231n; 内容覆盖典型视觉任务; 1-1

课程最后一版公开课视频为2017版，需要最新进阶技术内容的同学可以关注ShowMeAI发布的 cs231n进阶课程
希望对于深度学习进行一个全面学习了解的同学，可以阅读学习ShowMeAI的 深度学习教程 | 吴恩达专项课程 · 全套笔记解读

2.课程内容介绍

2.1 第1部分 Lecture1-3 深度学习背景知识简单介绍

课程引入与介绍
KNN 和线性分类器
Softmax 和 SVM 两种损失函数
优化算法（SGD等）

2.2 第2部分 Lecture4-9 卷积神经网络

CNN及各种层次结构（卷积、池化、全连接）
反向传播及计算方法
优化的训练方法（Adam、Momentum、Dropout、Batch-Normalization）
训练 CNN 的注意事项（参数初始化与调优）
深度学习框架（TensorFlow、Caffe、Pytorch）
线性CNN结构（AlexNet、VGGNet、GoogLeNet、ResNet）

2.3 第3部分 Lecture10-16 计算机视觉应用

RNN（语言模型，image captioning等）
目标检测（R-CNN、Fast / Faster R-CNN、YOLO、SSD等）
语义分割（FCN、Unet、SegNet、deeplab等）
神经网络可视化与可解释性
生成模型与 GAN
深度强化学习

3.课程学习目标

CV引言与基础; 斯坦福CS231n; 内容覆盖应用创作; 1-2

3.1 实用技能

理解如何从头开始编写、调试和训练卷积神经网络。

3.2 工具技术

集中于大规模训练这些网络的实用技术，以及 GPU（例如，将涉及分布式优化、CPU 与 GPU 之间的差异等），还可以查看诸如 Caffe、TensorFlow 和 (Py)Torch 等最先进的软件工具的现状。

3.3 应用创作

一些有趣的主题，如「看图说话」（结合 CNN + RNN），再如下图左边的 DeepDream，右边的神经风格迁移 NeuralStyle 等。

4.课程先修条件

1）熟悉 Python（并了解 numpy 的使用），本课都用 Python 编写，如果要阅读理解软件包的源代码 C++ 会有帮助。

2）大学微积分（如求导），线性代数（了解矩阵）。

3）有机器学习的背景，大概 CS229 水平，非常重要核心的机器学习概念会再介绍的，如果事先熟悉这些会对课程有帮助的，我们将制定成本函数，利用导数和梯度下降进行优化。可前往文末获取 ShowMeAI 原创的CS229课程速查表。

4）有计算机图像基础会更好，但不是非常严格。

5.计算机视觉简介

5.1 计算视觉历史

16世纪最早的相机：暗箱

CV引言与基础; 计算视觉历史; 1-3

1963年第一篇计算机视觉博士论文「Block world-Larry Roberts」，视觉世界简化为简单的几何形状，识别它们，重建这些形状。

CV引言与基础; 计算视觉历史; 1-4

1996年MIT暑期项目「The Summer Vision Project」目的是构建视觉系统的重要组成部分。

CV引言与基础; 计算视觉历史; 1-5

1970s 的 MIT 视觉科学家 David Marr 编写了《VISION》，内容有计算机视觉的理解、处理开发、识别算法，他提出了视觉表现的阶段，如原始草图的零交叉点，圆点，边缘，条形，末端，虚拟线，组，曲线边界等概念：

CV引言与基础; 计算视觉历史; 1-6

1973年后对于如何识别和表示对象，斯坦福科学家提出「广义圆柱体」和「圆形结构」，每个对象都是由简单的几何图形单位组成。

CV引言与基础; 计算视觉历史; 1-7

1987年 David Lowe 尝试用线和边缘来构建识别。

CV引言与基础; 计算视觉历史; 1-8

1997年 Shi & Malik 提出，若识别太难了，就先做目标分割，就是把一张图片的像素点归类到有意义的区域。

CV引言与基础; 计算视觉历史; 1-9

2001年此时的机器学习也快速发展了（尤其是统计学习方法），出现了SVM（支持向量机模型）、boosting、图模型等方法。Viola & Jones 发表了使用 AdaBoost 算法进行实时面部检测的论文「Face Detection」，而后2006年富士推出可以实时面部检测的数码相机。

CV引言与基础; 计算视觉历史; 1-10

1999 年 David Lowe 发表 "SIFT" & Object Recognition，提出 SIFT 特征匹配，思路是先在目标上确认关键特征，再把这些特征与相似的目标进行匹配，来完成目标识别。从90年代到2000年的思想就是基于特征的目标识别。

CV引言与基础; 计算视觉历史; 1-11

2006年 Lazebnik, Schmid & Ponce 发表「Spatial Pyramid Matching」，图片里的各种特征描述了不同场景，空间金字塔匹配算法的思想就是从图片的各部分各像素抽取特征，并把他们放在一起作为一个特征描述符，然后在特征描述符上做一个支持向量机。

CV引言与基础; 计算视觉历史; 1-12

2005年后来的研究 方向梯度直方图 和 可变形部件模型，目的是将特征放在一起后，如何辨认人体姿态。

CV引言与基础; 计算视觉历史; 1-13

21世纪早期，数码相机快速发展，图片质量提高，也真正有了标注的数据集，它能够衡量目标识别的成果。数据集 PASCAL Visual Object Challenge 有 20 个类别，每个种类有成千上万张图片，供团队开发算法来和数据测试集做对抗训练，来看检测效果有没有优化。

CV引言与基础; 计算视觉历史; 1-14

而后普林斯顿和斯坦福提出怎么识别大部分物体，这个问题也是由机器学习中的一个现象驱动的，机器学习算法在训练过程中很可能会过拟合（只对现有的这些数据完美拟合，但对未知数据不一定完美）。部分原因是可视化的数据非常复杂（像是记住了每道题），从而模型维数比较高，输入是高维的模型，并且还有一堆参数要调优，当我们的训练数据量不够时很快就会产生过拟合现象，这样就无法很好的泛化。

因此有了两方面动力：① 识别万物；② 克服机器学习的瓶颈-过拟合问题。

CV引言与基础; 计算视觉历史; ImageNet; 1-15

针对上述问题开展了ImageNet（www.image-net.org/）项目，在网络上收集了… WordNet 字典来排序，这个字典有上万个物体类别，不得不用 Amazon Mechanical Turk 平台来排序、清洗数据、给每张图片打上标签，最终得到的 ImageNet 有 1500万甚至4000万图片分成了 22000 多类的物体或场景。它将目标检测算法的发展推到了新高度。

CV引言与基础; 计算视觉历史; ImageNet; 1-16