CNN浅显的基础知识识别:是谁. 区别于分类.比如人脸识别,不可能把不同的人都分别当成一种种类进行分类.识别和分类的区别

"检测","识别"和"分类"容易混淆用错
- 检测:指物体在哪里(bounding box),是什么物体.解决的是where,what
- 分类: 是什么物体(区别于检测,分类是已知有bounding box),以及给出概率:image/Video classification;Segmentation(instance segmentation,sementic segmentation,像素级别的分类.)
- 识别:是谁. 区别于分类.比如人脸识别,不可能把不同的人都分别当成一种种类进行分类.识别和分类的区别在于处理方式的不同,识别是使用特征向量进行处理的.
model: 本质就是一大堆非线性函数的参数(paramers).
train: 就是找到这些paramers的过程
损失函数:
- 训练过程梯度爆炸--loss 短时间内迅速上升.
- loss 下降非常慢,震荡向下,最终也会收敛,第一反应是learning rate 设置小了点.
- 训练最终可能只是得到局部最优解,全局最优解很难达到.
为什么神经网络(neural network) 需要激活函数(activation function)?
- 不管是sigmod(用于二分类),relu(cnn),softmax(多分类),都是为了模型能起到拟合非线性关系的函数.如果没有激活函数,神经网络也只是能拟合线性关系的函数(hypotheses),能拟合的情况非常少.
向后传播(back propagation): -是指网络最终的loss function 的向后传递
- 目的是减少计算量,每一层网络都去单独去计算损失函数,计算量非常大.
- 实现方式为chain Rule,但这种传播方式也会很容易导致梯度爆炸,因为是很多个多项式相乘.
正则化(regularization):
- 目的:神经网络拟合能力太强,很容易出现过拟合(train loss 非常低,其它数据的loss 高)的情况,正则化就是用来防止过拟合的.
- 如何实现:损失函数的计算中加入惩罚项,这样最终求导更新的参数权值变小,那么hypotheses曲线会区域平滑,让过拟合情况减少.
- 有L1,L2 regularization. L1有特征选择的作用,因为得到的权值容易为0.