···深度神经网络模型
一、模型的基本结构
==========层数一般包括隐藏层+输出层,不含有输入层==============
1.logistic回归是一个浅层模型==单层神经网络
2.单隐层神经网络
3.双层神经网络
4.多层神经网络
隐层数量可以当成可以自由选择数值大小的超参数
二、用来描述深度神经网络的符号
上图是一个四层的有三个隐层的神经网络,隐层中的单元数目是五五三,输出单元数目为一
L代表:神经网络的层数=====L=4(layers)
n[l]代表:节点的数量/小l层上的单元数量
eg:如果输入层是0的话,则一共是4层=======n[1]则是第一个隐层的单元数:5,n[2]=5,n[3]=3,n[4]=n[l]=1,n[0]=n_x=3(输入层)
a^[l]代表:l层中的激活函数
前向传播中,最后要算的a[l]是激活函数g(z^[l]),激活函数也会用层数l来标注
W^[l]代表:在a^[l]中计算z^[l]值的权重
b^[l]代表:同上
输入特征用x表示
x也是第0层的激活函数,x = a^[0], 最后一层的激活函数a^[l]=y^ ,即:a^[l]等于预测输出
三、前向/反向传播
每一层都有的前向/反向传播步骤
cache是缓存,缓存z和da, 也可以换角度===缓存的W和b的值
1.更新前向函数的方法
输入的是a[0]/A[0]
2.更新反向函数的方法
(1)单个版本
反向传播的等式:
(2)向量化版本
3.小结
三层结构的:
正向函数/反向函数
然后就可以将z^[l]的值缓存起来,因为缓存z值对以后的正向反向传播的步骤非常有用
**总结图!!!===一个梯度下降的循环 **
4.深层网络中的正向/反向传播 应用
(1)正向传播的公式====针对一个训练样本
+偏置项b
(1b)正向传播的公式====针对整个训练集的向量化方法
这其实就是个for循环,i=1-->L
计算第一层的激活函数,接着第二层、第三层、第四层。
四、参数/超参数
使得深度神经网络起很好的效果
参数:模型里的参数W和b
超参数:学习率α,梯度下降法循环的数量iterations,隐层数L,隐藏单元数n,激活函数,batch的大小,几种不同的正则化参数等
这些超参数都是能控制参数w和b的!!
1.学习率===通过成本函数(损失函数)来决定
收敛在更低的值上了,则为最优值