吴恩达课程笔记--第四章

276 阅读2分钟

···深度神经网络模型

一、模型的基本结构

image.png ==========层数一般包括隐藏层+输出层,不含有输入层==============

1.logistic回归是一个浅层模型==单层神经网络

2.单隐层神经网络

3.双层神经网络

4.多层神经网络

隐层数量可以当成可以自由选择数值大小的超参数

二、用来描述深度神经网络的符号

image.png 上图是一个四层的有三个隐层的神经网络,隐层中的单元数目是五五三,输出单元数目为一

L代表:神经网络的层数=====L=4(layers)

n[l]代表:节点的数量/小l层上的单元数量

eg:如果输入层是0的话,则一共是4层=======n[1]则是第一个隐层的单元数:5,n[2]=5,n[3]=3,n[4]=n[l]=1,n[0]=n_x=3(输入层)

a^[l]代表:l层中的激活函数

前向传播中,最后要算的a[l]是激活函数g(z^[l]),激活函数也会用层数l来标注

W^[l]代表:在a^[l]中计算z^[l]值的权重

b^[l]代表:同上

输入特征用x表示

x也是第0层的激活函数,x = a^[0], 最后一层的激活函数a^[l]=y^ ,即:a^[l]等于预测输出

三、前向/反向传播

每一层都有的前向/反向传播步骤 image.png cache是缓存,缓存z和da, 也可以换角度===缓存的W和b的值

1.更新前向函数的方法

image.png

输入的是a[0]/A[0]

2.更新反向函数的方法

(1)单个版本

image.png image.png

反向传播的等式: image.png

(2)向量化版本

image.png

3.小结

三层结构的: image.png 正向函数/反向函数 image.png

然后就可以将z^[l]的值缓存起来,因为缓存z值对以后的正向反向传播的步骤非常有用

image.png

**总结图!!!===一个梯度下降的循环 **

image.png

image.png

4.深层网络中的正向/反向传播 应用

(1)正向传播的公式====针对一个训练样本

image.png image.png image.png+偏置项b

(1b)正向传播的公式====针对整个训练集的向量化方法

image.png 这其实就是个for循环,i=1-->L

计算第一层的激活函数,接着第二层、第三层、第四层。

四、参数/超参数

使得深度神经网络起很好的效果

参数:模型里的参数W和b

超参数:学习率α,梯度下降法循环的数量iterations,隐层数L,隐藏单元数n,激活函数,batch的大小,几种不同的正则化参数等

这些超参数都是能控制参数w和b的!!

1.学习率===通过成本函数(损失函数)来决定

收敛在更低的值上了,则为最优值 image.png