神经网络表示

神经网络是一种机器学习算法，有别于线性回归、逻辑回归。

一、非线性假设

1. 引例

利用逻辑回归求解非线性分类问题
1. 问题:房子如何能卖出?
  
  下面是两个特征的情况：
  
  然而当特征数量比较多时，如房子尺寸、卧室个数、层数、房龄等，那么假设函数中的 z 项就会复杂得多，带来了巨大的计算复杂度。
2. 假设函数：
  
  $\begin{array}{l} g\left(\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}\right. +\theta_{3} x_{1} x_{2}+\theta_{4} x_{1}^{2} x_{2} \left.+\theta_{5} x_{1}^{3} x_{2}+\theta_{6} x_{1} x_{2}^{2}+\ldots\right) \end{array}$
  
  若是特征个数比较多，比如说有 100 个，那么最终 z 就会有大约 5000 个 x 项，这就造成了运算量过大的问题。
汽车分类问题(是否为汽车)
1. 计算机眼中的汽车
  
  彩色图像是由BGR三层灰度叠加而成，而灰度图只有一层，一般灰度级的取值范围为[0, 255]
2. 汽车检测模型
  1. 一般方法
    1. 收集图像信息(汽车与非汽车)
  1. 调出对应的训练像素点训练
  1. 形成模型，用以判别新图像
  1. 推广
    
    由两个像素点推广到整幅图像的像素点，进行处理。一副 50 * 50的灰度图由 2500 个灰度像素点，而一副RGB图拥有 3 * 2500 = 7500 个灰度像素点。

二、神经元和大脑

神经网络
1. 起源：试图去模仿大脑的算法
2. 发展历程：兴起于上世纪8、90年代，但是在90年代末期销声匿迹；但是最近几年又重现江湖。
假设
1. 只需要用一个假设函数就能完成人脑的日常功能
2. 神经重接实验：若一块大脑区域能处理光、声或触觉信号，那么可能存在着一种算法能同时处理视觉、听觉和触觉(通感)。也就不需要成百上千个程序来实现不同的功能。
大脑中的传感器互联

三、模型展示

神经元在大脑中的陈列方式：
1. 树突（dendrite）：输入层
2. 轴突（axon）：输出层
3. 细胞核（Nucleus）：隐藏层，处理信息
多个神经元协同工作：

1. 模型一

神经模型(逻辑单元)
1. 术语：
  1. 激活函数：
    
    sigmoid，也即是神经元
  2. 参数(权重)
    
    $\theta$
  3. 偏移量
    
    $b$ 或 $x_{0}$ ，通常设置为 1
神经网络
1. 展示
  
  其中的 $a_{i}^{(j)}$ 是第j层第i个神经元的激活函数， $\theta^{(j)}$ 是从第 j 层到第 j+1 层的权重阵列，图中的 $\theta^{(j)}$ 的尺为 3 * 4。
  
  另外，如果神经网络的第 j 层有有 $s_{j}$ 个神经元，同时第 j + 1层有 $s_{j+1}$ 个神经元，那么 $\theta^{(j)}$ 的尺寸就为: $s_{j+1} * （s_{j} + 1）$
2. 术语：
  1. 输入层
  2. 隐藏层(全连接层)
  3. 输出层
3. 计算过程
  
  $\begin{array}{l} a_{1}^{(2)}={g}\left({\left.\Theta_{10}^{(1)} x_{0}+\Theta_{11}^{(1)} x_{1}+\Theta_{12}^{(1)} x_{2}+\Theta_{13}^{(1)} x_{3}\right)}\right.\\ a_{2}^{(2)}={g}\left({\left.\Theta_{20}^{(1)} x_{0}+\Theta_{21}^{(1)} x_{1}+\Theta_{22}^{(1)} x_{2}+\Theta_{23}^{(1)} x_{3}\right)}\right.\\ a_{3}^{(2)}={g\left(\Theta_{30}^{(1)} x_{0}+\Theta_{31}^{(1)} x_{1}+\Theta_{32}^{(1)} x_{2}+\Theta_{33}^{(1)} x_{3}\right)} \quad \\ h_{\Theta}(x)=a_{1}^{(3)}=g\left(\Theta_{10}^{(2)} a_{0}^{(2)}+\Theta_{11}^{(2)} a_{1}^{(2)}+\Theta_{12}^{(2)} a_{2}^{(2)}+\Theta_{13}^{(2)} a_{3}^{(2)}\right) \end{array}$ 。

2. 模型二

模型一：基于向量实现(前向传播)
1. 处理过程
  
  $\begin{array}{l} a_{1}^{(2)}={g}\left({\left.\Theta_{10}^{(1)} x_{0}+\Theta_{11}^{(1)} x_{1}+\Theta_{12}^{(1)} x_{2}+\Theta_{13}^{(1)} x_{3}\right)}\right.\\ a_{2}^{(2)}={g}\left({\left.\Theta_{20}^{(1)} x_{0}+\Theta_{21}^{(1)} x_{1}+\Theta_{22}^{(1)} x_{2}+\Theta_{23}^{(1)} x_{3}\right)}\right.\\ a_{3}^{(2)}={g\left(\Theta_{30}^{(1)} x_{0}+\Theta_{31}^{(1)} x_{1}+\Theta_{32}^{(1)} x_{2}+\Theta_{33}^{(1)} x_{3}\right)} \quad \\ h_{\Theta}(x)=a_{1}^{(3)}=g\left(\Theta_{10}^{(2)} a_{0}^{(2)}+\Theta_{11}^{(2)} a_{1}^{(2)}+\Theta_{12}^{(2)} a_{2}^{(2)}+\Theta_{13}^{(2)} a_{3}^{(2)}\right) \end{array}$ 。
  
  前向传播：从输入层输入数据，前向传播至第一隐藏层、第二隐藏层，然后再送入输出层输出
2. 简化计算表示：
  1. 引入 z ，用来装载 g 的参数列表，例如： $z _{1}^{(2)} = \Theta_{10}^{(1)} x_{0}+\Theta_{11}^{(1)} x_{1}+\Theta_{12}^{(1)} x_{2}+\Theta_{13}^{(1)} x_{3}$ ，表示第二层第一个神经元的 x 多项式，对应的激活函数 $a^{(2)}_{1} = g( z^{(2)}_{1})$ 。以此类推可以简化各个神经元的激活函数。
  2. $\begin{array}{l} x=\left[\begin{array}{l} x_{0} \\ x_{1} \\ x_{2} \\ x_{3} \end{array}\right] \quad {z^{(2)}}{}=\left[\begin{array}{c} z_{1}^{(2)} \\ z_{2}^{(2)} \\ z_{3}^{(2)} \end{array}\right] \\ z^{(2)}=\Theta^{(1)} x \\ a^{(2)}=g\left(z^{(2)}\right) \end{array}$ .其中 $\Theta ^{(1)}$ 是一个 3 * 4 的矩阵： $\begin{bmatrix} \Theta_{10}^{(1)} x_{0} & \Theta_{11}^{(1)} x_{1} & \Theta_{12}^{(1)} x_{2} & \Theta_{13}^{(1)} x_{3}\\ \Theta_{20}^{(1)} x_{0} & \Theta_{21}^{(1)} x_{1} & \Theta_{22}^{(1)} x_{2} & \Theta_{23}^{(1)} x_{3}\\ \Theta_{30}^{(1)} x_{0} & \Theta_{31}^{(1)} x_{1} & \Theta_{32}^{(1)} x_{2} & \Theta_{33}^{(1)} x_{3} \end{bmatrix}$ .而 $a^{(2)}$ 是一个三维列向量。
  3. 同时在计算过程中，为了便于计算，我们也会加入一些项，会在隐藏层中加入激活函数 $a^{(2)}_0 = 1 和 x_{0} = 1$ ， $a^{(2)}$ 也就变成了 4 维向量，从而 $z^{(3)} = \Theta ^{(2)} a^{(2)}$ 、 $h_{\theta}(x) = a^{(3)}= g(z^{(3)})$ 。
神经网络学习自身特征

将之前层的输出作为最后一层隐藏层的特征输入，将神经网络的最后一层隐藏层和输出层挑选出来，则会得到一个类逻辑回归的假设函数：

令 $z = \Theta^{(2)}_{10}a^{(2)}_{0} + \Theta^{(2)}_{11}a^{(2)}_{1} + \Theta^{(2)}_{12}a^{(2)}_{2} + \Theta^{(2)}_{13}a^{(2)}_{3}$ ，则 $h_{\Theta}(x) = g(z)$ ，本质上是逻辑回归算法。
其余的网络结构

每层依次为：输入层、隐藏层 1 、隐藏层 2 、输出层。

3. 示例和直觉理解

示例一(非线性分类示例：XOR/XNOR)

$x_{1}、 x_{2}$ 是二值变量(0, 1)

y = $x_{1}$ XOR $x_{2}$

y = $x_{1}$ XNOR $x_{2}$

y = NOT ( $x_{1}$ XOR $x_{2}$ )
简例：AND

神经元图例：

其中的 + 1 表示为 $x_{0} = 1$ ,图中的 -30、+20、+20分别为 $\theta_{0}$ 、 $\theta_{1}$ 、 $\theta_{2}$ 的值。所以假设函数为: $h_{\theta}(x) = g(-30 + 20 x_{1} + 20 x _ {2})$ 。

g(z) [sigmoid] 函数图像如下：

可以将 $x_{1}$ 和 $x_{2}$ 分别以值为0、1代入函数可得结果为：

$x_{1}$	$x_{2}$	$h_{\theta}(x)$
0	0	$g(-30) \approx 0$
0	1	$g(-10) \approx 0$
1	0	$g(-10) \approx 0$
1	1	$g(10) \approx 1$

简例：OR

$h_{\theta}(x) = g(-10 + 20 x_{1} + 20 x _ {2})$ 。

$x_{1}$ $x_{2}$ $h_{\theta}(x)$
0 0 $g(-10) \approx 0$
0 1 $g(10) \approx 1$
1 0 $g(10) \approx 1$
1 1 $g(30) \approx 1$
简例：NOT

这个例子只有一个变量，所以假设函数可以为： $h_{\Theta}(x ) = g(10 - 20x_{1})$
简例：(NOT $x_{1}$ )AND(NOT $x_{2}$ )
1. 对于比较复杂的项，可以先进行展开
2. 展开为只有当 $x_{1} = x_{2} = 0$ 时，整个式子才为 1，表示为：NOT( $x_{1}$ OR $x_{2}$ )，将上面的OR例子中的各参数取反就行了，也即是： $h_{\theta}(x) = g(10 - 20 x_{1} - 20 x _ {2})$ 。

$x_{1}$	$x_{2}$	$h_{\theta}(x)$
0	0	$g(-10) \approx 0$
0	1	$g(10) \approx 1$
1	0	$g(10) \approx 1$
1	1	$g(30) \approx 1$

主要就是给对应的变量乘上较大的权重，利用sigmoid函数取值来用概率输出对应分类。

示例二( $x_{1}$ XNOR $x_{2}$ )
1. 总结上面的 AND、NOT( $x_{1}$ OR $x_{2}$ )、OR三者各自关系：
2. 计算过程：
  1. 神经网络构成：
  第一层是输入层，第二层是包含了两个激活函数和 $a^{2}_{0} = 1$ 的隐藏层，第三层还是一个隐藏层，将第二层的处理结果进行处理并将结果传入第四层输出层。其中 $a^{(2)}_{1}$ 、 $a^{(2)}_{2}$ 、 $a^{(3)}_{1}$ 分别表示了 AND、NOT - AND、OR关系。

四、多元分类

引例：判别公路上的物体

类型：行人、汽车、摩托、卡车
神经网络的构成：
输出层的规定：和之前的二值分类不同(可以直接返回数字)，多分类长返回一个向量：

$h_{\Theta}(x) \approx\left[\begin{array}{l} 1 \\ 0 \\ 0 \\ 0 \end{array}\right], \quad h_{\Theta}(x) \approx\left[\begin{array}{l} 0 \\ 1 \\ 0 \\ 0 \end{array}\right], \quad h_{\Theta}(x) \approx\left[\begin{array}{l} 0 \\ 0 \\ 1 \\ 0 \end{array}\right], \quad h_{\Theta}(x) \approx\left[\begin{array}{l} 0 \\ 0 \\ 0 \\ 1 \end{array}\right]$ .分别代表了不同的分类：行人、汽车、摩托、卡车等。
训练集设置：

$(x^{(1)},y^{(1)})$ 、 $(x^{(2)},y^{(2)})$ 、 $(x^{(3)},y^{(3)})$ 、 $(x^{(4)},y^{(4)})$ 、......、 $(x^{(m)},y^{(m)})$ ，其中 $y^{(i)}$ 为上面的四维向量，并且 $h_{\theta}(x^{(i)})\approx y^{(i)}$

ML 06 - Neural Network