深度学习基础(一) 引入了一个 helloworld，提出了神经网络的简单关系，也就是一个基础公式

a(L) = Sigmoid( a(L-1)*W(L) + b(L))

a(L): 第L层神经元被激活之后进行Sigmoid函数收敛得到的值

b(L): 第L层神经元被激活阈值

W(L): 第L层神经元与第L-1层神经元之间的关系权重

由于神经元之间的关系通过公式计算之后得到的值会是一个很大的范围，

我们也无从知道，这个范围多大，总之很多种可能，为了方便操作，采用Sigmoid函数将计算结果收敛到 0~1 这个范围

从网络第二层开始，每个神经元身上都具备了n(前一层神经元个数，由于当前层的每个神经元与前一层的n个神经元都会有关系)个W控制器，1个阈值开关

如此，整个网络就会有很多个这样的 w b开关，如果这些开关能调试到一个合适的位置，那么整个网络从第一层接收输入的数据，就会吐出来一个不错的结果，比如上篇文章提到的手写体数字识别，得到一个相当不错的识别结果

关键的问题就是，如何调试这些开关，假如有十几二十多个开关，我们还能手动调一调，但上文中提到的结构，网络有 4层， 784 x 16 x 16 x 10，总共10000多个开关，这完全不是我们能处理的

神经网络学习就是调试这些开关参数了

这篇说文，我不会引入太多的图来说明，主要通过简单的数学逻辑引申到这个主题上来，基本上就是白话了，也没有复杂的公式

如何调试开关

不像我们解微分方程，线性矩阵运算，简单通过微分积分策略与向量方程求解，得到结果就完事了

通过微积分我们能做的那些事，计算机甚至比我们做得更好更高效

主要在于神经网络所阐述的学习逻辑是怎么个逻辑，怎么就能调试那么多的参数

我们在大一都学过高等数学，想想为什么要求导，我们最开始学习的时候，是怎么引入导数这个概念的，

肯定不是一开始就记公式的，因为要研究一些非线问题，我们通过简单的高中数学无法解决的问题

以一元函数为例，汽车开始行驶到行驶结束，求速度的问题，还记得那个小三角变化量么，当时就是为了研究自变量改变一点点，因变量的变化，引出了导数的概念，然后如何通过积分求面积，就是这样开始的

神经网络也一样，面对庞大的参数集要求解，直接使用公式是没可能的，那么也开始像最开始接触导数一样，从一点点的变化开始慢慢探究

上图就是前面提到的公式了，为了方便理解，引入了变量Z，Sigmoid就是对Z进行收敛

图中的复合多元函数求导也非常简单，用到的链式法则也很好理解，如果确实忘记的话简单百度一下也很容易恢复记忆

神经网络调试开关不是一蹴而就的，而是一点点慢慢调的，这个过程就有点像我们开始学习高等数学解题一样，通过求导慢慢探究，然后通过积分来求面积一样

我们假定神经网络有4层，第一层为输入层，所以第一层神经元激活值可以认为是确定的

中间两层是通过第一层传递过来的

最后一层为输出层，也是通过中间两层传递输出来的

开始，神经网络给所有的开关随机了一个值作为初始值，当然了，这样网络输出的结果基本上不是我们期望的结果

那就从第一次输出的结果开始，我们能知道输出层与我们期望的结果相差多少，假定我们是计算机，我们根据结果的偏差来调整我们最后一层神经元上绑定的开关 w，b

这里又不得不插入一些赘述，因为涉及到了结果评价问题，需要对输出结果是什么有直观的认识

输出结果其实是通过输出层的 10个神经元反馈出来的

10个神经元，每个神经元分别代表着 0，1，2，..... 9 这10个罗马数字

每个神经元的激活值为 0~1，看输出层这10个神经元，谁的激活值最大，就表示谁代表的罗马数字就是最终的结果

如果输入的手写体是个3，那么我们希望神经网络输出的结果自然是3，代表3的那个神经元的激活值应该最高为1，其他的神经元激活值应该都为0

这样我们根据结果判断，目前网络的开关设置下输出的结果与我们期望得到的结果差别，通过网络最后一层能看到的直观结果就是这样了

继续回到调试开关上来

第一次随机开关设置，网络输出之后，我们发现目标指代正确结果的那个神经元激活值偏低，非目标神经元激活值偏高

我们当然就希望目标神经元激活值高一些，非目标神经元激活值低一些

如果是这么简单，我们直接调试过来就好了

当然了，这个网络并非输出一种结果，另一组输入，比如手写2，期望输出 2罗马数字，对最后一层开关的调试方案又是一种情况

目前我们的关注点只在最后一层也就是输出层上

神经网络在最后一层上的开关调试，就是根据各种输入得到的结果偏差，各自期望的调试方向叠加到一起，形成一个最合适有效的调试方案，最终保障各自的输入都能尽可能的输出正确的结果

正因为，大家都需要调试开关，都有各自的输出诉求，就不能简单粗暴的设置了，需要慢慢商议，你进一点，他退一点，不合适了再反过来，如此，反复磨，反复商议，最终才能形成方案来

即使这样，我们也是尽最大可能调试最后一层网络开关而已，中间的两层神经元上也有很多开关，到此我们还未涉及到

码字来说明确实效率有点低下，马上要涉及的神经网络学习策略放在放在下篇更文

深度学习基础(二)-学习是怎么个回事