人工神经网络的生理学背景，神经元与感知器人工神经网络的生理学背景脑神经科学研究表明，人脑由大约千亿个神经细胞及亿亿个神

人工神经网络的生理学背景

脑神经科学研究表明，人脑由大约千亿个神经细胞及亿亿个神经突触组成，这些神经细胞及其突触共同构成了一个庞大的生物神经网络。

揭示出能把大量神经元组装成一个功能系统的设计原理，这才是问题的实质所在。研究表明，感觉神经元仅对其敏感的事物属性作出反应。外部事物属性一般以光波、声波、电波等方式作为输入刺激人类的生物传感器，而感觉神经元输出的感觉编码是一种可符号化的心理信息。因此，感觉属性检测是一类将数值信息转化为符号信息的定性操作。

感觉将事物属性转化为感觉编码，不仅能让大脑检测到相应属性，还在事物属性集与人脑感觉记忆集之间建立起对应关系，所以感觉属性检测又叫感觉定性映射。神经网络对来自神经元的各简单属性的感觉映象加以组合，得到的就是关于整合属性的感觉映象。

类自从他能被叫做人的那一天起就具备识别物体的能力了，这种认知可以归结为一个高度抽象化的加工模型。在这个模型中，信息的加工具有从简单到复杂的层次化特征，在每个层次上都有相应的表征，无论是特征提取还是认知加工，都是由不同表征的组合完成的。

表征处理的物质基础是神经元，大量神经元群体的同步活动是实现表征和加工的生理学机制。单个神经元只能表征极为简单的信息，但当它们通过神经电活动有节律的同步震荡整合在一起时，复杂的功能就诞生了。从信息科学的角度看，整个加工过程可以理解为多次特征提取，提取出的特征从简单到复杂，甚至“概念”这种十分抽象的特征也可以被提取出来。

从物质基础的角度看，人类智能是建立在有机物基础上的碳基智能，而人工智能是建立在无机物基础上的硅基智能。碳基智能与硅基智能的本质区别在于架构，正是架构决定了数据的传输与处理是否能够同时进行。

数据并非为了存储而存储，而是为了在需要时能够快速提取而存储，归根到底存储的作用是提升数据处理的有效性。遗憾的是，这显然不是计算机的强项。虽然处理器的处理速度和硬盘的容量增势迅猛，但数据总线的传输速度依然是电脑性能的瓶颈：数据不能被即时地送到它该去的地方。在人类和老鼠等其他哺乳动物的大脑中，数据的传输和处理都由突触和神经元之间的交互完成。重要的是，数据的传输和处理是同步进行的，并不存在先传输后处理的顺序。在同样的时间和空间上，哺乳动物的大脑就能够在分布式的神经系统上交换和处理信息，这绝对是计算机难以望其项背的。此外，人的记忆过程也不仅仅是数据存储的过程，还伴随着去粗取精的提炼与整合。记忆的过程在某种意义上更是忘记的过程，是保留精华去除糟粕的过程。一个聪明人也许会忘记知识中的大量细节，但一定会记住细节背后的规律。碳基大脑的容量恐怕永远也无法和硅基硬盘相比，但是其对数据的使用效率同样是硅基硬盘难以企及的。

神经元与感知器 1943 年，美国芝加哥大学的神经科学家沃伦·麦卡洛克和他的助手沃尔特·皮茨发表了论文《神经活动中思想内在性的逻辑演算》（A Logical Calculus of Ideas Immanent in Nervous Activity），系统阐释了他们的想法：一个极度简化的机械大脑。这篇论文宣告了人工神经网络的呱呱坠地。

MP 神经元则接受一个或多个输入，并对输入的线性加权进行非线性处理以产生输出。假定 MP 神经元的输入信号是个 N+1 维向量 (x0,x1,⋯,xN)，第 i 个分量的权重为 wi，则其输出可以写成

MP 神经元中的函数 ϕ(⋅) 被称为传递函数，用于将加权后的输入转换为输出。传递函数通常被设计成连续且有界的非线性增函数，但在 MP 神经元中，麦卡洛克和皮茨将输入和输出都限定为二进制信号，使用的传递函数则是不连续的符号函数。符号函数以预先设定的阈值作为参数：当输入大于阈值时，符号函数输出 1，反之则输出 0。这样一来，MP 神经元的工作形式就类似于数字电路中的逻辑门，能够实现类似“逻辑与”或者“逻辑或”的功能，因而又被称为“阈值逻辑单元”。MP 神经元虽然简单实用，但它缺乏一个在人工智能中举足轻重的特性，也就是学习机制。

“赫布理论”： 两个神经细胞之间通过神经元进行的交流越多，它们之间的联系就会越来越强化，学习的效果也在联系不断强化的过程中逐渐产生。会学习的神经元模型：感知器感知器并不是真实的器件，而是一种二分类的监督学习算法，能够决定由向量表示的输入是否属于某个特定类别。作为第一个用算法精确定义的神经网络，感知器由输入层和输出层组成。输入层负责接收外界信号，输出层是 MP 神经元，也就是阈值逻辑单元。每个输入信号（也就是特征）都以一定的权重被送入 MP 神经元中，MP 神经元则利用符号将特征的线性组合映射为分类输出。

感知器引入了学习机制，具体的学习步骤为：

初始化权重 w(0) 和阈值，其中权重可以初始化为 0 或较小的随机数；
对训练集中的第 j 个样本，将其输入向量 xj 送入已初始化的感知器，得到输出 yj(t)；
根据 yj(t) 和样本 j 的给定输出结果 dj，按以下规则更新权重向量；

重复以上两个步骤，直到训练次数达到预设值。式中的正常数 0<η≤1 被称为学习率参数，是修正误差的一个比例系数。

感知器还有很多优点：

首先是非参数化特性，即没有做出任何关于固有分布形式的假设，只是通过不同分布重叠区域产生的误差来运行，这意味着即使输入数据是非高斯分布时，算法依然能够正常工作。
自适应性，只要给定训练数据集，算法就可以基于误差修正自适应地调整参数而无需人工介入。

感知器局限：

单层感知器无法解决以异或为代表的线性不可分问题
受硬件水平的限制，当时的计算机无法完成训练感知器所需要的超大的计算量。

异或为代表的线性不可分问题，解决它的思路相当简单，就是将单层感知器变成多层感知器。

多层感知器（multilayer perceptron）包含一个或多个在输入节点和输出节点之间的隐藏层（hidden layer），除了输入节点外，每个节点都是使用非线性激活函数的神经元。而在不同层之间，多层感知器具有全连接性，即任意层中的每个神经元都与它前一层中的所有神经元或者节点相连接，连接的强度由网络中的权重系数决定。多层感知器是一类前馈人工神经网络（feedforward neural network）。网络中每一层神经元的输出都指向输出方向，也就是向前馈送到下一层，直到获得整个网络的输出为止。

多层感知器的训练包括以下步骤：

首先确定给定输入和当前权重下的输出，再将输出和真实值相减得到误差函数，最后根据误差函数更新权重。
在训练过程中，虽然信号的流向是输出方向，但计算出的误差函数和信号传播的方向相反，也就是向输入方向传播的，

这种学习方式得名反向传播（backpropagation）。反向传播算法通过求解误差函数关于每个权重系数的偏导数，以此使误差最小化来训练整个网络。

反向传播算法的流程：

初始化网络中所有权重系数和阈值；在前向计算中，将训练样本送入输入节点，在输出节点得到训练结果，再以平方误差形式计算训练输出和真实输出之间的误差函数

在反向计算中，计算神经网络的局域梯度，并根据局域梯度和学习率 η 从输出层到隐藏层对权重系数进行逐层更新；
利用新样本训练多层感知器，迭代进行前向计算和反向计算，直到满足停止准则。

多层感知器的核心结构就是隐藏层，之所以被称为隐藏层是因为这些神经元并不属于网络的输入或输出。在多层神经网络中，隐藏神经元的作用在于特征检测。随着学习过程的不断进行，隐藏神经元将训练数据变换到新的特征空间之上，并逐渐识别出训练数据的突出特征。

抛开训练数据量不论，隐藏层和隐藏神经元的数目也是网络设计中需要考虑的问题。迭代次数就成为另一个重要的问题。一旦误差函数停止减小，就终止学习算法。当训练集的误差下降但验证集的误差上升时让训练立即停止，这就是所谓“早停”的过拟合抑制策略。

极客时间《人工智能基础课》学习笔记 Day7