深度学习

神经元：

神经网络中的基本单元，张量+函数组成。张量是n维数组，可以是一维数组，二维数组(矩阵)，三维数组，函数一般有加权和(图中w1,w2为权重参数,a1,a2,a3是矩阵的数据)

如：a1w1+a2w2+a3w3...

函数一般有loss函数，激活函数，优化函数。

深度学习是对矩阵为运算对象，对矩阵进行加，减，乘，除等各种运算。

多个神经元组成神经网络：

这是3层全连接神经网络，有输入层，中间2层为隐藏层，输出层。

均方误差： loss = sum(Math.pow((y-y1),2))

梯度 = d^loss / d^y

梯度下降：梯度是某一个点斜率，修改w1,w2,w3这些参数值，直至斜率为0. 举个常见的例子：你站在山上某处，想要尽快下山，于是决定走一步算一步，也就是每走到一个位置时，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走.

以下是神经网络的通用流程：

屏幕快照 2022-04-29 上午6.50.51.png

在程序设计中，通常运行100~200 次来更新权重w 参数。

又称全连接神经网络，如上面介绍的,是基本的神经网络。

在DNN中，由于上一层的所有值都参与了下一层的计算，w参数很多。CNN减少了参与下一层值，缩减了w参数规模。引入卷积的概念，形成卷积神经网络

卷积核：width * height ，step, padding
池化：扩大观察野。 step == 卷积核大小，有max pooling,average pooling. average pooling能更好的保留信息的背景，如高斯模糊， max pooling能更好的提取图片的纹理信息。

卷积神经网络发展历史：最早出现LeNet ,后面AlexNet应来爆发期,后面分出两个研究方向，一个是加深网络层数，VGG，另一个增加卷积功能，如GoogleNet,Inception v3 ResNet结合了两个研究方向。

语言的顺序会影响语义的表达， RNN添加了对序列信息处理。 DNN, CNN不关心信息的顺序问题.

我爱你

你爱我表达的意思不同.

如图中 x^t是t时刻输入，s^t为t时刻隐藏层输出，s^t-1为t-1时刻隐藏层输出,o^t为t时刻输出。，s^t取值取决于x^t和s^t-1。

这多了一个W 循环，所以叫循环神经网络。常用算法有：

LSTM：长短期记忆网络。添加了对长期记忆的处理，通过遗忘门(f^t)，输入门(i^t)，输出门(o^t)来控制长期记忆的影响。 门是开关的意思. 计算中用0,1 表示。图中 X 号表示开关。

C 表示长期记忆，h表示短期记忆，x是当前时刻输入. f^t 控制是否把前一时刻 C 加入当前计算。 i^t 控制是否把当前时刻输入加入长期记忆。 o^t 控制是否把长期记忆加入 h 的计算。

使用encoder-decoder 结构。它没有使用CNN,RNN。而是使用Attention。

Multi-head Self Attention 在对句子取信息时，它取位置embedding, 语法 embedding, 语义embedding, 计算a^1,1时，用q¹ 乘以 k¹ 再softmax , 再乘以V¹

a^1,2, a^1,3 以上循环计算。

b1 是 x¹ 的输出，等于a^1,i 求和。

Self Attention 自注意力机制, 是可微分的，可以算出loss, 梯度，可以通过调整参数来调整结果的。

屏幕快照 2022-05-16 上午7.56.54.png

屏幕快照 2022-05-15 下午9.05.46.png