AI系统-5深度学习的基础：矩阵运算之前讲了神经网络的基础理论：神经网络的每层之间是函数关系，整体就是一个大的复合函数，

之前讲了神经网络的基础理论：神经网络的每层之间是函数关系，整体就是一个大的复合函数，这样就能表示y=f(x)了。讲完了函数，那么就需要看看要运算的数据是什么样子了，例如一张图片就是很多的像素点，需要用矩阵表示，这些像素点作为参数都要参与运算就又是更大的矩阵运算了。

本文就先从矩阵运算入手，简短的篇幅就讲完整个深度学习内容，并且直达科技前沿的TensorFlow。内容还是参考《飞天闪客：白话DeepSeek》，上链接：

space.bilibili.com/325864133/l…

1. 矩阵运算

换成矩阵如下：

化简后为：

对于多层神经元，第L层的运算表示如下：

当层数变多，且参数矩阵变多的时候，就可以使用并行计算了，这在计算机技术里面很常见。而且这种固定的矩阵运算可以软件硬化就是NPU了。

2. CNN卷积神经网络

对于图像处理而言，每个像素点要占一个数值，如果把这些数值直接作为输入，后续的训练效果会很差，

因为作为最基础的输入要携带的信息量越多越好。特别是在图片识别领域，人眼去看图片的时候一次能看到整个轮廓，从而迅速的判断，所以盯着图片的某个像素看识别不了图片内容。例如一个像素的值，它周围像素的值信息如果也能携带进去，就是把局部的信息都带进去，这样就具有了空间的信息，怎么办呢？答案就是小范围的扫描一遍：

扫描的方法就是去3x3的9个像素点跟一个固定矩阵相乘得到的值，替换3x3矩阵中间的值。这样扫描处理完一遍，整个图片的像素值就都有了周围的空间信息。这就是卷积运算，固定矩阵就是卷积核。

在图像处理领域，卷积运算很常用，例如PS里面的模糊效、浮雕、锐化等效果，甚至马赛克。我们这里要用于图像识别，那卷积核的参数就要训练的跟我们要识别的物体相近，这样经过卷积运算，数值比较大一些就说明这个像素附近更想我们要识别的物体，就是有用信息多。

卷积层解决了图像局部信息差的问题，那么参数太多怎么解决，就需要池化层，例如30x30的图片经过池化层就剩5x5，这样作为输入给神经网络，神经网络里面以全部信息作为输入就是全链接层。最后神经网络运行的结果给输出层做出识别结果的判断。

池化（Pooling）用于降低特征图（feature map）的空间尺寸，从而减少参数的数量和计算量，同时提高模型的不变性和泛化能力。可以理解为对上述计算的特征进行再次提取。一个最简单的池化方法就是例如2x2的像素里面取一个最大值，这样参数尺寸就缩小了4倍，这就是最大池化。其他常见的一些池化算法：

平均池化：在池化窗口内计算平均值作为池化后的值，这是用来平滑特征，减少噪声影响。
求和池化：在池化窗口内计算所有值的总和作为池化后的值。能够保留更多的信息，但对噪声也更敏感。
L2 池化：在池化窗口内计算所有值的 L2 范数（即欧几里得距离）作为池化后的值。在某些情况下能够更好地保留特征的结构信息。

输出层就是图片的识别结果，例如张三或者李四。整个过程也是完成了函数的运算，到最后给出函数的Y值结果。

卷积神经网络CNN一般会有多个这些层的组合，例如手写数字的识别如下：

可视化如下：

CNN主要用于静态图片的识别。是神经网络的一种。其实这些知识就讲到深度学习了。

3. 循环神经网络RNN

图片适合扫描就是卷积，那么文字的信息形式本来就是一行一行的，并且不是一页文字，而是像整个图书馆的文字信息一样多，面对这么多的信息CNN就不适合了，这里要用到循环神经网络RNN，一个典型应用就是文字对话，根据提问的文字信息找出关联最大的文字进行回答。

首先要解决文字的问题就是编码，因为计算机只认识01组成的数字，那么把每个汉字编码成一个数组，这样汉字间的关联关系就丢失了，这种关联关系对AI非常的重要，因为决定了一个文字的信息量大小，而对于神经网络的输入数据要求信息量越大越好，然后向前传播的时候就能更准确的预测。这一点也是汉语比英语有优势的地方，因为英文单词太多，新词太多，关联度低，信息密度太低。

给每个文字一个编码不行，从向量角度看就是一维的，那在向量中占一位来编码，就是多维的。如下：

这样向量维度太高，长度太大，而且只有一个1那么信息密度不行，运行起来数据太多。所以从向量维度分析这两个极端都不行，那就找一个合适的向量长度就可以，这种对文字使用一个合适维度向量表示的方法就是词嵌入。