如何从公式和矩阵操作角度理解多层感知机的前向传播?

345 阅读3分钟

多层感知机(MLP)是深度学习的基础,而深度学习中的大语言模型是现在ChatGPT等产品的核心技术。多层感知机是最简单的神经网络,包含输入、隐层、输出,以及本文没有涉及的反向传播、代价函数等基础却核心的概念。所以了解多层感知机可以建立起对AI技术的基本认知。

本文目的是从公式和矩阵操作角度来直观理解多层感知机的前向传播过程,对于初学者有助于建立起基本认知,对于有基本认知的读者可以进一步理解其内在过程。

首先大的层面看,多层感知机包含一个输入矩阵X\mathbf{X}, 一个输出矩阵O\mathbf{O},以及中间若干个隐层H\mathbf{H}

一个输入层

输入X\mathbf{X}是一个形状为n×dinn\times d_{in}的矩阵,每一个行向量代表一个样本(数据),dind_{in}代表样本的维度。

输入层的目的是为多层感知机提供数据,数据可以是各种形式的数据例如图片、文字,但是这些数据都需要转换为数字形式。

举例来帮助理解,如果对28×2828\times 28像素的灰度图片进行分类,其中共有十类。每张图片有784个像素,如果每个像素的值用一个数字来表示,那么一张图片可以用一个维度为784的行向量来表示。

nn张图片堆叠起来,就形成了上述的输入矩阵X\mathbf{X}。一张图片可能是十个类别中的一个,所以输出矩阵O\mathbf{O}的一个行向量维度为10,代表一张图片的分类结果。行向量的元素代表图片属于某一类的概率。

X\mathbf{X}使用矩阵表示为:

X=[x11x12x1dinx21x22x2dinxn1xn2xndin]\mathbf{X} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d_{\text{in}}} \\ x_{21} & x_{22} & \cdots & x_{2d_{\text{in}}} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nd_{\text{in}}} \end{bmatrix}

多个隐层

隐层可以理解为将数据根据参数矩阵W\mathbf{W}进行了线性变换和非线性变换。公式如下:

H(1)=σ(XW(1)+b(1))\mathbf{H}^{(1)} = \sigma(\mathbf{X}\mathbf{W}^{(1)} + \mathbf{b}^{(1)})

其中的W\mathbf{W}代表参数矩阵,由矩阵的乘法可知其有dind_{in}行,列的数量在数学上没有限制。在联系图和公式的时候,隐层中的一个神经元中的参数对应着W\mathbf{W}的一列,有多少个神经元就有多少列

第一个隐层的参数矩阵表示如下,形状为din×d1d_{in}\times d_1

W1=[w11w12w1d1w21w22w2d1wdin1wdin2wdind1]\mathbf{W}_1 = \begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1d_1} \\ w_{21} & w_{22} & \cdots & w_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ w_{d_{\text{in}}1} & w_{d_{\text{in}}2} & \cdots & w_{d_{\text{in}}d_1} \end{bmatrix}
b(1)=[b11b12b1d1]b^{(1)} = \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}

b(1)b^{(1)}在执行运算时会有广播的操作,简单来讲就是将自己作为行向量堆叠n次。

b1broadcasted=[b11b12b1d1b11b12b1d1b11b12b1d1]n×d1\mathbf{b}_1^{\text{broadcasted}} = \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \\ b_{11} & b_{12} & \cdots & b_{1d_1} \\ \vdots & \vdots & \ddots & \vdots \\ b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}_{n \times d_1}

运算过程用矩阵可以表达为:

XW1+b1=[x11x12x1dinx21x22x2dinxn1xn2xndin][w11w12w1d1w21w22w2d1wdin1wdin2wdind1]+[b11b12b1d1b11b12b1d1b11b12b1d1]n×d1=[z11z12z1d1z21z22z2d1zn1zn2znd1]\mathbf{X} \mathbf{W}_1 + \mathbf{b}_1 = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d_{\text{in}}} \\ x_{21} & x_{22} & \cdots & x_{2d_{\text{in}}} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nd_{\text{in}}} \end{bmatrix} \begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1d_1} \\ w_{21} & w_{22} & \cdots & w_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ w_{d_{\text{in}}1} & w_{d_{\text{in}}2} & \cdots & w_{d_{\text{in}}d_1} \end{bmatrix} + \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \\ b_{11} & b_{12} & \cdots & b_{1d_1} \\ \vdots & \vdots & \ddots & \vdots \\ b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}_{n \times d_1} = \begin{bmatrix} z_{11} & z_{12} & \cdots & z_{1d_1} \\ z_{21} & z_{22} & \cdots & z_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ z_{n1} & z_{n2} & \cdots & z_{nd_1} \end{bmatrix}

公式中σ\sigma代表激活函数,通常选用ReLU,其公式为:

ReLU(x)=max(0,x)\text{ReLU}(x) = \max(0, x)

ReLU的操作对象是线性变换后的结果矩阵Z\mathbf{Z}的每个行向量的元素,元素由一个样本进行线性变换后得到。ReLU对结果进行激活操作是非线性的。由于需要对每个行向量进行同样的操作,所以换句话说,是对矩阵每个元素应用ReLU。

H(1)=σ(XW(1)+b(1))=σ(Z(1))=[σ(z11)σ(z12)σ(z1d1)σ(z21)σ(z22)σ(z2d1)σ(zn1)σ(zn2)σ(znd1)]\mathbf{H}^{(1)} = \sigma(\mathbf{X}\mathbf{W}^{(1)} + \mathbf{b}^{(1)})=\sigma{(\mathbf{Z}^{(1)})}= \begin{bmatrix} \sigma(z_{11}) & \sigma(z_{12}) & \cdots & \sigma(z_{1d_1}) \\ \sigma(z_{21}) & \sigma(z_{22}) & \cdots & \sigma(z_{2d_1}) \\ \vdots & \vdots & \ddots & \vdots \\ \sigma(z_{n1}) & \sigma(z_{n2}) & \cdots & \sigma(z_{nd_1}) \end{bmatrix}

隐层的结果可以作为下一个隐层的输入:

H(i)=σ(H(i1)W(i)+b(i))\mathbf{H}^{(i)} = \sigma(\mathbf{H^{(i-1)}}\mathbf{W^{(i)}} + \mathbf{b^{(i)}})

一个输出层

输出O\mathbf{O}是一个形状为n×doutn\times d_{out}的矩阵,每一个行向量代表一个样本最终的变换结果,doutd_{out}代表数据最终被变换成的维度。

输出层是对隐层结果的变换,分类任务会有非线性变换,回归任务只有线性变换。例如对于多分类问题,有如下公式:

O=Softmax(HW+b)\mathbf{O}=\text{Softmax}(\mathbf{H}\mathbf{W}+\mathbf{b})

相比于隐层的变换,结果的非线性部分使用了Softmax函数。其应用的对象是矩阵的行向量,得到每一行中各元素在这一行的权重,可以理解为属于某一类的概率。以下为公式表达:

Softmax(d)i=edij=1Cedj\text{Softmax}(\mathbf{d})_i = \frac{e^{d_i}}{\sum_{j=1}^{C} e^{d_j}}
  • d\mathbf{d} 是输入向量,包含 CC 个元素。
  • did_i 是输入向量 d\mathbf{d} 的第 ii 个元素。
  • Softmax(d)i\text{Softmax}(\mathbf{d})_i 是输入向量 d\mathbf{d} 的第 ii 个元素经过 Softmax 函数转换后的值。
  • j=1Cedj\sum_{j=1}^{C} e^{d_j} 是输入向量 d\mathbf{d} 的所有元素的指数和

输出层行向量的维度通常由问题决定,例如在大语言模型中解码器输出部分就是一个对所有单词(准确说是token)的概率的行向量,数值代表每个单词出现的概率,所以维度等于所有单词的总数。

总结

将公式与实际的矩阵操作联系在一起能真正理解多层感知机的行为,将感性的认知具体的为实际的行为,进而加深理解。作为学习高阶知识的一个基础。

欢迎关注,共同理解更多AI知识。