全连接层是指其中的每个神经元都与前一层的所有神经元相连,并通过可训练的权重和偏置进行加权求和和非线性变换。公式如下:
其中:
- 是输入向量
- 是权重矩阵(每个输入和每个神经元之间的连接权重)
- 是偏置项
- 是激活函数(如 ReLU、Sigmoid、Softmax 等)
- 是输出向量
作用
- 特征提取与组合:将上一层提取的特征进行加权组合,从而生成新的特征表示。
- 模式分类:通常在神经网络的最后几层用于分类任务(如 Softmax 层用于多分类问题)。
- 信息整合:由于所有神经元相连,因此 FC 层可以整合来自不同特征的全局信息。
与卷积层的区别
- 参数量大:FC 层的参数量与输入和输出维度的乘积成正比,容易导致过拟合。相比之下,卷积层参数较少且更擅长提取局部特征。
- 不考虑空间结构:FC 层忽略输入数据的空间结构,而 CNN 的卷积层能够保留图像的空间信息。
优化方式
- 减少参数量:使用 Dropout 或 Batch Normalization 来防止过拟合。
- 替换 FC 层:在 CNN 里,通常用 全局平均池化层(Global Average Pooling, GAP) 代替 FC 层,以减少参数量并提高泛化能力。
在深度学习模型(如 MLP、CNN、RNN、Transformer)中,全连接层通常出现在最后的分类阶段,用于将特征映射到最终的输出类别。 06:47 PM18:47