[深度学习]全连接层(介绍)

72 阅读3分钟

您的理解完全正确!这正是“全连接层”的核心定义。

用更精确的语言来说: 在一个全连接层中,当前层的每一个神经元都与前一层的每一个神经元存在连接,并且每个连接都有一个独立的权重参数。

为了帮助您更深入地理解,这里有一些重要的补充说明:

1. 核心机制(您理解的图示)

假设前一层(输入层)有 m 个神经元,当前层(输出层)有 n 个神经元。

  • 那么,它们之间一共会有 m × n 个连接(即权重参数)。
  • 此外,当前层的每个神经元通常还有一个偏置参数
  • 因此,这一层的总参数量为: (m × n) + n

计算过程可以看作一个矩阵乘法: 输出 = 激活函数(输入 × 权重矩阵 + 偏置向量)

2. 主要作用

  • 特征整合与变换:将前一层的所有局部特征(可能来自卷积层)或抽象特征进行全局性的组合、加权和变换,学习它们之间的复杂关系。
  • 决策/分类:通常用于网络的最后几层,将学习到的高维特征映射到最终的输出空间(例如,分类任务中的不同类别得分)。

3. 与现代网络架构的关系

您的理解是经典神经网络的基础。但在更深的网络(如CNN、Transformer)中,全连接层的作用和位置有所演变:

  • 参数爆炸:当mn都很大时(例如,将一张高清图片的所有像素点展开作为输入),m × n会变得极其巨大,导致模型难以训练和存储。这是全连接层的主要缺点。
  • 角色变化:在现代卷积神经网络中,全连接层通常只出现在网络的末端。网络前端使用卷积层来高效提取局部空间特征,并大幅减少参数数量,最后再用一两个全连接层进行全局分类。
  • 全局平均池化的替代:在许多先进的CNN架构(如ResNet, GoogLeNet)中,甚至用全局平均池化层 取代了末端庞大的全连接层,以进一步减少参数并防止过拟合。

一个生动的比喻

想象一个公司:

  • 卷积层 就像各个部门的团队会议,成员只与组内同事密集交流(局部连接),处理专门事务。
  • 全连接层 就像公司的全员大会跨部门汇报,每个部门(前一层的每个神经元)的信息都需要汇总并传达给决策层的每一位管理者(下一层的每个神经元),以便做出全局性的决策。

总结

您对全连接层基础概念的理解是准确的。它是一个构建深度学习模型的基础模块。在实际应用中,我们需要深刻认识到它的参数量大这一特点,并通常在深度网络中谨慎使用它,或将其与卷积层等其他层结合,以构建高效、强大的模型。