图像分类模型(第一部分

90 阅读3分钟

注:模型的性能可以根据数据集和它的超参数来比较。因为有必要分析哪个模型适合给定的研究问题。

在这篇文章中,我将根据我对人脸面具检测😷的观察,讨论该模型是如何工作的。

通常用于图像分类的模型有:

  1. AlexNet :由多伦多大学的Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton设计的一个深度卷积神经网络(CNN)。它在2012年的ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了15.3%的前五名错误率,大大低于亚军的26.2%的错误率,赢得了冠军。AlexNet是最早的深度CNN之一,展示了深度学习在图像识别任务中的力量。它由八个学习层组成,包括五个卷积层和三个完全连接层。AlexNet的架构如下:

image.png

来源:www.kaggle.com/code/blurre…

  • 输入是一个大小为224x224像素的RGB图像。
  • 第一层是卷积层,有96个大小为11x11的过滤器,跨度为4像素。输出通过一个整流线性单元(ReLU)激活函数,然后通过一个跨度为2的最大集合层。
  • 第二层也是一个卷积层,有256个大小为5x5的过滤器,跨度为1。同样,输出通过ReLU激活函数,然后通过跨度为2的最大集合层。
  • 第三层是一个卷积层,有384个大小为3x3的滤波器,跨度为1,这一层之后没有池化层。
  • 第四层是一个卷积层,有384个大小为3x3的滤波器,跨度为1,同样,这一层之后没有集合层。
  • 第五层是卷积层,有256个大小为3x3的滤波器,跨度为1,这一层之后是跨度为2的最大集合层。
  • 全连接层每个有4096个神经元。最后一层有1000个神经元,对应ImageNet数据集中的1000个类别。

AlexNet使用了几种技术来提高性能,包括使用ReLU激活,减少过拟合(Dropout,Data Augmentation),局部响应归一化,重叠池化。使用GPU进行训练也使得训练时间更快。

什么是局部响应归一化?

局部响应归一化是应用于AlexNet的,根据其相同激活图中的相邻神经元来归一化每个神经元的输出。LRN的主要目标是加强神经元识别的重要特征,避免不相关的特征。

LRN应用于激活函数之后和最大集合(向下采样)之前。

2.VGG19

VGG19是一个深度卷积神经网络架构,由牛津大学的视觉几何小组(VGG)开发。Simonyan和Zisserman在2014年的论文 "Very Deep Convolutional Networks for Large-Scale Image Recognition "中介绍了它。

VGG19架构由19层组成,包括16个卷积层和3个完全连接层。卷积层的固定核大小为3x3,步长为1,之后是最大集合层,核大小为2x2,步长为2。 完全连接层每个有4096个神经元,之后是最后的输出层,有1000个神经元,对应于1000个ImageNet类别。

VGG19架构以其在图像识别任务中的简单性和高精确度而闻名,并在许多计算机视觉应用中被用作基础模型。然而,它也是一个计算昂贵的模型,训练和推理都需要大量的内存和处理能力。

image.png

来源:https://www.kaggle.com/code/sagnik1511/transfer-learning-with-vgg-19