你是否曾想过图像检测是如何工作的?如何在相机的帮助下对各种事物进行检测和分类的过程?所有这些问题都可以追溯到 "计算机视觉 "这个词。
围绕着计算机视觉已经有了很多的炒作。它是人工智能的一个子领域,从图像和其他视觉输入中提取信息。它处理的是计算机可以从数字照片或电影中获得的复杂知识。从工程的角度来看,它的目的是理解人类视觉系统可以执行的操作并使之自动化。
有许多图像处理模型来实现计算机视觉,其中一个名为PP-YOLOv2的物体检测算法是一个了不起的算法,它是在PP-YOLO的基础上进行了若干改进。因此,要想清楚地了解PP-YOLOv2,就需要了解它的前身以及它的发展方式。
在这篇文章中,我们将重点讨论YOLO模型,以及PP-YOLO是如何从这些模型中衍生出来的,以及它与这些模型的相似和不同程度。同时,我们将快速地潜入这些检测模型的结构中。我们还将在本文中详细讨论这个模型的优点和局限性。
什么是YOLO?
YOLO是You Only Look Once的缩写,是一种使用神经网络提供实时物体检测的方法。这种算法因其准确性和快速性而受到欢迎。它已被应用于识别动物、人类、停车表和交通信号灯等多种方式。
有许多其他的物体检测方法,但所有其他的方法都无法在单一的算法中检测物体,也就是说,它们不是基于实时的。
这种算法可以实时识别和发现图片中的不同事物。被发现的照片的类别概率是由YOLO中的物体识别过程提供的,它是作为一个回归问题进行的。
YOLO方法使用卷积神经网络(CNN)来实时识别物体。该方法只需要通过神经网络进行一次前向传播来检测物体。
这表明,在整个完整的图像中,使用单一的算法运行来进行预测,这也是一个面向实时的运行。我们可以使用CNN同时预测多个类别的概率和边界框。
物体检测的概念是通过在训练和分类阶段给予大量的数据集作为输入,并以新的输入进行测试,以检查系统是否能成功识别物体,从而训练机器形成识别意识。
什么是PP-YOLOv2?
PP-YOLOv2被称为一个更实用的物体检测器。我们称它为PP-YOLO,因为PP代表PaddlePaddle,它为本研究中的所有实验提供了基础。
PaddlePaddle是一个开源的机器学习框架,由中国的搜索引擎--百度开发。它与TensorFlow和Pytorch齐名。PaddlePaddle包括开发学习模型所需的构建块。
PP-YOLO使用的模块化设计使开发者更容易快速创建各种管道。PP-YOLO提供了用于数据增强、创建、训练、优化、压缩和部署的端到端技术。
分布式训练也被PP-YOLO所支持。最终的预测是密集的预测,它由标签、预测的置信度分数和一个带有预测边界盒的中心、高度和宽度的向量组成。
PP架构的YOLO受YOLO4的影响很大。PaddleDetection的架构主要由三类组成。
- 骨干网。一个用于生成特征的卷积神经网络位于称为骨干的部分。它有一个已经训练好的分类模型。在这个例子中,它是ResNet50-vd。
- 检测颈部。接下来,ConvNet表征被组合和混合,使用特征金字塔网络(FPN)生成一个金字塔的特征。
- 检测头:检测头决定了物体的预测和边界框。
YOLOv2 vs PP-YOLOv2
对象检测器PP-YOLOv2在几个方面改进了YOLOv2。
- FPN包括一个路径聚合网络,以创建自下而上的路径。FPN(特征金字塔网络)是一个特征提取器,它以完全卷积的方式从任何尺寸的单尺度图像中产生按比例缩放的几级特征图。
- 它利用了米什激活函数。它在YOLOv4中被采用,因为它的成本低廉,而且具有独特的特性,包括它的平滑和非单调性以及上面无界,下面有界的特性,这增强了性能。
- 输入量增加了。使用软标签格式来计算IoU意识到的分支。
PP-YOLOv2的意义
PP-YOLOv2的主要意义在于,它的主要目的是结合多种已经使用的技术,很少增加模型参数和FLOPs的数量,在保持速度几乎不变的情况下,尽可能地提高检测器的准确性。FLOPS这一术语描述了一个计算设备在一秒钟内可以进行多少次浮点运算。
在PP-YOLOv2中,我们通过结合几种有效的增强措施,将YOLO的PP性能从45.9% mAP提高到49.5% mAP。PP-YOLOv2在640×640的输入尺寸下以68.9FPS运行。训练批次大小从64个增加到192个,YOLO v3的Darknet53主干被ResNet主干取代(作为8个GPU上的24个迷你批次大小)。
PP-YOLO没有提出一个新的检测模型,而是开发了一个在功效上合理平衡的物体检测器,可以立即用于现实世界的应用环境。
PP-YOLO的推理速度为72.9FPS,比YOLO v4的推理速度65FPS快。据PP-YOLO的作者说,这一速度提升的主要原因是ResNet模型上的tensorRT比Darknet有更好的优化。
PP-YOLOv2的问题
尽管它克服了其他检测模型中面临的很多问题,但PP-YOLOv2仍有一些小问题,下面将讨论这些问题,并列出它首先是一个缺点的原因以及它是如何影响图像检测程序的。这个模型的缺点可以作为未来模型的目标,一旦实现就可以成为成功的模型。
- 因为每个网格只能检测一个物体,当有小物体集群时,性能会受到影响。这些由许多微小物体组成的集群落在许多网格之下,使得决策更加困难。
- 因为包围盒的比例完全是从数据中学习的,所以YOLO的主要错误来自于定位,而PP-YOLOv2在包围盒的不常见比例上也有错误。定位和界线盒的不常见比例是这个模型的主要缺点。
最后的思考
正如我们所看到的,PP-YOLOv2是基于YOLOv3的,YOLOv3、YOLOv4和YOLOv5的升级即清除了其前辈所面临的问题。希望连续几个型号的成就能作为本文的一个很好的结论,让我们快速看一下它们。
YOLOv4纳入了最新的BoF(免费袋)和各种BoS(特殊袋)。在不延长推理时间的情况下,BoF增加了检测器的准确性。它们只是推高了训练的价格。
YOLO V5的两个主要进步是自动学习的边界盒锚和马赛克数据增强。
所以这些都是后继者的技术升级。我希望这篇文章能帮助你对YOLO模型和物体检测的背景有一个很好的了解。编码愉快