由于图像分割,机器执行基于视觉的活动的方式已经改变。例如,就在几十年前,物体识别和基于预测的决策制定对机器来说还很困难。然而,计算机视觉模型的发展可以识别物体、识别它们的形状、预测物体行进的方向,并做出最适合给定情况的自动决策,这改变了当今组织的运作方式。例如,图像分割是自动驾驶技术中使用的强大技术之一。
许多计算机视觉任务都是从图像分割开始的。为了处理图像分类、物体识别等任务的视觉输入,有必要对视觉输入进行分割。语义分割、实例分割和全景分割是图像分割技术的三个类别。一种分割技术与另一种分割技术的主要区别在于,并非所有的分割技术都能准确地定义图像工厂中的项目。一种技术可能能够分辨出图像中存在哪些东西,另一种技术可能能够分辨出每个物体出现的位置,还有一种技术可能能够轻松做到这两点。
图像分割的类型
鉴于对图像分割的需求不断增加,用户必须知道哪种分割技术能有效满足他们的要求。在这篇文章中,我们概述了三种不同的分割 技术,并讨论了如何挑选最合适的技术来用于模型开发和各种任务。
语义分割
语义图像分割的过程涉及在图像中寻找对象,并根据预先确定的类别对它们进行分类。这只需要给图像中的每个像素分配一个类别名称,与它所要代表的事物相对应。例如,你可能想根据花的色调来分组。语义分割模型可以被训练成根据颜色来识别图像中的事物(比如追随者),然后可以将具有相同色调的花的照片集合分为几个类别(比如红色追随者的图像在第一组,蓝色追随者的图像在第二组,黄色花的图像在第三组,等等)。
实例分割
通过寻找属于指定类别的事物,实例分割推进了语义分割。与语义分割不同的是,实例分割涉及根据对应的像素的关系来定位特定的对象。它使开发更加困难。需要每个像素的分割掩码和物体实例预测。例如,如果我们的目标是在给定的图像中定位气球,我们可以使用实例图像分割的方法来识别这些物品。该模型不仅可以识别气球,而且还可以帮助我们将它们彼此区分开来。由于语义分割并不能将一张图像中更多的相同事物区分开来,所以所有的气球都有不同的色调或标签。
全景式分割
通过全景分割从语义上区分各种物体,它还能检测出每种类型物品的不同实例。换句话说,全景分割给图像中的每个像素两个标签:一个语义标签和一个实例ID。实例ID区分其实例,而具有相同标签的像素则被认为属于同一语义类别。与实例分割不同的是,全景分割为每个像素分配一个不同的标签,以防止信息被误解,该标签对应于一个单独的实例。
在现实世界中的应用
在图像处理和计算机视觉中,这三种图像分割方法都有重叠的用途。它们一起有许多实际用途,有助于扩大人类的认知能力。语义和实例分割有多种实际用途,包括:
- 自动驾驶汽车,通常被称为自动驾驶汽车,由于 3D 语义分割,可以通过区分道路上的各种物体来更好地了解周围环境。实例分割同时识别每个对象实例,以提供更深入的速度和距离计算。
- MRI、CT和X射线扫描分析:这两种方法都可以在这些类型的图像中找到癌症以及其他异常情况。
- 可以利用卫星或航拍图像从太空或高空绘制世界地图。他们可以画出各种自然特征的轮廓,包括山脉、沙漠、河流和建筑物。它们在场景理解方面的用途与此相当。
语义分割与实例分割与全景分割之间的区别
使用语义分割,图像中的每个像素都被分配了一个类别标签,如人、花、汽车等。属于同一类别的多个物体被认为是一个实体。相对而言,实例分割将属于同一类别的多个物体视为独特的个体实例。
为了结合语义分割和实例分割的理念,全景分割给图像中的每个像素两个标签:(i)一个语义标签,和(ii) 一个实例ID。类似标记的像素被认为是同一语义类别的成员,而它们的实例则由其独特的标识符(id)来识别。
全景分割和语义分割
对于语义和全景分割任务,图像中的每个像素都必须被赋予一个语义标签。因此,如果数据点没有定义实例,或者每个类别都是事物,那么这两种策略都是等同的。这些任务的区别在于增加了项目类,每个项目类可能包括每个图像的许多实例。
实例分割和泛函分割
图像中物体的每个实例都是用实例分割和全景分割来分割的。但如何处理重叠的部分是有区别的。尽管全景分割任务规定为图片的每个像素分配一个不同的语义标签和一个不同的实例ID,但实例分割允许分段的重叠。因此,在全景分割中,不可能有分段重叠的情况。
信任度
与实例分割相比,语义分割和全景分割不需要对每个片段进行信心评分。这使得这些技术在研究人类的不变性时更加简单。然而,分割是一项具有挑战性的研究,因为人类注释者并不直接提供信心分数。
评价指标
IoU、像素级精度和平均精度是语义分割经常使用的指标。这些衡量标准只考虑到了像素级的标签,而忽略了对象级的标签。
这些衡量标准不能评估事物类别,因为没有考虑到实例标识符。
例如,AP(平均精度)被用来作为分割的基准统计。为了计算精确度/召回率曲线,每个分段必须有一个分配给它的置信度分数。语义分割的结果不能用置信度分数或AP来衡量。
相反,PQ (Panoptic Quality),一个用于全景分割的测量方法,对所有类别都一视同仁,无论它们是事物还是垃圾。PQ不是语义和实例分割度量的混合体,必须明确这一点。对于每一个类,都要计算分割和识别质量指数SQ(即成对段的平均IoU)和RQ(即F1-分数)。然后,PQ的公式是(PQ = SQ * RQ)。因此,它协调了所有类别的评估。
结论
一般来说,你的应用的具体需求将选择应用哪种图像分割技术。如果你需要将像素分为预定的类型,语义分割可能是最佳选择。如果你需要在图片中找到每个类别的具体实例,实例分割可能是一个更好的选择。如果你需要实现这两点,那么全景分割可以是最好的选择。
简而言之,图像分割已经极大地改变了机器的视觉能力,并反过来改变了它们的决策过程。这项技术仍在发展和改进中,它的新应用一直在被发现。随着机器学习和人工智能的不断发展,图像分割很可能也会为未来开辟更多的可能性。