本文已参与「新人创作礼」活动,一起开启掘金创作之路。 ——————————————————————————————————————————
摘要
SIFT算法作为一种优秀的目标检测、图像配准算法,在实际生活中具有丰富的应用场景,但其中关于多尺度和多分辨率的问题少有人关注。本文通过分析真实物质世界的特征、人眼成像过程来探究多尺度和多分辨率的内涵及关系。首先,尺度是真实世界中的物体的内在属性,分辨率则是是图像中最小可辨别细节的度量,也可以将之理解为图像中描述感兴趣区域需要的像素数;其次,多尺度其实就是图像不断模糊的过程,多分辨率其实就是图像尺寸不断缩小的过程。
1 引言
在SIFT算法中,Lowe等人通过构建高斯金字塔的方式实现了多尺度(层内多尺度,层间存在下采样导致分辨率发生变化),使得探测具有尺度不变性的兴趣点的过程变得更加高效[1]。
但是关于多尺度和多分辨率,Lowe在论文中并没有过多的阐述。本文通过分析真实物质世界的特征、人眼成像过程来探究多尺度和多分辨率的内涵及关系。
2 尺度和分辨率
“一花一世界、一叶一菩提”,即使是一片叶子,我们也可以从中观察到整个世界。
2.1 尺度
在对于真实世界中的物体,小到细胞、大到天体,其都有属于自己的尺度。这种尺度特征是真实世界中的物体的内在属性,其不随观察者的变化而变化,例如:一个直径1cm的小球,其直径不会因观察者的改变而产生变化。
其次,对于人眼而言,真实世界中的物体只有在其相对应的尺度上才有意义。从细胞到天体,尺度由小变大,为了观察细胞的微观结构就需要选择小尺度空间,为了观察天体的宏观结构就需要选择大尺度空间。
例如,我们可以清楚的观察到桌子上的水杯,但是对于整个银河系来讲,水杯是不存在的。水杯并非从真实世界中消失了,而是在大尺度空间下仅凭人眼的分辨率不足以将其分辨出来。人眼的结构如下图所示。
2.2 分辨率
分辨率是图像中最小可辨别细节的度量,也可以将之理解为图像中描述一个区域需要的像素数。像素数越少,分辨率越低;像素数越多,分辨率越高。
承接上小节内容,中央凹是视网膜中直径约为1.5mm的圆形凹坑,这块区域布满了对颜色高度敏感的锥状体,通过这些锥状体的帮助,人眼可以充分地分辨图像细节。在这一区域,锥状体的密度大约为15000个/mm2,这可以认作是人眼分辨率的极限,对于更高分辨率的图像,仅凭人眼已经无法捕捉图像中的细节信息,简单的处理方法就是求助于各种光学仪器。
通过分析人眼成像系统,可以了解到人眼睛的视野是有限的。为了观察大尺寸的物体,我们就必须拉开人眼到物体的距离,否则我们是无法获取到其轮廓信息(宏观结构)的。与此同时,人眼的分辨率是有上限的,此时所成像自然就被人眼成像系统模糊了。人眼成像模型如下图所示。
因此,这便解释了为什么在大尺度空间下我们无法获取到小尺寸物体的细节信息(微观结构),因为在人眼成像系统的模糊化过程中,这部分信息被丢弃了。这也是符合认知规律的,真实世界的场景可以理解为具有无限分辨率,其具有的信息量也必然是无限的,而人所能处理的信息量不能是无限的,所以通过一个分辨率极限限制了人眼所能接受的信息量。
2.3 小结
经过前面的论述,可以总结出尺度和分辨率的关系:
1、大尺度空间(用来观察真实世界中较大尺寸的物体,获取真实世界中较小尺寸的物体的轮廓信息)对应着低分辨率(描述真实世界中较小尺寸物体的像的像素数比较少)。
2、小尺度空间(用来观察真实世界中较小尺寸的物体,获取真实世界中较大尺寸的物体的细节信息)对应着高分辨率(描述真实世界中较小尺寸物体的像的像素数比较多)。
上述关系如下图所示。
因此,在真实场景所成的像中,物体小尺度下的细节和大尺度下的轮廓是不可兼得的。例如我们用同一相机(相机的感光单元数目是一定的)站在不同的距离拍摄同一个目标物体,那么远距离(此时为大尺度)拍摄的目标物体在图像中较小,用来描述它信息的像素数比较少,其分辨率较低;近距离(此时为小尺度)拍摄的物体在图像中较大,用来描述它信息的像素数比较多,其分辨率较高。
3 多尺度和多分辨率
多尺度和多分辨率的一个重要区别就是多尺度形成的过程中不存在分辨率的降低。
3.1 多尺度
图像的多尺度可以通过构建其尺度空间来形成,Koenderink(1984)和Lindeberg(1994)曾提出唯一可能的尺度空间核便是高斯函数,并且提出通过因子进行归一化的拉普拉斯函数才能实现真正的尺度空间[2]。
一幅图像的尺度空间可以定义为一个函数:,其通过可变尺度的高斯函数 与输入图像 做卷积来生成:
其中: 表示对 和 进行卷积操作,并且
在尺度空间中,每个尺度下的图像的分辨率是不变的,但随着尺度的变大,像素间的相似性也逐渐变强,人眼对此过程的感受就是图像逐渐模糊。
从信号处理的角度来看,多尺度就是把原始图像二维信号看作多个二维信号的叠加,并不断剔除高频信号的过程。
3.2 多分辨率
图像的多分辨率可以通过构建高斯金字塔来实现,其构建过程一般为两个步骤:
1、先使用高斯函数对图像进行平滑(先进行平滑的目的是为了避免混淆);
2、进行下采样,这是多分辨率的核心。二元下采样会使得图像分辨率下降得过快,故我们使得每次采样图像的长、宽缩小至原来的0.707倍(此过程要用到插值)。
高斯金字塔如下图所示。
总结
本文通过分析真实物质世界的特征、人眼成像过程了解到:
1、尺度是真实世界中的物体的内在属性,分辨率则是是图像中最小可辨别细节的度量,也可以将之理解为图像中描述一个区域需要的像素数。
2、多尺度其实就是图像不断模糊的过程,多分辨率其实就是图像尺寸不断缩小的过程。
参考文献
Lowe, David G.. "Distinctive Image Features from Scale-Invariant Keypoints." International Journal of Computer Vision 60 (2004): 91-110.
Lindeberg, Tony. "Scale-Space Theory: A Basic Tool for Analysing Structures at Different Scales." 21 (1994): 225-270.