物理世界的复杂性和显示设备的局限性使得计算机图形系统的目标最多是感知有效的(perceptually effective):展示的图像看起来和预期的一样。艺术家和插画师已经根据经验发展了一系列有效传递视觉信息的工具和技术。计算机图形学中改善感知有效性的一种方式是直接使用这些方法。另一种方式直接建立在人眼视觉系统的知识之上,将感知有效性作为计算机图形系统设计的优化标准。
本章对视觉感知做部分综述,尤其关注那些与计算机图形学最相关的部分。人类视觉系统的运作与架构极其复杂,尽管已经有了 150 多年的深入研究,人类视觉许多方面的知识仍然非常有限而且不够完善。
视觉科学(vision science)指的是视觉感知的多学科研究,包括感知心理学、神经科学、计算分析。视觉科学认为,视觉的目的是通过看到的图像生成有关物体、位置、事件的信息。心理学家用远端刺激(distal stimulus)描述观察到的物理世界,近端刺激(proximal stimulus)描述视网膜图像。视觉功能就是根据近端刺激生成远端刺激的描述。当生成的描述真实反映了物理世界时,称视觉感知为真实的(veridical)。实际上,单纯考虑物体、位置、事件的意义不大,其实视觉本身提供了更好的理解。
视觉灵敏度(Visual Sensitivity)
人眼对光的图案敏感,而不是光强大小。视觉系统检测的是成像在视网膜上的时空光谱图案,相关信息构成了视觉感知的基础。对光照的变化敏感不仅有生态效用,还有工程意义,这易于在较大范围光强下检测光的图案。由于显示设备有一定的物理局限性,只需生成与真实世界中时空变化相似的图案,而非完全相同的图案,这也有利于计算机图形学。
亮度与对比度
亮光下,人眼视觉系统可以分辨精细度 的高对比度平行明暗条纹,可以检测到的边缘上最小对比度差异大约是边缘平均亮度的 。
视觉系统分辨精细图案的能力称为视觉锐度(visual acuity)。人眼视觉锐度和对比度之间有着相互作用,能让人眼看清图案的最低对比度依赖于图案的空间频率。
人眼所感受到的光强 和照射到物体表面的光强 、表面反射率 有关:
其中, 依赖于曲面几何、入射光图案、观测方向。人眼视觉对 的感知要比对 的更好。有别于真实亮度,物体表面的表观亮度(apparent brightness)称为明度(lightness)。许多情况下,即使光照变化很大,明度也几乎不变,这种现象称为明度恒常(lightness constancy)。
明度恒常的机制还没有被很好地理解。表观亮度受附近区域亮度影响,这促进了明度恒常。同时对比度(simultaneous contrast)通常会表述为一个区域的感知明度会基于附近区域的对比亮度进行修正,但真实情况可能更加复杂,可能依赖于附近图案排布:
甚至依赖于三维结构:
人眼视觉系统虽然可以忽略缓慢变化的光强图案,但是对亮度不连续的线条组成的边沿(edges)极度敏感。光强图像中的边沿通常对应物体表面边界或者环境中其它重要特征。
视觉系统还可以检测出运动、立体视觉、纹理以及其它图像属性中的局部差异。但是,颜色的空间不连续性难以检测。
边沿感知与形状感知(perception of form)有关。如果最终的边沿可以生成一个更完整的形状,那么缓慢变化的亮度也会呈现出边沿。
而主观轮廓(subjective contour)是这一效应的一种极端形式。
视觉感知对边沿的敏感性也会体现在明度感知机制中,比如,上图中主观轮廓内部会比外部稍微亮一点。边沿有时还会急剧影响两侧区域的明度。
韦伯定律(Weber’s law),感官刺激的最小可觉差(just noticeable differences,简称 jnd) 和它的幅度 之间呈正比:
其中, 是依赖于感官刺激类型的常数。费克内定律(Fechner’s law)推广了韦伯定律,用于描述任何感官体验的强度,而不局限于 jnd:
其中, 是感知强度, 是感官刺激的物理强度, 是依赖于感官刺激类型的常数。史蒂文斯定律(Stevens’s law)使用幂函数来模拟感知强度和物理强度间的关系:
其中, 是依赖于感官刺激类型的常数,对于包括视觉在内的许多感官类型,。CIE 色空间使用的是一种修正的史蒂文斯定律来表述感知差异。对于韦伯定律、费克内定律以及 的史蒂文斯定律,同样的刺激变化,在刺激值较小时所产生的感知效果要比刺激值较大时更显著。在感知心理学中,对物理刺激和感知效果间关系的定量研究称为心理物理学(psychophysics)。
颜色
反射光谱分布(spectral distribution)提供了环境中物体表面的视觉信息。然而,视觉系统对谱分布的响应与亮度分布非常不同。视觉系统的目的是对给定的近端刺激生成远端刺激的描述。明度感知图案至少近似对应物体表面亮度图案,而颜色感知则完全不同,颜色感知存在同色异谱(metamers)。对于视觉而言,颜色本身是一个感知量,而不是物理量。
人眼视网膜上有两类光感受器:视锥细胞(cones)、视杆细胞(rods)。视锥细胞负责颜色感知,视杆细胞对可见光范围的光强敏感,但不提供颜色信息。视锥细胞有三种,它们的谱灵敏度各不相同。S 型视锥细胞对应可见光谱中蓝色短波,M 型视锥细胞对应可见光谱中浅绿色中波,L 型视锥细胞对应可见光谱中绿色、红色部分的长波。
虽然经常用红、绿、蓝描述三种视锥细胞,但这并不能真实反映视锥细胞的灵敏度。而且根据灵敏度曲线可以看出,给定三种视锥细胞的响应,无法重构出原始的光谱分布。这与空间采样完全不同,视网膜上接收器的空间灵敏度可以分辨出局部细节。
人眼视网膜上只有三种颜色感受器这一事实,简化了在图形显示设备上展示颜色的任务。显示设备通常使用 RGB 三原色的加权组合来展示大多数可以感知到的颜色。
RGB 颜色表示至少还有以下两个问题。不同显示器的三原色谱分布不同,因此感知校正颜色还原涉及到对每个显示器重新映射 RGB 值,而这只有在原始 RGB 值满足某些标准才行。另一个问题是,RGB 值对颜色的定义与主观感知的方式不同。
下面两种方法,均以更接近人眼视觉的方式来描述颜色。第一种是各种旨在感知均匀的 CIE 色空间。但是感知均匀难以实现,而且除去感知亮度的维度之外,剩余两个描述色度的维度没有直观的含义。
另一种是用三个相互独立的、主导色彩主观感受的属性来描述颜色。明度(lightness),即表观亮度;饱和度(saturation),用于描述颜色有多纯;色调(hue),它的含义类似日常所说的 “颜色”,以一种类似于可见光谱的方式来描述。相应的色空间称为 HSV(hue-saturation-lightness)色空间。
由于亮度(brightness)和明度(lightness)间的关系非常复杂,而且难以理解。因此,HSV 色空间几乎总是使用亮度,而不是计算明度。
与波长不同,色调通常的表述方式反映了一个事实:可见光谱的两端在表观上是相似的。RGB 和 HSV 之间存在简单的变换。
HSV 只是近似描述谱分布的感知响应。颜色感知也有类似明度/亮度的恒常以及同时对比效应。CIE 色空间和 HSV 都不会反映这些。此外,颜色感知的其它方面也没有被 CIE 色空间和 HSV 捕捉到,比如人类只能识别少量的、有语义的颜色:红、绿、蓝、黄、黑、白、灰、橙、紫、棕、粉。将谱分布的连续空间划分为一组相对较小的感知类是感知的一个基本性质。
动态范围
自然界光强跨越 6 个数量级,人眼在整个亮度范围内都可以工作。任何时刻,视觉系统都只能检测出较小范围内的光强变化,当人眼所感受到的平均亮度变化时,可分辨亮度范围也会随之而变。暗适应(dark adaptation)和明适应(light adaptation)就是最直接的结果。明显暗适应需要几分钟,而完全暗适应则需要大约 40 分钟。明适应比暗适应快得多,通常不到一分钟。
视锥细胞是在大多数正常光照条件下提供视觉信息,视杆细胞只在弱光条件下有用。明视觉(photopic vision)只有视锥细胞起作用,暗视觉(scotopic vision)只有视杆细胞起作用,而两类细胞都起作用的时候称为中间视觉(mesopic)条件。
视场和视觉锐度
视觉系统中每只眼睛都有一个水平近似 、垂直近似 的视场。双眼水平交叠近 ,整体视场约水平 、垂直 。
每只眼睛的视场中只有一小部分对细节敏感。视觉的高锐度仅限制在一定视角内,它在一臂之长的位置只比拇指稍大一点。由于眼睛快速移动,使得视觉系统将各部分信息整合起来从而产生了可以看清整个视场的主观体验。
若对整个视网膜进行密集采样,人类的视觉皮层将没有充足的带宽来处理这些信息。视网膜上密度可变的光感受器和快速眼动以定位关注区,这两者的结合可以同时优化视觉锐度和视场。其它动物也进化出不同的方式以平衡视觉锐度和视场,而不依赖快速眼动。有些只有高视觉锐度,但视场较小;有些则视场较宽,但锐度较低。
眼睛将关注区聚焦到中央凹的运动称为扫视(saccades)。扫视速度很快,从触发刺激到眼动完成大约需要 ,其中大部分时间用于规划扫视,实际运动平均约 。扫视过程中眼睛最大转速通常可超过 。扫视之间,眼睛朝向关注区——注视(fixate),需要 来获取精细视觉信息。
大部分视锥细胞集中在视网膜的中央凹(fovea)。当眼睛注视到某一点时,相应图像落在中央凹处。视锥细胞密度越高,采样频率越高,图像越清晰。中央凹视觉覆盖大约 。
在信息沿视神经传输到视觉皮层之前,每个视锥细胞、视杆细胞的输出将以各种方式通过眼睛中的神经连接汇集起来。这种汇集以一种明显影响接收光的方式对信号过滤。离中央凹越远,亮度平均区域越大,因而空间锐度急剧下降。携带光信息的神经束从眼睛穿过视网膜到达大脑,神经束的位置称为视网膜盲点(retinal blind spot)。但是眼动可以补偿这部分信息损失。
由于中央凹处视杆细胞的密度为零,因此光照较弱时没有中央凹视觉。视杆细胞的密度较低,而且汇集范围较大,从而导致暗视觉的锐度有限。
运动
单个小图案在均匀的、对比鲜明的背景上移动时,物体相对于视角的运动速率达到 才能被感知到。如果相对于纹理图案背景,可检测的运动速率仅需十分之一。
视觉系统以三种方式让人眼所看到的图案通常保持静止。扫视过程中对比度敏感性降低。扫视间通过复杂的机制调节眼睛位置,以补偿头部和身体的运动以及所观测物体的运动。视觉系统利用眼睛位置信息,将多个注视点处的高分辨率图像拼成一个稳定的整体。
如果看不到端点或拐点,就无法明确直线和边沿的运动,这一现象称为孔径问题(aperture problem)。
实时计算机图形学、电影、视频基于一个重要的感知现象:时间间隔较短的不连续运动和连续运动几乎无法区分。这一效应称为表观运动(apparent motion)。视觉系统对运动的高频成分不敏感,这使得连续运动的表观感知成为可能。
只要位置变化不是很大,频率高于 的表观运动足以让人信服。几乎所有的图像显示设备在切换图像时都会产生亮度变化。光照充足时,人眼视觉系统可以检测到频率高达 的亮度变化;光线较弱时,可以检测到 的亮度变化。亮度变化的频率足够高时,将产生闪光融合(flicker fusion)现象,即人眼无法分辨出亮度变化带来的闪烁。
图像显示器必须满足以下两个条件才能生成令人信服的运动:
- 图像必须以高于 的频率更新;
- 更新图像过程中的闪烁保持在高于 的频率。
直接要求图像更新速率高于 通常是不可能的。对于计算机图形显示器,每帧计算时间基本高于 。传输带宽和老式显示技术的限制使得普通广播电视的更新速率只有 ,某些 HDTV 格式可以 运行。由于曝光时间的要求和胶卷移动速度的物理限制,电影通常以 的频率更新图像。
不同显示技术用不同方式解决这一问题。计算机显示器以 的速率刷新图像,不管图形内容变化有多频繁。刷新率(refresh rate)是指展示图像的速率,帧更新率(frame update rate)是指生成新图像的速率。标准的非 HDTV 广播电视刷新率为 (NTSC,用于北美和某些地区)或 (PAL,用于剩余大部分地区)。帧更新率是刷新率的一半,现行的电视制式将图像按横行划分为奇数场和偶数场,然后交错(interlaced)展示,而不是将每幅图像展示两次。而电影则使用机械快门对每帧胶片遮挡三次,以产生 的刷新率。
使用表观运动模拟连续运动有时会产生混淆,最有名的是车轮错觉(wagon wheel illusion),即车轮看起来反向转动。圆盘上的空间周期图案在转动时会产生时间周期信号,当该信号频率过高时,固定的帧更新率对这一信号的欠采样将出现混淆现象。
表观运动图像在媒介间转换时也会出问题。尤其是 的电影转为视频时,不仅需要将非交错格式(non-interlaced format)转为交错格式(interlaced format),而且还需要将每秒 帧转为每秒 场,这件事情没有直接的方法来做,一些高端显示设备能够部分补偿电影转为视频时引入的失真。
空间视觉
视觉系统的功能之一是反转图像形成过程,以确定生成视网膜图像的几何、材质和光照,因此视觉有时也称为逆向光学(inverse optics)。
确定表面排布(surface layout)——环境中物体表面的位置和方向——是人眼视觉的关键一步。视觉系统如何从接收图案提取出表面排布信息,通常可归结为一组视觉线索(visual cues),每种线索都对应一个特殊的视觉图案,用于根据所需的推断规则来推断表面排布的性质。推断表面排布通常需要额外的非视觉信息,可以是其它感觉,也可以是关于真实世界的假定。
视觉线索一般分四类:
- 眼动线索(ocularmotor cues)与眼睛的位置和焦点有关;
- 视差线索(disparity cues)涉及从两只眼睛观测同一位置所提取出的、不仅限于眼睛位置的信息;
- 运动线索(motion cues)与观测者运动或物体运动有关;
- 图像线索(pictorial cues)来自 3D 表面投影到 2D 图案这一过程。
参照系和度量
由于不同的视觉线索可用的信息不同,而且信息的用途也不同,因此人眼视觉系统使用多个参照系。相对于观测者自身的称为第一视角表示(egocentric representations),进一步可细分为固定在眼、头、身体上的坐标系。相对于观测者外某一事物的称为他视角表示(allocentric representations),也称为外部视角表示(exocentric representations)。
观测者到环境中特定位置的距离在第一视角下的表示称为深度(depth)。对于方向的第一视角表示,到特定位置的视线与该点处表面法向量之间的夹角称为 slant,表面法向量在垂直视线方向的投影称为 tilt。
距离与方向可以不同的度量方式来表示。绝对描述(absolute descriptions)基于与感知信息无关的标准,比如以米为单位或者以眼睛高度为单位。相对描述(relative descriptions)将一种几何感知属性与另一种联系起来,比如点 a 是点 b 的两倍远。序描述(ordinal descriptions)是相对度量的特例,这里需要表示的是关系的符号,而非大小。
眼动线索(Ocularmotor Cues)
眼动信息有两种:
- 调节(accommodation)是眼睛在特定距离处光学聚焦的过程。
- 会聚(convergence/vergence)是两只眼睛朝向 3D 空间中同一位置的过程。
视觉系统可以从晶状体的形变推断出深度。眼动调节相对较弱,超过两米就不起作用,而且随着年龄增大变得更弱。眼动调节深度线索提供了所聚焦的那部分视场的距离信息。景深(depth-of-field)可以提供序深度信息。
双眼注视正前方同一位置时:
其中, 是瞳距(interpupillary distance), 是会聚角(vergence angle)。当 时,会聚角的变化和深度的变化之间满足:
可见,随着整体深度增加,立体视觉对深度变化会变得更加不敏感。实际上,会聚只能提供几米范围的绝对深度信息。超出这一范围,会聚角变化太小而没有用处。
人眼视觉系统中的调节与会聚之间存在相互作用,调节用于确定合适的会聚角,而会聚角帮助设置焦距。
双目视差(Binocular Disparity)
会聚角是视觉系统根据双目立体视觉确定深度的一种方式,对比两只眼睛中的视网膜图像是另一种方式。场景中的点在左右眼视网膜上的位置变化称为视差(disparity)。
双目视差线索要求视觉系统能够将空间点在两只眼睛中的成像位置匹配起来,这也称为对应点问题(correspondence problem)。一旦建立起对应关系,空间点投影到两只眼睛视网膜上的相对位置表明该点相比于注视点更远还是更近。当对应点相对于中央凹向外移动时,称为交叉视差(crossed disparity),相应的空间点离注视点更近;当对应点相对于中央凹向里移动时,称为非交叉视差(uncrossed disparity),相应的空间点离注视点更远。
双目视差仅提供相对深度,但和会聚结合起来可以提供绝对深度信息。类似,双目视差对深度变化的敏感性随着深度增加而降低。
运动线索(Motion Cues)
眼睛和物体间的 3D 相对运动会产生视网膜上 2D 运动,这种视网膜上的运动称为光流(optic flow)。
如果在注视某一固定点时向旁边移动,光流可以提供类似立体视差的深度信息,这也称为运动视差(motion parallax)。对于那些投影到视网膜后接近注视点的空间点,零光流表明与注视点深度相等;与头部平移反向的光流表明空间点离得更近,类似交错视差;与头部平移同向的光流表明空间点离得更远,类似非交错视差。运动视差是相对深度的有力线索。结合头部运动速度,运动视差原则上可以提供绝对深度信息,但实际上,运动视差最多是绝对深度的弱线索。
视觉运动还可以提供相对于观测者运动的物体的 3D 形状,这在感知领域称为动态深度效应(kinetic depth effect),在计算机视觉中称为运动恢复结构(structure-from-motion)。动态深度效应假定物体运动中有一部分是深度旋转(rotation in depth)。
光流还可以提供表面边界的形状和位置信息。光流的空间不连续性几乎总是对应深度不连续或者源于独立运动的物体。要确定深度变化的符号,简单地对比光流大小是不够的,通常需要结合其他方法。运动通常会改变更远处的物体表面的可见部分,使得表面纹理积聚(accretion)或减少(deletion)。边界两侧表面纹理运动的比较也可用于推断序深度。光流的不连续性和表面纹理的积聚或减少被称为动态遮挡线索(dynamic occlusion cue)。
使用视觉信息可以估计出观测者到达空间中某一位置的时间。假设运动匀速,那么接触时间(time-to-contact)或者碰撞时间(time-to-collision)等于物体在视网膜上的尺寸除以增加速率。生物视觉领域称之为 函数。
图像线索(Pictorial Cues)
即使不考虑双目立体视觉和运动,真实世界的图像本身也有三维特征。图像深度线索(pictorial depth cues)分三类。最有名的是线性透视(linear perspective)。还有一些提供序深度的遮挡线索(occlusion cues)。最后是涉及着色、阴影、反射的光照线索(illumination cues)。
线性透视线索指的是与透视投影相关的视觉线索。在透视投影下,空间点所投影的图像位置伸缩了 ,其中 是从投影中心到空间点的距离。所导致的结果有:近大远小,平行线会聚,地面延伸至地平线。
大多数涉及线性透视的图像深度线索都依赖于与地平面有接触的物体。这些线索可以估计到接触点的距离。偏角(angle of declination) 提供了相对深度信息,和眼高结合起来可以提供绝对深度信息。偏角可以根据重力或地平线得到,眼高基于站姿,可以从视觉上得出,也可以根据经验假定。
阴影可以提供多种三维空间排布信息。附着阴影(attached shadows)表明物体间相互接触,分离阴影(detached shadows)表明物体间距离较近,但没有接触。假定光线从正上方照射,可认为物体和它在地平面上的阴影同深度,则可将阴影作为间接深度线索。
视觉也可以提供表面取向信息。表面取向可以用 tilt 和 slant 来方便地表示。表面地平线可用于确定表面取向。地平线的法向就是 tilt,借助眼睛与地平线所成的平面可以确定 slant。
表面地平线在很多时候是不可见的,或者表面太小不足以形成地平线。此时,纹理可用于估计表面取向。在感知领域中,纹理(texture)指的是重复的子图案所构成的视觉图案,子图案可以是固定且规则的,也可以是统计意义上保持一致的。
当斜着看向纹理表面时,受线性透视影响,纹理元素的位置和尺寸会产生形变。有两类受 slant 影响的形变。由于元素尺寸和间距随距离减少,因此将产生纹理梯度(texture gradient)。纹理元素的图像和元素分布也会在斜视时投影收缩(foreshortened),也就是沿 tilt 方向压缩。投影收缩只要斜视即可,而不必线性透视。纹理梯度线索要求表面上纹理元素的平均尺寸和间距应保持恒定。投影收缩线索要求纹理元素的形状是各向同性的。
表面明暗可以提供形状信息。如果物体相对位置、观测方向、光照方向保持不变,反射率恒定的表面亮度变化表明物体表面取向的变化。明暗恢复形状(shape-from-shading)指的是从所观测到的亮度变化推断出表面形状的过程。明暗通常和其它线索结合起来提供表面形状信息。
还有一些图片线索可以给出序深度信息。线条画中不同类型的结(junction)可以提供 3D 几何约束信息。大多数感知有效的结线索都是 T 型结(T-junctions),它表明与 T 的枝干方向相反的表面遮挡住了至少一个远处的表面。T 型结总是产生一种 amodal completion 的感觉,一个表面延伸到了另一个更近的遮挡表面的后面。
空气透视(aerial perspective,或 atmospheric perspective)最早由达芬奇提出,它基于一项事实:散射会降低场景远处的对比度,并让它们看起来更蓝一点。空气透视主要是一个相对深度线索。
物体、位置与事件
物体识别(Object Recognition)
物体识别需要将图片划分为对应不同物理实体的组成部分,并确定这些实体的身份。物体识别中存在着方向偏好。
物体识别分两步。第一步是将视场组织成可能对应物体和表面的分组(groupings)。分组基于近邻度(proximity),图像中基本结构的亮度、颜色、形状和方向的相似性,整体运动,以及各种更复杂的关系之间的复杂相互作用。
第二步是将分组解释为识别出的物体。物体识别要求视觉系统对每类物体拥有足以从其他物体中辨别出来的描述。不同的物体识别理论对每类物体的描述信息,以及物体描述与真实视图间的匹配机制是不同的。
有三种一般的物体描述:
- 模板(templates)使用原型视图表示每类物体。
- 结构化描述(structural descriptions)使用视图中容易检测出的显著特征,以及这些特征间的几何关系来表示每类物体。2D、3D 都可以使用结构化描述。对于 2D 模型,物体的每个明显不同的可能的视图都必须有一个单独的描述。对于 3D 模型,可能有两类不同的匹配策略。一种是先确定三维结构,然后再和已知的 3D 原型相匹配。另一种是先确定物体取向,然后再根据这一方向对可能的 3D 描述旋转并投影,与所看到的物体视图进行 2D 匹配。
- 不变特征(invariant features)使用更一般的——特别是那些对物体的不同视图不敏感的——几何属性来表示每类物体。
尺寸与距离
相对尺寸(relative size)是指,投影到视网膜上更大区域的物体要离得更近一些。熟悉尺寸(familiar size)可以提供到尺寸已知的可识别物体的绝对距离信息。
熟悉尺寸是尺寸-距离关系(size-distance relationship)的一部分,它将物体的物理尺寸、投影到视网膜上的光学尺寸、眼睛到物体的距离联系起来。
当物体立在平地上时,如果地平线可以看到或者可以从透视信息中推断出来,就可以得到额外的深度信息。物体与地面接触点的偏角与眼高结合可以得出到物体的距离。地平线比(horizon ratio)是指,物体所看到的总高度与地平线下那部分高度之比。把它与眼高结合起来可以确定物体的真实高度。
人眼对尺寸的感知由真实尺寸主导,而不是视网膜上的物体尺寸,这称为尺寸恒常(size constancy)。
类似的还有形状恒常(shape constancy),即视觉系统对几何结构的感知更接近真实物体几何,而不是变形的视网膜图像。
事件
视觉有能力提供人如何运动,是否存在运动物体,以及碰撞的可能性等信息。
视觉可以确定出相对于环境的转动和方向。当垂直朝向一个平面运动时,流场的扩张焦点(focus of expansion)在视场中的位置对应平移方向。然而,由于运动中距离、速度的伸缩不变性,运动速度无法确定。
当绕着定轴转动时,光流可以提供充足的信息以确定转轴和转速。但是绕定轴转动和平移的同时侧视一个平面,这两种情况的流场几乎无法分辨。
当观测者运动时,要想检测出运动物体,视觉系统必须对那些与观测者在静止环境中运动时产生的流场不一致的光流场图案足够敏感。
当没有运动物体时,观测者运动可能发生的碰撞由 函数决定。对于非加速直线运动,如果一个物体在第一视角参考系中视觉上一直在扩张,但又能维持稳定,则会发生碰撞。
对于人体运动,如果关节上的光是唯一可见的特征,则可以识别出运动(locomotion)。这种运动光点图(moving light displays),足以识别出运动者的性别、负重等信息。
视觉注意力涵盖了一系列把眼睛指向认知结果的现象。视觉系统可以并行搜索只有单个属性不同的项,但需要更多的串行搜索来寻找那些同时有两个不同特征的项。
图像感知(Picture Perception)
计算机图形学的目标可以认为是生成一个彩色窗口,使之与透过窗户观察世界时所看到的结果一致。亮度、动态范围和分辨率使得现实世界无法在显示设备上完全重现。图片上的明度与色彩恒常不太明显,部分原因是视觉系统会基于观测环境中的环境光照来补偿亮度和颜色,而非图像本身。这也是照片颜色的逼真度依赖于根据拍照时的光源平衡后的胶片颜色的原因,同样的,视频上的颜色需要做白平衡也是同一原因。
在屏幕上呈现图像也会对空间视觉和物体感知产生影响。心理学家称之为图像空间感知(perception of pictorial space)。观测图像和观测真实世界之间的一个区别是,调节、双目立体、运动视差以及其它深度线索给出的距离感知不同。观测图像时所感知到的深度处于图像本身的深度和图像线索所表明的深度之间。当观测照片或显示屏时,会感到物体尺寸比真实的更小,但对于大屏电影,则有更强的空间感。
采用透视投影渲染的计算机图形通常有一个相机模型,如果观测位置与相机模型不一致,则图像深度和方向线索将会产生形变。