从神经科学到计算机视觉——50年来CV的发展之路

1,206 阅读7分钟

论智

编译 | Bot

来源 | Seattle Data Guy

编者按:作为人工智能的一个重要分支,计算机视觉已经走过了风风雨雨的50年。在这长达半个世纪的时光里,它从神经科学中汲取营养,以摄像机模拟人眼,以计算机模拟大脑,以算法和程序模拟思考,实现了用机器识别图像、描绘场景。那么,它的发展历程是什么样的呢?

视觉功能一直是人类大脑(现在又有了“计算机大脑”)承担的一项复杂工作,每当我们睁开双眼,大脑就开始无时无刻地扫描周边环境、确定自身方位。虽然环境的一些变化会对视觉形成过程造成影响,如深度感知、对象追踪、光线差异、边缘检测及其他特征检索,但我们对此习以为常,也不清楚背后发生的细微变化。对于以往的研究者来说,他们可能从未想过创造一个类似人脑机能的系统,然而,在过去的50年间,人类的确已经完成了从单纯的神经科学研究到利用计算机描绘图像的跨越。

从神经科学到计算机视觉

Phineas Gage受伤情况 来源:科学网

神经科学为理解大脑功能提供了大量医学案例,如著名的Phineas Gage病例:铁路建筑工头Phineas Gage在工作中被铁管贯穿左侧前额叶,伤愈后,他的行动、语言、智力等基础功能一切正常,但性情大变,这个极其罕见的病例让研究人员开始将前额叶与高级精神活动联系在一起。1992年,Kenneth H. Britten在论文A Comparison of Neuronal and Psychophysical Performance中描述了当在一群混乱的移动点中寻找目标时大脑的信号变化。这些研究虽然很零碎,但在解释大脑运作上都做出了杰出贡献。

同样的,计算机视觉受神经科学启发影响,而这一领域的奠基之作正是Hubel和Wiesel的研究成果。

1981年,Hubel和Wiesel因“关于视觉系统中信息处理的发现”获得了诺贝尔生理学或医学奖,他们在上世纪50年代晚期测试了猫的视皮质细胞。在实验中,他们把微电极埋进猫的视皮质细胞,之后在屏幕上打出一些光影和图形。通过固定猫的头部,他们能轻易控制视网膜上的成像,并测试细胞对线条、直角、边缘线等图形的反应。透过放大器和扬声器,他们甚至能听到细胞启动的声音。

这个关于初级视皮层(V1皮层)的新发现在当时引起了强烈反向,也奠定了后期神经元映射功能研究的基础。

实验视频截图,当光柱移动时,会产生一些噪声

通过这个实验,Hubel和Wiesel发现视皮质细胞细胞只对视网膜上的图像的某些特定细节有反应,另一个令人着迷的特点则是这些细胞似乎会自然映射到不同角度。如下图所示,V1皮层的每块区域都包含特定神经元,它们对特定角度光照的反应都有差异:

当这些细胞出现反应时,理论上能创造一个由支到干的现实世界投影,也就是说,当感光神经元同时对不同角度光线做出反应时,它们其实正在大脑中绘制现实世界的图像。

如何编码、解码

让我们把时间快进Olshausen和D J Field的时代。

在Hubel和Wiesel理论提出的近30年后,两位专注于计算机神经科学领域的研究人员,Olshausen和D J Field,在大脑编码、解码上取得了重大突破,推动计算机视觉工作更进一步。事实上,他们在文中也提到了30年前那个猫细胞实验。

和前人的做法不同,这两名当时还任职于康奈尔大学的年轻工作者不再拘泥于光柱遮挡,而更关心算法是如何识别、编码图像内特征的。1996年,他们的论文Natural Image Statistics and Efficient Coding(http://pdfs.semanticscholar.org/e309/e441a38ccee6456bd02e0f1e894e44180d53.pdf)正式发表。

这是一篇经典论文,作者在文中利用主成分分析Hebb学习算法,指出了该模型在图像识别上的局限性,即无法学习局部化、定向性和带通结构来构成一个自然图像。Hebb模型的一个核心思想是某种特征训练的次数越多,在以后的识别过程中就越容易被检测,而Hubel和Wiesel的实验证明,视皮质神经元只对某些特征有反应。

Olshausen和D J Field综合了各家观点,认为当编码自然图像中存在某些规律性时,应当通过减弱对重复性激励特征的训练学习,开发更注重稀疏性的模型,使得网络注意那些不同的特征以助于提高区分能力。

他们针对图像中的各类特征建立了一些备用模型,主要体现为以下公式:

来源:Natural Image Statistics and Efficient Coding

这个算式是为了计算实际图像和图像函数间的最低平均误差。

来源:Natural Image Statistics and Efficient Coding

这一部分是为了结合代价函数(cost function)迫使算法限制图像函数的系数。

来源:Natural Image Statistics and Efficient Coding

这一部分则是通过梯度下降,使图像函数的系数最小化。

虽然论文中并没有给出能识别图像的具体神经网络模型,但考虑到1991年世界上才出现互联网,而他们的论文发表在1996年,这一观点出现的时机是了不起的。

从小猫细胞到数学模型

现在,关于计算机视觉的研究已经从视皮质细胞变向数学模型。

Olshausen和D J Field在论文结尾处是这么说的:“一个重要而令人激动的未来挑战将是把这些原理外推到更高的皮层视觉区域来提供预测。”这是一个不小的挑战,意味着研究者们需要在低级模型的基础上创建一个由支到干的神经网络,并实现图像预测。

来源:Natural Image Statistics and Efficient Coding

他们在论文中放了这样一幅图进行示例,怎么样?是不是很眼熟?如果你是一个深度学习爱好者,你能在过去几年的许多论文中发现和上图相似的矩阵。这些矩阵通常都被用作卷积神经网络(CNN)中的卷基层,被认为是模仿单个神经元对视觉刺激的反应方式。

来源:Andrej Karpathy和李飞飞Deep Visual-Semantic Alignments for Generating Image Descriptions

现在,这个1996年提出挑战已经被成功化解,利用采集低级特征预测图像已经成为一个现实。

2015年,斯坦福大学的Andrej Karpathy和李飞飞撰写了一篇名为Deep Visual-Semantic Alignments for Generating Image Descriptions的论文,在文中,他们展示了一个能对图像提供详细描述的递归神经网络(RNN)。它不仅能指出一只猫,或从一张照片中识别出一条狗,它能具体描述形象,如“一个在做后空翻的滑板男孩”。

来源:Andrej Karpathy和李飞飞Deep Visual-Semantic Alignments for Generating Image Descriptions

虽然这个模型还不是很完美,但和1968年的成果相比,这样的进步是令人叹为观止的。

从20世纪50年代末到2015年,计算机视觉默默走过了半个世纪,相比较前路的任重道远,这50年可能并算不上什么。但是,属于人工智能的时代已经到来,未来,计算机视觉的发展速度只会越来越快。它要做的不仅是学术领域的图像识别,更要在医学影像、自动驾驶、情感预测等方面展示先进技术成功带来的的社会进步。

未来50年,计算机视觉又将带给我们何种惊喜?

原文地址:https://towardsdatascience.com/from-neuroscience-to-computer-vision-e86a4dea3574

本文系论智编译,转载请联系本公众号获得授权。