回顾计算机视觉的历史

387 阅读5分钟

        哈佛进行了一项研究,由两位非常年轻的博士后Hubel和Wiesel主持。他们找来了一只清醒的、四肢麻醉了的猫,并制作了一根电极探针检测猫的神经元脉冲的变化。他们发现很多基础视觉区的神经元,并不是对鱼、老鼠的图片有反应,而是对切换图片的动作有了反应。切换图片时产生了一个移动的边缘,由于基础视觉区的神经元分为一列一列的,每列神经元只“喜欢”某一种特定的形状。所以视觉的前期,并不是对整体的鱼或者老鼠进行处理,而是对简单的形状、结构进行处理,比如:物体的结构、轮廓和排列方式。他们因此获得了诺贝尔医学奖,这个发现也对认知科学、神经科学、工程模型都产生了极为深远的影响。

        我们的大脑对视觉信息的处理是基于边缘和形状的。Larry Roberts 是一名计算机科学的博士生。他的一篇博士论文是从图像中解析图形的边缘和形状,以此来证实:人类如何识别出不同光线下的图形是否相同,是根据轮廓辨别出来的。他在论文中解析出了物体的轮廓,而物体的边缘决定了它的结构。这篇论文被认为是计算机视觉领域的第一篇开创性的博士论文。

        1966年是计算机视觉元年。往后,各国的研究人员会参与CVPR 、 ICCV 这些顶级的计算机视觉大会。几年后,David Marr的《视觉》中的著名论点“视觉是分层的”。第一层应该是边缘结构;第二层是2.5D,即2D的图像信息调整为包含真实世界的3D信息,这个步骤能认识到层次结构,自然界是3D的,所以会产生遮挡的问题;最终把他们结合成3D的空间。 这个论点奠定了如今深度学习的基石。

        综上,如果我们要研究一张用iphone拍的高分辨率的很复杂的图片,可以依据上面介绍的两个方法来:

  1. Hubel 和 Wiesel 告诉我们视觉处理流程,是从简单的形状结构开始;
  2. DavidMarr 的视觉模型结构,告诉我们可以建立一个分层的模型,把图形想象成多层结构。

在此基础上,涌现出一波视觉识别算法。

  1. Tomas Binford 是一名斯坦福AI实验室的教授,他和他的学生Brooks提出了一个对70年代产生很大影响的“generalized Cylinder”视觉识别模型。模型的主旨是:整个世界都是由简单的形状组成(eg:圆柱体),并从不同的角度观察而已。
  2. 斯坦福研究院(SRI)提出的 Pictorial Structure 模型,模型的3D思想比较少,更多的带有概率模型的味道,他也认为世界由简单的物体组成的,物体之间由一些弹簧连接,弹簧可以有一些变形和拉伸。

        这些是计算机视觉很久之前的研究成果了。从90年代开始,我们开始处理彩色的画面。

        一项重大的成果叫“感知分组”。它是将图片分隔为有意义的几个部分而不是识别图片中的物体。比如进入一间屋子,大脑的视觉系统不会告诉你:哇,这么多像素!而是瞬间就将像素按照物品分组成 帽子、家具... 分组是视觉领域(生物视觉、人工视觉)最重要的问题之一,但到目前,我们还一直在探索它的终极解决方法。

        2006年,第一台具有人脸监测功能的数码相机问世,它作为人脸检测的第一个应用到大众消费产品的高级视觉识别算法,并没有使用深度学习网络。但他的特征学习过程却有很强的深度学习特质。它的算法试图寻找黑白照片中人脸的过滤器特征值来识别人脸位置信息。着也是第一个可以在电脑上实时运算的计算机视觉研究结果。

        一篇“实时面孔检测”的论文标记了计算机视觉领域研究焦点的一次变迁。之前的研究工作试图给真实的3D建模,而现在研究工作试图去“识别物体是什么”。这次变迁让研究跳过了“是否能给这些人脸重新建模的过程”。虽然如今还有一部分人在进行这项研究,但有很大一部分计算机视觉的研究工作聚焦到了识别物体领域。这个趋势,将计算机视觉带回人工智能领域。现在,计算机视觉研究最重要的课题就聚焦于这类识别问题和AI问题。

        李飞飞所在的实验室建立了一个超大规模的项目:ImageNet,它有5000万张图片,全部都是人工清洗过的,标注了超过2万个分类,每年进行一次“ImageNet Competiotion for Object Recognition”竞赛,其中一个标准题目就是对1000种接近150万张图片进行识别,比较各种算法的性能。下图展示了深度学习的历史成就,2010年举办了第一届挑战赛,一开始错误率还挺高的,但每年错误率都在下降,但2012年错误率明显下降了,哪一年获得桂冠的模型就是“卷积神经网络”。它在上世纪70、80年代就已经提出了,但现在终于展示了他作为高性能的端到端训练模型的强大能力。 这是深度学习革命的开端。