携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第28天,点击查看活动详情
在上世纪70年代初,从事计算机技术研究和开发的科学家们首次开展了有关脸部表情识别的研究。相关技术人员对人类六种表情进行了科学的分析(开心、惊讶、悲伤、愤怒、厌烦、恐惧),并建立了一套完整的数据库,收集了数以百计的脸部表情数据,每一种表情都与人体内的脸部表情相对应,如:眉毛、眼、上眼皮、嘴巴等。在上世纪70年代末,科学家们首次提出脸部表情识别,并对其有了初步的认识。他们从动画视频中得到了启发,并对其进行了深入的研究,灵活运用了图像编码序列的功能。
卷积神经网络是一种优秀的深度学习方法,它在图像分割、物体检测等方面都表现出了良好的性能,并具备了端到端的学习特性。利用卷积神经网络的特征抽取与分类相结合,对具有标记的样本进行学习。
表情识别算法的发展大致分为两个阶段:第一阶段集中在千禧年附近,这个时间段内所提出的方法大多基于滑动窗口和人工特征提取,大多都有着计算较为复杂和在干扰度大的场景下稳定性较低的缺陷。为了满足人类日常生活中的多种应用场景中的复杂需求,研究人员必须寻求更为精细的计算方法和更为高效、科学的检测算法,以补长此前大部分算法稳定性不高的共同短板,使之能更好地服务于人们的生活需要。其中知名度较高的有Viola-Jones检测器、HOG行人探测器等。第二个阶段是从2014年开始,以现有的R-CNN算法为始。该方法基于深度学习技术,从待识别的图像中自动提取隐藏特征,以提高样本的分类与预测准确率。在R-CNN之后,又出现了如FastR-CNN、SPPNetl、YOLO等许多基于深度学习的人脸表情识别算法。与传统的人脸表情识别方法相比,R-CNN有着准确度高、鲁棒性强等优点。
Alexnet卷积神经网络在ImageNet的视觉辨识比赛中表现得极其出色,这样的成绩导致卷积神经网络在国内外的应用越来越受到重视。2014年,Simonyan提出了VGG神经网络,并在当年的同一比赛中获得了定位项目的冠军,VGG网络利用小尺度的卷积核加深了网络的深度,增强了表现力。由于VGG网络在实际应用中运行起来相对缓慢。Sze等人已经提出了以Inception模块为核心模块的Googlenet网络。
之后计算机科学家们在训练多个卷积神经网络时,使用大量初始化方法,持续地训练多个不同的输入,最后以指数加权的方式进行特征融合,确定各网络的权重,并选出一个权重更高的网络用以人脸识别。
宋新慧团队提出一种并行的小卷积核结构解决静态脸部表情识别问题,经过提取不同大小的特征,从而最大程度的减少网络参数,大幅提高了运算速度。针对序列图象问题,设计了一种带双重任务的递归神经网络模型,它既能处理图像前后帧信息,又能提高网络识别率。
王志良团队首次提出人工心理学理论体系,并且把这一理论和日常用品等进行了深入的整合,这次的研究获得了很好的实践成果。