人脸检测的方法有几种?研究难点是什么?

2,199 阅读8分钟

人脸的检测是一个困难的计算机视觉问题。 主要是因为人脸是一个动态物体,其外观具有高度的可变性。近年来,人脸识别技术取得了重大进展。然而,高性能人脸检测仍然是一个具有挑战性的问题,尤其是当有很多小人脸时。有两种检测面部部位的方法:基于特征的方法和基于图像的方法。 

 1.基于特征的方法 

技术:基于特征的方法试图找到人脸的不变特征进行检测。其基本思想是基于人类视觉可以毫不费力地检测不同姿势和光照条件下的人脸的观察,因此必须有尽管存在这些变化的属性或特征是一致的。当前已经提出了广泛的方法来检测面部特征,然后推断面部的存在。 

示例:边缘检测器通常会提取人脸特征,例如眼睛、鼻子、嘴巴、眉毛、肤色和发际线。基于提取的特征,建立统计模型来描述它们之间的关系并验证人脸在图像中的存在。 

优点:易于实施,传统方法 

缺点:基于特征的算法的一个主要问题是图像特征可能会由于光照、噪声和遮挡而严重损坏。此外,人脸的特征边界会被弱化,阴影会导致强边缘,这使得感知分组算法无用。  

2.基于图像的方法 

技术:基于图像的方法尝试从图像中的示例中学习模板。因此,基于外观的方法依靠机器学习和统计分析技术来找到“人脸”和“非人脸”图像的相关特征。学习的特征是以分布模型或判别函数的形式应用于人脸检测任务。 

示例:基于图像的方法包括神经网络 (CNN)、支持向量机 (SVMi) 或 Adaboost。 

优点:性能好,效率更高 

缺点:难以实施。 为了计算效率和检测效率,通常需要降维。这意味着通过获得一组主要特征来考虑降低特征空间的维数,保留原始数据的有意义的属性。

人脸检测方法 

已经引入了多种人脸检测技术。 

1、开始阶段:人脸检测自 90 年代出现以来一直是一个具有挑战性的研究领域。 

2000 年之前,尽管有很多研究,但直到 Viola 和 Jones 提出里程碑式的工作,人脸识别的实际性能还远不能令人满意。 从 Viola-Jones 的开创性工作(Viola and Jones 2004)开始,人脸检测取得了长足的进步。Viola and Jones 开创性地使用 Haar 特征和 AdaBoost 来训练一个有希望的准确度和效率的人脸检测器(Viola and Jones 2004),这启发了之后有几种不同的方法。 然而,它有几个严重的缺点。首先,它的特征尺寸比较大。另外,它不能有效地处理非正面人脸和框外人脸。

2、早期阶段——机器学习:早期的方法主要集中在与计算机视觉领域的专家一起提取不同类型的手工特征,并训练有效的分类器以使用传统的机器学习算法进行检测。

这些方法的局限性在于它们通常需要计算机视觉专家来制作有效的特征,并且每个单独的组件都单独优化,使得整个检测流程往往不是最佳的。

为了解决第一个问题,人们付出了很多努力来提出更复杂的特征,如 HOG(定向梯度直方图)、SIFT(尺度不变特征变换)、sURF(加速鲁棒特征)和 ACF(聚合通道特征)。检测的鲁棒性,已经开发了针对不同视图或姿势分别训练的多个检测器的组合。然而,此类模型的训练和测试通常更耗时,并且检测性能的提升相对有限。3

3、最新技术 - 深度学习:近年来,使用深度学习方法,尤其是深度卷积神经网络 (CNN) 的人脸识别取得了显着进展,在各种计算机视觉任务中取得了显显著的成功。 

与传统的计算机视觉方法相比,深度学习方法避免了手工设计的不足,并主导了许多著名的基准评估,例如 lmageNet大规模视觉识别挑战 (ILSVRC)。

最近,研究人员应用了 Faster R-CNN,这是最先进的通用对象检测器之一,并取得了可喜的成果。此外,CNN 级联、区域提议网络(RPN)和 Faster R-CNN 联合训练实现了端到端的优化,以及人脸检测基准,如 FDDB(人脸数据库)等。

主要挑战

人脸检测面临的困难是降低人脸识别准确率和检测率的原因。 

这些挑战是复杂的背景、图像中的人脸过多、奇怪的表情、光照、分辨率较低、人脸遮挡、肤色、距离和方向等。 

不寻常的面部表情:图像中的人脸可能会显示出意外或奇怪的面部表情。 

照明度:某些图像部分可能具有非常高或非常低的照明度或阴影。

皮肤类型:检测不同人脸颜色的人脸检测具有挑战性,需要更广泛的训练图像多样性。

距离:如果到相机的距离太远,物体尺寸(人脸尺寸)可能太小。 

朝向:人脸方向和相机的角度会影响人脸检测率。

复杂的背景: 场景中的大量对象会降低检测的准确性和速度。 

一张图像中有很多人脸:一张包含大量人脸的图像对于准确检测率来说非常具有挑战性。

人脸遮挡:人脸可能会被眼镜、围巾、手、头发、帽子等物体部分遮挡,影响检测率。 

低分辨率:低分辨率图像或图像噪声会对检测率产生负面影响。

人脸检测应用场景

人群监控:人脸检测用于检测经常光顾的公共或私人区域的人群。

人机交互: 多个基于人机交互的系统使用面部识别来检测人类的存在。

摄影:最近的一些数码相机使用面部检测进行自动对焦等等。

面部特征提取:可以从图像中提取鼻子、眼睛、嘴巴、肤色等面部特征。 . 

性别分类: 通过人脸检测方法检测性别信息。 

人脸识别:从数字图像或视频帧中识别和验证一个人。

营销:人脸检测对于营销、分析客户行为或定向广告变得越来越重要。 

出勤:面部识别用于检测人类的出勤情况, 它通常与生物识别检测结合用于访问管理,如智能门禁。

用于人脸识别的数据集 

Annotated Faces 数据集

(AFW)中的带注释的人脸。AFW 数据集是使用 Flickrimages 构建的。它包括 205 张图像和 473 个标记的人脸。对于每张脸,图像 注释包括一个矩形边界框、6 个地标和姿态角。 

PASCAL 人脸数据集(PASCAL FACE)

该数据集用于人脸识别和人脸识别;它是 PASCAL VoC 的一个子集,包含 851 个图像中的 1,335 个标记面部,具有较大的面部外观和姿势变化。 

MIT Face Dataset (CBCL Face Database)

MIT-CBCL 人脸识别 数据库包含一个训练集(2'429 张人脸,4'548 张非人脸)和一个测试集(472 张人脸,23'573 张非人脸)。 

人脸检测数据集和基准(FDDB)

该数据集包含 5171 张人脸,标注在 2'845 张图像中,具有广泛的难度,例如 遮挡、困难姿势和低图像分辨率。这些图像用于训练大外观变化、严重遮挡和严重模糊 在不受约束的现实生活场景中检测人脸时普遍存在的退化。 

CMU Multi-PIE 数据库(PIE)

CMU Multi-PIE 人脸数据库包含 68 个人的 41,368 张图像,每个人在 13 个不同的姿势下,43 个不同的 光照条件,以及 4 种不同的表达方式。 

监控摄像头人脸数据库(sCface Dataset)

 sCface 是一个人脸静态图像数据库。这些图像是在不受控制的室内环境中使用五台不同质量的视频监控摄像机拍摄的。数据集包含 130 个对象的 4'160 张静态图像(可见光和红外光谱)。

WIDER FACE 数据集(WIDER)

人脸检测基准数据集包括 32'203 张图像和 393703 张标记人脸,在尺度、姿态和遮挡方面具有高度可变性,使得人脸检测极具挑战性。此外,WIDERFACE 数据集基于 61 事件类。

最近几个月我们更新了不少关于行人分析等关于人脸检测就识别的相关研发过程,对于TSINGSEE青犀视频的各大平台来说,在不久后也逐步将智能分析的功能融合进去,形成新的智能分析平台,欢迎大家关注我们的更新。