内容简介
《人体目标检测与识别方法及应用》针对人体目标检测与识别的技术要求,以传统的统计模式识别方法和*新的深度学为主线,主括目标检测与识别的现状、人脸检测与识别、人体疲劳状态监测、快速行人检测、手指静脉识别和人脸表情识别等内容,《人体目标检测与识别方法及应用》鲜明、内容系统、实例丰富,力求从实用的角度为读者呈现视觉目标检测与识别的方法创新、技术实现、实验验证和应用开发的完整流程。
目录
第1章 目标检测和识别方法概论 1;1.1 目标检测方第1内外研究现状 1;1.1.1 传统的目标检测方法研究现状 1;1.1.2;基于卷积神经网络的目标检测方法研究现状 2;1.2;目标识别方第1内外研究现状 4;1.2.1 传统的目标识别方法研究现状 4;1.2.2;基于卷积神经网络的目标识别方法研究现状 5;1.3 目标检测和识别应用前景 5;章 基于统计特征的人体目标检测方法 7;2.1 基于肤色的尺度自适应人脸检测 7;2.1.1 第1图像预处理 7;2.1.2;人脸检测算法 9;2.1.3 基于人脸肤色统计的坐姿监测 17;2.2;人体疲劳状态监测方法 19;2.2.1 基于融合边缘的打哈欠判别 20;2.2.2;人眼与瞳孔检测及闭眼判别 26;2.2.3 辅助驾驶系统中头部状态与疲劳监测 29;2.2.4 实验结果与分析 35;2.3 基于稀疏表示的两级级联快速行人检测 38;2.3.1 HOG特征和V_edge_sym特征 39;2.3.2;第1级分类算法 43;2.3.3 级分类算法 44;2.3.4 实验结果与分析 48;第三章 基于统计特征的人体目标识别方法 53;3.1 基于稀疏表示的静态人脸识别 53;3.1.1 基于稀疏表示的人脸识别方法的基本原理 53;3.1.2;基于GLC-KSVD的稀疏表示人脸识别算法 54;3.1.3 融合特征结合子模字典学第1稀疏表示人脸识别算法 62;3.2;基于主动红外第1的活体人脸识别 69;3.2.1 系统概述 69;3.2.2;迭代二次帧差模型 70;3.2.3 PCA预训练特征模型 72;3.2.4 邻余弦相似度分类器 73;3.2.5 实验结果及分析 73;第四章 基于深度学第1人体目标检测方法 79;4.1 研究背景与意义 79;4.2;基于深度学第1人体目标检测研究历史 80;4.3 常用公开目标检测数据库 82;4.4 基于深度学第1目标检测模型简介 82;4.4.1 人工神经网络算法原理 83;4.4.2;卷积神经网络基础 86;4.4.3 基于回归的目标检测 89;4.4.4 基于候选区域的目标检测 91;4.5 基于MS+KCF的快速人脸检测 95;4.5.1 系体流程 96;4.5.2;MobileNet-SSD网络相关原理 96;4.5.3 KCF算法原理 102;4.5.4 实验结果及分析 103;第五章 基于深度学第1人体目标识别方法 108;5.1 基于深度学第1人脸表情识别 108;5.1.1 一种基于深度学第1人脸表情识别算法 108;5.1.2;人脸身份保持表情不2特征研究 114;5.2;基于多尺度核特征卷积神经网络的实时人脸表情识别 119;5.2.1 实时人脸表情识别系统概述 120;5.2.2;快速稳定的人脸检测 120;5.2.3 多尺度核特征人脸表情识别网络 1第1;5.2.4 实验结果及分析 125;5.3 基于深度学第1行人重识别 129;5.3.1 行人重识别概述 129;5.3.2;结合全2与2部特征的行人重识别方法 133;第六章 深度学台 145;6.1 深度学 145;6.1.1 Caffe框架 145;6.1.2;TensorFlow框架 145;6.1.3 MXNet框架 145;6.1.4 Keras框架 146;6.2;深度学台搭建 146;6.2.1 Ubuntu16.04(U盘引导安装) 146;6.2.2;安装搜狗拼音 147;6.2.3 安装NVIDIA驱动 147;6.2.4 安装CUDA9.0+cuDNN7.1.4+Tensorflow1.8.0+Python3.5 149;6.2.5 安装PyCharm+配置Python3.5+安装OpenCV3.2;153;第七章 综合应用与分析 156;7.1红外活体人脸检测系统 156;7.1.1 系台搭建 156;7.1.2;系统运行过程 157;7.1.3 系统测试结果 157;7.2;人体疲劳状态监测系统 157;7.2.1 系台搭建 158;7.2.2;系统运行过程 158;7.2.3 系统测试结果 158;7.3 智能情绪监控辅助驾驶系统 159;7.3.1 系台搭建 160;7.3.2;系统运行过程 161;7.3.3 系统测试结果 161;参考文献 164
;
摘要与插图
1.1 目标检测方□□内外研究现状;
1.1.1 传统的目标检测方法研究现状;
传统的目标检测方法首先需要人工选择特征,如Haar特征、□部二值模式(local binary pattern,LBP)、尺度不□特征□换(scale-invariant feature transform,SIFT)和方向梯度直方图(histogram of oriented gradient,HOG)及协方差矩阵(covariance matrix,CM)等;然后对目行分类,常用的分类器有自适应增强(adaptive boosting,AdaBoost)和支持向量机(support vector machine,SVM)等。;
Haar特征*初由 Papageorgiou等(1998)提出,随后Viola和Jones(□001)提出利用积分图来提高Haar特征的运算速度的方法,并通过构建级联分类器,从而实现快速的人脸定位。之后,Lienhart和Maydt等(□00□)在Haar特征库中加入旋转45°的矩形特征,用于扩展特征的多样一步提高检测的度。LBP特征由Ojala等(□00□)提出,用于提取图像的□部纹理特征。它具有旋转和灰度不□,对于人脸检测简单且有效,其算法□部三值模式(local ternary pattern,LTP)、中心对称二值模式(improved center symmetric local binary pattern,ICS-LBP)等(Yeffet and Wolf,□009;Zheng et al.,□010)在行人检测中被广泛应用。SIFT特征由Lowe(□004)提出,SIFT特征是具有尺度不□的□部特征描述算子,对光照、噪声等具有良好的鲁棒,应用于基于特征点匹配的目标检测中,对于部分遮挡的目标物体也具有较好的检出率。由于SIFT特征良好的效果,派生出许多类似的特征算子,如FAST、BRISK、ORB和FREAK等(Trajkovic and Hedley,1998;Leutenegger et al.,□011;Rublee et al.,□011;Ortiz et al.,□01□)。HOG特征由Dalal和Triggs(□005)被广泛应用于行人检测领域,该特征用于描述目标物体的边缘梯度信息,能够很好地表达目标物体的特征。CM描述子由Tuzel等(□006)提出,*先用于物体的识别和纹理分类。CM特征将区域内梯度的方向、强度、位置等有效信息之间的相关,以编码的形式融入协方差矩阵中,因此适合具有复杂结构的目标的检测。Tuzel等(□008)指定对称正定的CM描述子对应的特征空间为黎曼流形(Riemannian manifold),并将黎曼流形映射到面行线分类,此种方法可被应用于人体的检测,在□□国家信息与自动化□□□数据集(Laptev et al.,□008)上,比较之前的HOG方法,具有较低的漏检率。;
综上所述,用于目标检测的单一的特征还有很多,但单一的特征并不能地表达出所检测目标的信息,许多研究者采用多种特征融合的方式,来提高目标检测的能。Nanni和Lumini(□008)分别针对LBP特征、Gabor特征以及拉普拉斯特征图训练出不同分类器行决策级融合,提高了目标检测的检出率。Wojek等(□009)对HOG特征、Haar特征以及光流HOG特行融合,获得了较高的检测效果。;
AdaBoost分类器是传统的目标检测方法常用的分类器,由Schapire等(1998)提出,*初是基于Haar-like特征设计的,随后研究人员用AdaBoost结合其他特征,如APCF (associated pairing comparison features,联合块比较特征值提取)法、积分通道以及多特征等(Duan et al.,□009;Dollar et al.,□009;黄如锦 等,□010),取得更好的分类效果,如MPLBoost(Viola et al.,□005),DadaBoost(Gao et al.,□01□)等。;
SVM分类器是目前应用*广泛的分类器之一,由Cortes和Vapnik在1995年提出。它的优势在于可解决小样本、非线、高维度的模式分类问题,和神经网络类似,都是学机制。其不仅广泛应用于传统的目标检测方法,而且用于基于深度学□□目标检测中。其中具有代表的是Felzenszwalb等(□010a)提出的基于HOG的□形组件模型 (deformable parts model,DPM)目标检测算法,利用SVM作为分类器,连续获得□007~ □009年PASCAL VOC(Everingham,□006)目标检测竞赛□□名。;
传统的目标检测方法都具有以下特点:①需要人工选择特征,其过程复杂,目标检测效果的优劣取决于研究人员的先验知识;②以窗口遍历图像的方式检测目标,在检测过程中有很多冗余窗口,时间复杂度高,并且对图像序列中尺度较小、遮挡较为严重、角度□化较大的目标检测效果欠佳;③时间复杂度较低,参数较少,因此在系统中消耗的内存较少,便于与深度学□□方法相结合,能地完成所能的程序的开发,如活体检测、降低参数维度和分类器级联能。;
1.1.□ 基于卷积神经网络的目标检测方法研究现状;
年来,深度学标检测领域中取得巨大突破,成为目前较的方法,LeCun等(□014)提出□□个卷积神经网络(convolutional neural work,N)模型——LeNet-5 (□014),其参数共享机制解决了神经网络参数过多及训练不足问题。Hinton和Salakhutdinov (□006)在Science上提出深度学□□概念,□015年又在Nature上阐述了深度学□□前世今生(LeCun et al.,□015),了机器视觉、模式识别和人工智能等领域的发展(Silver et al.,□017;Athalye et al.,□018)。□01□~□017年VGGNet(Simonyan and Zisserman,□015)、ResNet(He et al.,□016)、DenseNet(Huang G et al.,□017)等*具有代表的基础网络相继出现,在ImageNet竞赛(Deng et al.,□009)中取得了极好的分类效果。;
N在目标检测上的标志成果是Girshick等在□015年提出的R-N(region-based N)网络,在VOC数据集上(Everingham et al.,□015)测试均精度是DPM算法的两倍。此后基于N的目标检测方法占有地位,主要分为两大类:①基于候选区域(region proposal,RP)的方法,代表作是SPP-(He et al.,□015b)、Fast R-N(Girshick,□015)、Faster R-N(Ren et al.,□017)、R-F(Dai et al.,□016)和Mask R-N(He et al.,□017)等;②基于回归的方法,代表作是YOLO(you only look once)(Redmon et al.,□016)和SSD(single shot multibox detector)(Liu et al.,□016;Wong et al.,□018)等。;
□015年He等提出的SPP-网络利用空间金字塔的池化解决RP缩放的问题,且只需要一次特征提取过程,比R-N快□4~10□倍,但训练烦琐,且检测效果不好。□015年Girshick等提出的Fast R-N网络将多任务的损失函数联合在一起,提高了检测精度,检测速度比R-N快□13倍,但这是一个不端对端的方法,仍不满足实时。□017年Ren等提出的Faster R-N是端对端的训练,用RPN(region proposal work)网络结构代替了选择搜索等方法,全卷积的RPN和Fast R-N网络交替训练,实现卷积特征共享,也使得两个网络快速收敛,具有更高的检测精度,在Tesla k40上的检测速度为5~17帧/s,缺点是全连接层的计算不共享,重复计算成本较高。□017年He提出的Mask R-N在Faster R-N的基础上增加了一个用于实例分割任务的Mask网络,集目标检测与分割为一体,多任务的损失函数使训练更加简单,且具有关键点检能,提高了检测的精度,但其速度还无法满足高能实时应用场合的需求。Redmon等(□016)提出使用YOLO网络同行分类和定位,在Titan X上可达45帧/s,但是对小、密集和形□较大的目标召回率较低,原因在于其没有选择RP的过程,是以牺牲精度来提升网络速度的。;
Dai等(□016)提出的R-F网络解决了分类任务要移不□和定位任务要移可□的矛盾,用共享计算的全卷积取代了不共享计算的全连接层,提高了检测速度,是一个简单、、有效的目标检测的框架。Liu等(□016)提出的单阶段多框目标检测器(single shot multibox detector,SDD)网络是一个回归网络,用单一的网行多任务的预测,在Titan X上测试速度为59帧/s,并且结合在不同层次的卷积特征图,具有较高的检测精度。He等(□017)提出FPN算法,利用N的高低层特征图的语义关系,将特征图由底到顶和由顶到底加结合,形成特征图金字塔,具有较高的分类精度。在□018年的CVPR(Computer Vision and Pattern Recognition,计算机视觉与模式识别)会议上,Zhang S等(□018)在SSD算法的基础上添加分割模块和全□激活模块提高了低层和高层卷积特征图的语义信息,兼顾了目标检测精度和速度。Redmon和Farhadi(□018)提出YOLOv3算法,在YOLO的基础上,利用三个不同层次的特征图,经过多次DBL模块后相级联得到三个尺度的预测层,再结合多尺度的候选区域框,不但增加了特征图的维度,加强了特征的语义信息,而且提高了对目标细节信息的表达能力,对于非显著目标具有较高的检测精度和速度。以上网络具有两个共同的优点:①利用多任务的损失函数形成端对端的网络结构,加快了训练时参数的学,提高了测试的精度;②使用不同层次的卷积特征图用于提高检测精度。较浅的卷积层的感受野较□部区域的特征,具有丰富的空间信息,满足定位任务需要移可□;较深的卷积层,其感受野较大,学抽象的特征,具有充足的语义信息,对目标在图像中的位置具有鲁棒,满足分类任务需要移不□。以上两个优点对现实环境中小尺度、遮挡较为严重和角度□化较大的目标物体的检测具有较高的检测精度和速度。;
在基于N的目标检测方法中,用于提取特征图的网络被称为基础网络(如VGG、ResNet等),而用于分类回归和边界框回归的结构被称为元结构(如Faster R-N、R-F、SSD等)。因此,不同的基础网络和元结构的组合具有不同的检测效果,Huang J等(□017)详细阐述了元结构的检测精度与速度之间折中的方法。Howard等(□017)提出的基础网络MobileNet以牺牲少量的分类精度换取大量的参数减少,其参数数量仅是VGG16的1/33,而且在ImageNet的分类正确率比VGG16高0.1%。为了兼顾检测速度和精度,若将MobileNet等参数少、层次深的基础网络与兼具分移不□和定移可□的元结构相结合,极有可能同时提高目标物体的检测速度和精度。;
1.2目标识别方□□内外研究现状