视频检索中正脸判断技术的研究# 张志伟,刘亮,傅慧源** 基金项目:国家杰出青年科学基金(No.60925010) 作者简介:张志伟(1987-),男,硕士研究生,多媒体与图像处理 通信联系人:刘亮(1982-),男,副教授,多媒体与网络信息处理. E-mail: liangliu82@gmail.com (北京邮电大学智能与通信软件与多媒体北京市重点实验室,北京 100876) 5 摘要:本文面向媒体资源管理领域,提出了一种从人脸检测到人脸识别过程中的自动化正脸预测及判定方法,该方法首先利用眼睛的检测及定位技术剔除了由于人脸检测算法的误检测得出的一些非人脸图像及侧脸图像,从而得到大部分半侧脸及正脸图像;然后利用基于AAMs模型的人脸方向预测算法,进行了对半侧脸图像的剔除,从而得到的人脸大部分为正脸图像,能很好的适合人脸识别算法,为后期视频检索及媒资管理服务。 10 关键词:计算机应用技术;媒资管理;人脸识别;正脸判断;视频检索 中图分类号:TP391.41 Research of Front Facial Estimation Method in Videa Retrieval 15 ZHANG Zhiwei1, LIU Liang2, FU Huiyuan2 (1. Beijing Key lab of Intelligent Telecomm Software and Multimedia,Beiing University of Posts and Telecommunications,Beijing 100876; 2. Beijing Key Lab of Intelligent Telecomm Software and Multimedia, Beijing University of Posts and Telecommunications, Beijing 100876) 20 Abstract: In this paper,a front facial estimation method was introduced for the area of multimedia managemant. This method is used during the process of face detection and face recognition. First, eye detection and location was used to remove the no-face images and profile faces, Then, a face pose estimation method was proposed to select the front face from the rest images. Key words: Computer Application Technology; Mutimedia managemant; Face Recognition; Front 25 Facial Estimation;Video Retrieval 0 引言 人脸识别是基于内容的视频检索技术领域的一个重要课题,而人脸方向判定问题是人脸识别由理论到实施的技术难题之一。在视频的录制过程中,由于成像设备视角与人物的角度30 不尽相同,人脸图像具有很大的差别,他在很大程度上影响了人脸识别的效果。目前大多数人脸识别算法都是针对正脸及标准正脸建立的,人脸一旦旋转,其识别率便会急剧下降。 国内外许多学者采取提出了多种方法对人脸方向问题进行研究。主要分为两类:一类是基于模型的方法[1],该类方法主要利用空间几何计算方法,根据特征点之间的关系来实现姿势估计;另一类是基于特征子空间的方法[2,3],在统计学的子空间上将整个脸处理为一个特征35 向量,该类方法需要首先生成特征集合,用众多的数据来得到模板或分类器。 本文所研究问题是在完成人脸检测的基础上进行的,主要用到开源OpenCV库中实现的Viola Jones 人脸检测器[4]。Viola Jones检测器能较大程度的检测出人脸,但是检测人脸的同时会出现一些非人脸图像。本文首先利用人眼检测及定位技术初步去除非人脸及侧脸,然后利用基于Active Appearance Models(AAM)[5]的人脸方向估计算法选出正脸图像。 1 眼睛检测与定位 利用Viola Jones 检测器检测并定位出的人脸不够精确,并且包含了非人脸及侧脸图像,如图1-(a)所示,这些图像对进一步的人脸识别会产生严重干扰。为了更精确提取出正脸图像,本文提出了利用局部特征(人眼)定位踢除非人脸及侧脸图像。 本文采用对眼部灰度投影法来进行人眼定位,主要利用人眼部分灰度较面部其他地方要45 低,且从水平和垂直方向的投影,分别统计出两个方向上的灰度值,由于这两个方向一系列灰度变化比较明显,从而来进行眼睛定位。本文首先采用直接灰度投影法进行粗定位,然后采用混合积分投影进行精确定位。 图1 新闻视频中几步检测出的人脸结果样例(a)为直接应用Viola Jones检测器之后的图像集50 合样例(b)为应用眼睛检测与定位技术后,去除大部分非人脸图像之后结果集样例(c)为应用正脸预测算法后的结果集样例 Fig.1 Result Example of After Each Method (a) Result Set Example After the Viola Jones Detection (b) Result Set Example After Eye Detection and Location (c) Result Set Example After Face Pose Estimation 55 1.1 直接灰度投影 直接进行水平灰度投影,从上向下,第一个峰值为额头,第一个谷值为眉毛,第二个谷值为眼睛,从而切割出眼睛的水平区域,对此区域进行垂直投影,连个谷值对应眼睛。 1.2 混合积分投影 60 图2 人眼模型 Fig.2 Human Eye model 为了定位眼睛中心,首先建立标准的眼睛模型,如图2所示,从图中可以看出,要定位眼睛的中心位置,需要确定左右眼角的x轴坐标和上下眼睑的y轴坐标x1和x2分别为左右眼角的x轴坐标,y1和y2分别为上下眼睑的y轴坐标。垂直投影在x1和x2处会有明显变65 化,而水平投影会在y1和y2处会有明显变化,令 2210xxx,2210yyy (1) 则点O(x0,y0)即为眼睛的中心点。 根据[6],我们可以得到如下公式: 垂直和水平灰度积分投影定义如下: 70 dyyxIyyxIPFyyv21,112,21,112xxhdxyxIxxyIPF (2) 考虑灰度变化又定义垂直和水平方差函数如下式: 21],[112yyhhxIPFyxIyyxVPF,21],[112xxhhyIPFyxIxxyVPF (3) 则混合投影函数为: xVPFaxIPFaxGPFvvv1,yVPFayIPFayGPFvvh1(4) 75 根据实验效果,a取0.6时效果最好。 由垂直及水平混合投影函数,找到梯度变化最大的四个点,即y1,y2,x1,x2求其矩形中心即瞳孔位置。 经过人眼检测与定位,能踢出大部分非人脸图像及眼睛特征及不明显的人脸图像如图1-(b)所示。 80 2 人脸方向检测与正脸判定 Active Appearance Model (AAMs)[7]广泛用于构造人脸模型[8],上节得出了特定人物的一连串包含侧脸及正脸的图像序列,本节将介绍如何利用AAMs模型判断候选人脸图像的方向,从而提出侧脸,得到正脸,用于后期人脸识别过程。 2.1 Active Appearance Models: AAMs 85 2.1.1 形状模型 AAMs能从形状和纹理信息表示人脸,其由一系列网格顶点集三角网格组成。根据[7]我们得到如下公式,其由n个顶点组成的网格的模型: nnvvvuuus......2121 (5) AAMs在线性变化上具有明显的优势,即s矩阵能由基本模型矩阵s0与m个形状矩阵90 si线性连接得到: miiispss10 (6) 其中系数pi是形状参数。 AAMs一般是由一系列通常人工标注形状网格的训练图像计算而来[7],之后在这些数据集上运用主成分分析(PCA)算法进行降维。公式(6)中的基本模型矩阵s0 95 为由主成分分析算法得到的平均向量,0到m个矩阵si是其特征向量。 2.1.2 纹理模型 纹理模型是建立在基本网格s0之上的,同样对上述数据集进行统计处理并采用主成分分析,可以得到一组纹理模型,由[8]可知其矩阵表达为 liuiAiuAuA10 (7) 100 系数i是纹理参数,同形状模型类似,基本纹理模型0A和纹理向量iA同样在上述数据集上应用PCA算法得来。 2.1.3 AAM模型产生与匹配 公式(6)和公式(7)描述了AAM的形状模型和纹理模型,却没有描述怎么产生AAM特征点。根据[9]我们知道AAM由标准模型经过相似变换quN;得到,其中41,......,qqqT105 包括一系列旋转、平移、大小变换。AAM匹配过程就是利用AAM去定位特征点的过程,根据未知图像与模板图像的差值不断调整AAM模型的参数,最终使差值达到最小,把求图像之间的纹理差放在基本网格s0的框架下进行,并记psWI为在图像xI处的采样。 0210];[sumiiipxWIxAuA (8) 2.2 正脸预测 110 2.2.1 模型 本文长期连续录制了CCTV新闻联播及CNN学生新闻,并利用Viola Jones 检测器从该新闻视频库中提取出大量人脸,人工从中挑选出侧面人脸及正面人脸集合,并分别训练了AAMs模型[7,10]如图3所示。 图3训练集模型样例 Fig.3 Example of Trained Model 由上述训练集可以得到物体形状和纹理变化的统计模型。物体的形状可用向量x表示纹理用向量t表示,该统计模型由参数c来控制 cQxxx,cQttt (9) 120 其中x是平均形状向量,t是平均纹理向量,xQ,tQ是由训练集合推导出来描述样本模型与平均模型变化量的矩阵。 本文对两个分别有侧面人脸与正面人脸组成的训练集进行训练,得出两个不同的样本模型,如图1所示。其中用248张人工选出的不同的正面人脸训练出正面模型,用157张人工选出的侧面人脸训练了侧面模型。用公式(6) (7)可以得出,一张测试人脸可以通过变化c及xQ从125 x得到相应的形状向量,可以通过变化c及tQ得到相应的纹理向量。 2.2.2 正脸预测 本文假定模型参数与视觉角度相关,并提出如下判别公式 sincos0cccc (10) 其中0c,c由上述训练集训练并估计的来,0c为正脸模型参数,c为侧脸模型参数 130 目前,本文只考虑了在水平方向上的方向变化,而没考虑垂直方向上的方向变化。因此,判别公式(10)能很好的表示出样本人脸与训练模型见的关系变化,为了能够更好的得出样本与训练集之间的关系本文利用[11]中提到的办法进行了样本方向的测量。根据测试用例本文规定在0015,15之间,实验显示在此范围内人脸图像为正脸的概率在70%以上。 3 实验结果 135 本文以录制的新闻视频为实验素材,利用该视频素材进行人脸提取及后期处理。本文共选取了连续三个月新闻联播,首先利用Viola Jones 检测器对视频进行人脸检测并提取,然后再在此基础上进行眼睛检测与定位,最后利用基于AAM的正脸预测算法进行正脸估计其实验效果图如图4所示: 人眼检测与定位正脸预测140 图4 实验效果图 Fig. 4 Experiment Effect 实验表明眼睛检测与定位算法能很好的去除viola Jones检测器误检的非人脸图像(包括特征模糊的人脸图像),而正脸预测算法能有效的从侧脸图像中选出正脸。 4 结论 145 本文给出了一种应用在媒资资源管理场景中,在人脸检测及人脸识别之间的自动化判定正脸的方法。首先利用了基于灰度投影与混合积分投影的眼睛检测及定位技术初步去除由voila Jones检测器检测出的非人脸图像(包括特征模糊的人脸图像),其次提出了一种基于AAM模型的正脸估计方法,从侧脸与与正脸集合中选出使用与人脸识别的正脸图像。该方法能够自动的去除大部分不适合进行人脸识别的图像,能很好的满足视频检索中人脸识别的150 要求。 [参考文献] (References) [1] J.N.S Kwong and S. Gong, Learning Support Vector Machines for A Multi-View Face Model .In Proc. of the British Machine Vision Conference 1999, Nottingham, 13-16 September,1999. 155 [2] T.F. Cootes, K,Walker and C.J. Taylor, View-Based Active Appearance Models. In Proc. 3th Int'l Conf. on Automatic Face and Gesture Recognition,Japan,1998. [3] Stan Z.Li, Q.Fu, L.Gu,B. Scholkopf, Y.Cheng and H.Zhang, Kernel Machine Based Learning For Multi-View Face Detection and Pose Estimation. In Proc. of 8th IEEE Int'l Conf. on Computer Vision, Vancouver, Canada, July 9-12,2001. 160 [4] P.Viola and M.J.Jones. Robust real-time face detection. IJCV,2004. [5] J.Xiao, S.Baker, I.Matthews, and T.Kanade, Real-time combined 2D+3D active appearance models in Proc. IEEE Conf. Computer Vision and Pattern Recognition, vol.2,2004,pp.535-542. [6] 耿新, 周志华, 陈世福. 基于混合投影函数的眼睛定位[ J] . 软件学报, 2003, 14( 8 ): 1394-1399. [7] T.F. Cootes, G.J.Edwards, and C.J.Taylor. Active appearance models. PAMI,23 (6):681-685, June 2001 165 [8] A.Lanitis, C.J.Taylor, and T.F.Cootes. Automatic interpretation and coding of face images using flexible models. PAMI,19(7):742-756,1997 [9] 牛星,席志红,金子正秀,基于改进的AAM的人脸特征提取. 应用科技,2011, 38(4) [10] G.Edwards, C.J.Taylor, and T.F.Cootes. Interpreting face images using active appearance models. In 3rd International Coference on Automatic Face and Gesture Recognition 1998, pages 300-305 170 [11] S.Romdhani, S.Gong, and A.Psarrou. Amulti-view non-linear active shape model using kernel pca. In.T.Pridmore and D.Elliman, editors, 10th British Machine Vison Conference,volume2, pages483-492, Nottingham, UK,Sept.1999. BMVA Press. 学术论文网Tag:代写硕士论文 代写论文 代写代发论文 代发论文 |