2. 广西大学计算机与电子信息学院, 广西 南宁 530004
2. School of Computer, Electronics and Information, Guangxi University, Nanning 530004, Guangxi, China
人脸识别在生物信息识别、模式识别等领域一直是一个热门话题[1-2],在光照、姿态和伪装等变化的环境下,人脸识别率会受到很大影响。人脸识别中的特征提取方法除了经典的主成分分析(principal component analysis,PCA)、线性判别分析(linear discriminant analysis,LDA)等整体方法[3-4],还有局部方法,如局部特征统计(statistical local feature,SLF)方法,主要包括提取特征、特征映射、统计直方图等3个步骤。经典的局部特征统计方法有局部二值模式(local binary pattern,LBP)、词袋模型等[5-7]。
压缩感知[8]和稀疏表示(sparse representation classification,SRC)作为一个研究热点,广泛用于模式识别领域,文献[9]首先将SRC应用到人脸识别,并且得到较好的分类效果。文献[10-11]将核函数引入到稀疏表示,把数据投影到高维的特征空间进行分类。文献[12]通过把贝叶斯理论与压缩感知结合,通过最大后验概率估计稀疏系数,因为贝叶斯压缩感知(Bayesian compressive sensing,BCS)结合了贝叶斯和压缩感知两者的优势,广泛用于各个领域[13-17]。
因为局部的特征提取方法不能很好的表现图像整体的信息,且维度很高,同时贝叶斯压缩感知算法效率较低,针对上述问题,本文结合局部特征统计和空间金字塔(spatial pyramid matching,SPM)[18]的思想,提出了多层局部特征统计方法 (multi-level statistical local feature,MSLF),并将BCS算法进行了核扩展。首先用LBP提取图像特征后,然后根据提取特征值的范围分段,根据每一段来统计局部的特征个数,并结合SPM思想,分层统计每幅图像[19],最后将得到的训练集和测试集利用直方图交叉核映射到核空间,利用核贝叶斯压缩感知算法(kernel Bayesian compressive sensing,KBCS)分类。本文提出的算法能克服各种人脸环境的变化,算法识别率和效率有很大的提高。
1 MSLFMSLF的主要思想是图像集经过LBP一致模式[6]提取层特征,然后分层统计局部特征。MSLF算法流程图如图 1所示。
从图 1可以看出,MSLF算法主要由2个步骤组成:(1)图像初始特征提取采用传统LBP一致模式方法。(2)图像特征分层进行局部统计。
1.1 LBP一致模式首先用LBP一致模式进行图像集第一层特征的提取,假设一幅图像中3×3 邻域区域像素分布为T=t(gc,g0,…,gp-1),其中gc为区域中心点的像素,gc,g0,…,gp-1为以R为半径的周围相邻等距离的P个像素点,这个区域内的图像纹理用联合密度分布函数定义,其表达式为:
$T\approx t(s({{g}_{0}}-{{g}_{c}}),\ldots ,s({{g}_{p-1}}-{{g}_{c}})),$ |
式中:
对每个 s(gi-gc) 分配一个权值2,则LBP算子可以唯一的表示为:
$\text{LB}{{\text{P}}_{\text{PR}}}=\sum\limits_{i=0}^{P-1}{s\left( {{g}_{i}}-{{g}_{c}} \right){{2}^{n}}}$。 |
一致模式的LBP 规定0到1或1到0的转变次数最多只能为两次,则一幅图像一致局部二值模式(LBP)提取特征表达式为:
$\text{LBP}_{\text{PR}}^{{{u}_{2}}}=\left\{ \begin{align} & \sum\limits_{i=0}^{P-1}{s\left( {{g}_{i}}-{{g}_{c}} \right),U\left( \text{LB}{{\text{P}}_{\text{PR}}} \right)\le 2,} \\ & P+1,其他, \\ \end{align} \right.$ |
式中:U为度量,
假设当P=8,R=2时,原来LBP 模式下对应图像的特征为256维,采用一致LBP模式图像特征变为59维。
1.2 分层局部统计在用一致LBP模式提取特征后,进行分层的局部特征统计,为了得到不同空间尺度的信息,利用空间金字塔的思想,如将图像分为L层,每层图像又分割22Li块,其中Li表示第Li层,i∈{0,1,…,L}。将N维图像分成m个区间后,即可根据每层中的每块像素在m个区间的数量表示图像特征。
分层局部特征统计具体如图 1所示,一致LBP模式提取特征后的图像为59维,分m=16个区间。一幅图像分为L=3层,其中L0为1块,L1层为4块,L2层为16块,然后分别统计L0层、L1层和L2层中每块的数值在16个区间分布的个数。在降维的同时还很大程度上减少了信息的丢失。最后将不同空间尺度的信息的特征串接起来,就得到一幅图像的特征向量。
2 贝叶斯压缩感知与核扩展 2.1 直方图交叉核核方法可以将非线性不可分的特征映射到高维特征空间,在高维特征空间不同的类可以很容易分开,假设采用多层局部统计方法提取图像的特征,得到训练样本Φ=[φ1,…,φn],测试样本Y=[y1,…,ym],Φ也称为字典,φi表示字典中的一个原子。则通过直方图交叉核函数,训练集和测试集投影映射变为(Φ)=[(φ1),…,(φn)],(Y)=[(y1),…,(ym)],其中直方图交叉核函数的表达式[16]为:
$k\left( Y,Y \right)=\sum\limits_{i=1}^{m}{\min \left( {{y}_{i}},{{y}_{i}} \right),}$ | (1) |
式中:yi是Y的第i个特征值。根据公式(1),Φ和Y的直方图交叉核可写为:K(Φ,Y)=(Φ)T(Y)。
2.2 KBCS根据压缩感知理论[8],对于信号Y=[y1,…ym],可以用字典中的一组原子线性表示,含有噪声的模型可表示为:
$Y=\Phi W+\varepsilon ,$ |
式中:Φ是字典;ε是满足Gaussian分布的噪声,ε~N(0,σ2);W=[w1,…,wn]是系数矩阵。则含有噪声模型Y的似然估计为:
$p\left( Y|\Phi ,W,{{\sigma }^{2}} \right)=(2\pi {{\sigma }^{2}})\text{exp}\left\{ \frac{{{\left\| Y-\Phi W \right\|}^{2}}}{-2{{\sigma }^{2}}} \right\}$。 |
将含有噪声的模型映射到核空间后信号的表示变为:
$\left( Y \right)=\phi \left( \Phi \right)W+\varepsilon $。 |
同理噪声模型φ(Y)的似然估计为:
$\left( 2\pi {{\sigma }^{2}} \right)\exp \left\{ \frac{{{\left\| \phi \left( Y \right)-\phi \left( \Phi \right)W \right\|}^{2}}}{-2{{\sigma }^{2}}} \right\}$ | (2) |
从式(2)可知,要通过对稀疏矩阵W和噪声方差σ2的估计,从而重构得到信号(Y)。
根据贝叶斯中后验概率密度函数[11]以及超参数的多层结构定义,可得稀疏矩阵W 的先验公式为:
$p\left( W|\alpha \right)=\prod\limits_{i=1}^{N}{N\left( {{w}_{i}}|0,{{\alpha }^{-1}} \right),}$ | (3) |
式中N(wi|0,α-1)是均值为0的高斯密度函数。
式(3)中α=[α1,α2,…,αN]T的先验定义为伽马分布:
$p\left( \alpha |a,b \right)=\prod\limits_{i=1}^{N}{\Gamma \left( {{\alpha }_{i}}|a,b \right)}$。 | (4) |
由公式(3)(4),可推导出稀疏矩阵W的先验概率密度函数
根据公式(2)(3),进一步推导出稀疏矩阵W的表达式为:
$p\left( W|P,\alpha ,{{\alpha }_{0}} \right)=N\left( \mu |\Sigma \right),$ | (5) |
式中:
对于超参数α0和α,可用边缘似然最大化来求解,公式为:
$\begin{align} & L(\alpha ,{{\alpha }_{0}})=\text{lb}p(\phi \left( Y \right)|\alpha ,{{\alpha }_{0}})= \\ & \text{lb}\int_{-\infty }^{\infty }{p(\phi \left( Y \right)|W,{{\alpha }_{0}})p\left( W|\alpha \right)dW=} \\ & -\frac{1}{2}[k\text{lb}2\pi +\text{lb}\left| C \right|+K({{Y}^{T}},Y){{C}^{-1}}], \\ \end{align}$ | (6) |
式中:C=σ2I+K(ΦT,Φ)A-1,σ2=1/α0 。
通过期望最大化求解式(6)得到α和α0分别为:
$\alpha _{i}^{\text{new}}=\frac{{{\gamma }_{i}}}{\mu _{i}^{2}},1/\alpha _{0}^{\text{new}}=\frac{\left\| \phi \left( Y \right)-\phi \left( \Phi \right)\mu \right\|_{2}^{2}}{K-\sum\limits_{i}{{{\gamma }_{i}}}0},$ |
式中:μi由公式(5)得到;γi=1-αi
核贝叶斯压缩感知算法的具体步骤为:
算法1: KBCS
输入 训练集Φ,测试集Y=[y1,…yN] 。
输出 Y的类。
(1) 训练集Φ、测试集Y投影到高维特征空间,初始化{αi}和σ2 ;
(2) 通过公式计算μ和Σ,其中μ=α0ΣK(ΦT,Y),Σ=(α0K(ΦT,Φ)+A)-1;
(3) 通过
(4) 回到步骤(2),直到收敛;
(5) 找出权重非的样本,算出相关参数;
(6) 用计算出来且收敛的αMP和σMP2对新数据Y*做预测:
$P\left( \phi \left( {{Y}^{*}} \right)|\phi \left( Y \right) \right)=\int P(\phi \left( {{Y}^{*}} \right)|W,\sigma _{\text{MP}}^{2})P(W|{{\alpha }_{\text{MP}}}\sigma _{\text{MP}}^{2})\text{d}W$ |
为验证MSLF算法和KBCS算法的有效性,在AR和FERET人脸库上分别进行光照、伪装、姿势等试验,并与LBP[6]、SRC[9]、BCS[12]、KSRC[10]进行比较。试验平台为i5处理器,主频2.4 GHz,8 G内存,MATLAB2014a。
3.1 AR数据库AR数据库中含2 600幅不同光照、表情和伪装变化的人脸图像,每人26幅图像,共100人,部分图像如图 2所示。AR数据库分为两部分,两部分基本相似,第一、二部分的前1~7幅图像是表情、光照的变化,本文用第一部分前7张做训练集(700张),然后各取第一部分的第8~10幅戴眼镜和第11~13幅戴围巾人脸图像(各300张),第二部分的第8~10幅戴眼镜和第11~13幅戴围巾人脸图像(各300张),分别用来做测试集,将人脸规格化为83×60像素大小的图像。试验结果如表 1所示。
从表 1可以看出:分类算法用MSLF 做特征提取,人脸识别率明显高于LBP方法,如MSLF+BCS算法识别率高出LBP+BCS算法8%~12%,说明MSLF方法提取图像的特征纹理信息更适用于分类,能很好的克服人脸图像的伪装遮挡。同时对于同一特征提取方法,BCS分类算法和KBCS要明显好于其他分类算法,说明相比于其他算法,本文提出的算法能更好的克服人脸光照和遮挡等变化。
3.2 FERET数据库本试验使用FERET姿势人脸数据库,FERET数据库中包含1 400幅不同姿势、表情和光照变化的人脸图像,共来自200人,每人7幅图像如图 3所示。为了方便,将7幅图像分别标记为正常、光照、表情、左25°、左15°、右15°、右25°、本试验选正常、光照、表情作为训练集,余下4个不同姿势角度分别作为测试集。
图像裁剪为80×80像素,试验结果如表 2所示。由表 2可以看出,对于偏转角度分别为左15°和右15°时,MSLF+BCS算法识别率达到了97.05%和86.57%。对于左25°和右25°,因为人脸偏转幅度较大,算法识别率整体有所下降。但本文算法的识别率依然比其他算法高出至少20%。因为LBP不能克服图像的不匹配问题,所以与LBP结合的分类算法效果都不很理想,而对于MSLF算法,因为空间金字塔可以提取不同尺度的空间特征信息,在一定程度上能提高算法的稳定性,使得与MSLF结合的算法识别率明显高于其他算法。
本研究提出的KBCS方法与SRC、KSRC、BCS在FERET和AR人脸数据库上,试验运行的总时间如表 3所示。由表 3中可知,BCS算法的运行时间最长,因为超参数的引入,最大化后验概率在高维数据中找最优解时,会花费很多时间;核方法虽然开始把训练集合和测试集投影到核空间要花费一点时间,但是在后面分类时,却可以大大减少时间; KSRC算法时间最短;KBCS算法运行时间与KSRC相差不大,BCS算法的运行时间超过KBCS算法10倍。说明KBCS运用核,使算法效率更快。
本研究结合局部特征统计与空间金字塔的思想,提出了一种MSLF方法,并将BCS进行核扩展后用于分类。在AR和FERET二个标准的人脸库上试验结果证明,本文提出的算法对人脸光照、姿态和伪装等变化有较强的鲁棒性,人脸识别中姿态变化依然是个棘手的问题,进一步改进算法的性能是未来工作的重点。
[1] | FENG Zhizhao, YANG Meng, ZHANG Lei, et al. Joint discriminative dimensionality reduction and dictionary learning for face recognition[J]. Pattern Recognition,2013, 46 (8) : 2134-2143. (0) |
[2] | MING D, SAN A, CHELLAPPA C R. Robust face recognition from multi-view videos[J]. IEEE Biometrics Compendium,2014, 3 (23) : 1105-1117. (0) |
[3] | TURK M, PENTLAND A. Eigenfaces for recognition[J]. Journal of Cognitive Neuroscience,1991, 3 (1) : 71-86. (0) |
[4] | BELHUMEUR P, HESPANHA J, KRIEGMA D. Eigenfaces vs. fisherfaces: recognition using class specific linear projection[J]. IEEE Transon Pattern Analysis and Machine Intelligence,1997, 19 (7) : 711-720. (0) |
[5] | YANG Mei, ZHANG Lei, SHIU S, et al. Robust kernel representation with statistical local features for face recognition[J]. IEEE Transactions on Neural Networks and Learning Systems,2013, 22 (6) : 900-912. (0) |
[6] | OJALA T, PIETIKINEN M, MAENPPA T. Multiresolution gray-scale and rotation invariant texture classification with local binary pattern[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002, 24 (7) : 971-987. (0) |
[7] | NOWAK E, JURIE F, TRIGGS B. Sampling strategies for bag-of-eatures image classification[C]//European Conference on Computer Vision. Graz, Austria: Heidelberg, 2006, 2:490-503. (0) |
[8] | DONOHO D L. Compressed sensing[J]. IEEE Trans on Information Theory,2006, 52 (4) : 1289-1306. (0) |
[9] | WRINGHT J, YANG A, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2009, 31 (2) : 210-227. (0) |
[10] | LI Y F, NGOM A. Sparse representation approaches for the classification of high-dimensional data[J]. BMC Systems Biology,2013, 7 (4) : 114. (0) |
[11] | GAO S, TSANG W H, CHIA L T. Kernel sparse representation for image classification and face recognition[C]//European Conference on Computer Vision 2010. Crete, Greece: Heidelberg, 2010:1-14. (0) |
[12] | JI S H, XUE Y, CARIN L. Bayesian compressive sensing[J]. IEEE Trans on Signal Processing,2008, 56 (6) : 2346-2356. (0) |
[13] | ZHANG Zhilin, JOLLA L, JUNG T P, et al. Spatiotemporal sparse Bayesian learning with applications to compressed sensing of multichannel physiological signals[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering,2014, 22 (6) : 1186-1197. (0) |
[14] | WU Q, ZHANG Y D, AMIN M G, et al. Multi-task Bayesian compressive sensing exploiting intra-task dependency[J]. IEEE Signal Processing Letters,2015, 22 (4) : 430-434. (0) |
[15] | LIAN H. Sparse Bayesian hierarchical modeling of high-dimensional cluster problems[J]. Journal of Multivariate Analysis,2010, 7 (1) : 1728-1737. (0) |
[16] | KVRIAKIDES I, PRIBIC R. Sampling size in monte carlo Bayesian compressive sensing[C]//Sensor Array and Multichannel Signal Processing Workshop(SAM). ACorua, Spain:IEEE, 2014:397-400. (0) |
[17] | BI H, JIANG C, ZHANG B. Radar change imaging with undersampled data based on matrix completion and Bayesian compressive sensing[J]. Geoscience and Remote Sensing Letters,2015, 12 (7) : 1546-1550. (0) |
[18] | LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing naturalscene categories[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2006:2169-2178. (0) |
[19] | WANG W, CHENG C W, XU D. Pyramid-based multi-scale LBP features for face recognition[C]//IEEE International Conference on In Multimedia and Signal Processing. Guilin, China: IEEE, 2011:151-155. (0) |
[20] | BARLA A, ODONE F, VERRI A. Histogram intersection kernel forimage classification[C]//Proceedings of the International Conference on Image Processing. Barcelona, Spain: IEEE, 2003:513-516. (0) |