在人脸识别中,人脸图像的有效表示是模型性能的保证。虽然图像的灰度值作为特征在某些应用中取得了一定的效果,如非负矩阵分解[1]和稀疏表示分类器[2]等。但是,它们通常要求所有图像是对齐的或者图像中具有语义的特征是对应的,这在实际应用中很难实现。事实上,特征点对齐并不是一个简单的问题,作为一个独立的方向受到广泛研究,通常称为人脸对齐或者特征点位置估计。
人脸对齐问题的难点往往来自于每个特征点所在部件外观的多样性,即每个特征点所在的部件会受到光照、遮挡、表情等多种因素的影响。现有的方法往往基于对人脸特征点所在局部区域的外观,以及人脸形状空间建立生成模型,即外观模型和形状模型[3]。因此,面部特征点定位问题就转化为根据已有的人脸图像和特征点坐标,设计一个模型来最
优重建一个未见过的人脸图像上特征点位置。主动形状模型(active shape model,ASM)是人脸特征点定位方法中最有名的方法之一[4],通过特征点分布的统计信息,获取特征点允许存在的变化方向,藉此实现对未知图像中各个特征点位置的估计,并基于主成分分析(principle component analysis,PCA)[5]建立面部特征点的形状模型,通过一组关于控制人脸形状变化的参数拟合出未知人脸图像的特征点位置。
文献[6]提出一种新的针对非刚体人脸形变的特征点定位方法,即约束局部模型(constrained local model,CLM)。ASM通过一维的响应值局部搜索最优特征点位置,CLM可以看作是ASM在外观模型上的推广,CLM通过二维的响应图搜索。CLM之所以受到广泛关注,主要有以下两个原因:(1)藉由某个特征检测器给出的响应图,全面搜索每个特征点位置附近的区域;(2)点分布模型的参数优化与寻找所有特征点位置可以同时进行。因此,很多关于特征点定位的研究都是基于CLM的[7-10]。
因为 CLM提出的新外观模型极大的改善了特征点定位的精度,因此大量研究都集中在建立更加鲁棒的特征点响应值分布模型[7-9]。虽然这些方法在一定程度上取得了成功,但是忽视了CLM模型中另外一个重要的组成部分——形状模型。目前,面部特征点定位方法中约束形状的拟合部分通常采用以PCA为基础的点分布模型,即通过人脸形变的主分量重建目标形状的非刚性形变。虽然PCA具有简单高效等优点,但存在的缺点也非常明显,例如无法处理非线性的数据结构。对此,结合局部坐标编码(Local coordinate coding,LCC)[11]理论以及特征点坐标向量空间的流形结构,本文提出了一种新的特征点形状拟合方法——基于流形[12]的约束局部模型拟合。
1 基于局部切空间排列的约束局部模型拟合 1.1 人脸形状的流形结构CLM模型通常看作由两部分组成,首先是判别地训练局部模板用于生成每个特征点的响应图,其次是结合响应图和形状共同优化得到未知人脸图像的形状。其中,关于形状拟合部分采用的是点分布模型(point distribution model,PDM),具体的说,就是通过线性方式对非刚性形状变化建模,即
${{x}_{i}}==sR\left( {{{\bar{x}}}_{_{i}}}+{{\Phi }_{i}}q \right)+t,$ | (1) |
式中:xi表示第i个特征点在图像中的二维坐标;s为尺度变换; R为旋转矩阵;
从点分布模型可以看出,对于未知人脸的形状拟合,PCA起到了重要的作用,即人脸形状的非刚性形变的重建完全取决于人脸形状空间中训练集人脸形状的主分量。得出形变主分量的前提假设是人脸形状空间中的数据是线性结构分布。事实上,由于人脸形状中存在大量的非刚性形变,形状向量之间很可能存在流形结构。这需要试验验证。
图 1是在PUT数据库[13]上(为了简便起见,随机选择了其中的1200张图片以及194个特征点中的61个点用于试验)用等距映射(isometric map,ISOMAP)[14]将所有的形状向量投影到二维空间上的结果,其中每个点对应一个人脸形状向量,每个星形符号对应的人脸形状向量按照横纵坐标差异分别展示在坐标轴的下方和右侧(展示的人脸形状向量都被规整化到相同的尺度)。
由图 1可以知,横坐标上人脸形状体现出姿态变化,即从左向右随横坐标逐渐变大,人脸姿态从左向右发生了旋转;而纵坐标上体现出的是人脸形状宽度的变化,即从上到下随着纵坐标逐渐变小,人脸形状越来越宽。因此,在约束目标形状时,应当将形状向量之间的流形结构嵌入到点分布模型中。
1.2 局部切空间排列流形学习的初衷是数据结构可视化,即将高维数据降维到人类可以观察的低维空间了解数据的分布情况。目前,流形学习方法主要通过两个方面把握数据的流形结构:(1)度量样本之间的测地距离;(2)投影变换的二阶微分。局部切空间排列(local tangent space alignment,LTSA)[15]采用的是一种类似于平滑投影变换的方式,但又有明显的不同。具体来说,LTSA假设对于原空间中每个数据的邻域,其切平面近似地等价于其子流形结构,通过分别对每个子空间进行变化得到子流形坐标。而全局的流形结构只需要按照顺序将这些子流形整合到统一的坐标下表示。具体步骤为:
(1) 构建子流形
分别对每个小邻域给出一个流形,计算式为:
$\begin{align} & \underset{\tau ,{{L}_{c}}}{\mathop{min}}\,\sum\limits_{i}{\sum\limits_{j}{\|{{\tau }_{ij}}-{{\tau }_{i}}-L_{_{_{c}}}^{^{(i)}}\left( {{x}_{ij}}-{{x}_{i}} \right)\|}}\Leftrightarrow \\ & \underset{{{T}_{i}},{{L}_{c}}}{\mathop{min}}\,\sum\limits_{i}{{}}\|{{T}_{i}}-\bar{T}-L_{c}^{\left( i \right)}({{X}_{i}}-{{x}_{i}}e_{k-1}^{T}){{\|}_{F}}, \\ \end{align}$ | (2) |
式中: xij为xi邻域内的点,即xij∈N(xi);τij和τi分别是xij和xi在子流形上对应点;L(i)c 为关于点xi的子空间仿射变换;ek-1为k-1个1组成的列向量;k为邻域中包含点的总数;Ti为τij构成的矩阵;
进一步,令Ii=I′k-1-Iiek-1T,
$\underset{T,{{L}_{c}}}{\mathop{min}}\,\sum\limits_{i}{\|{{T}_{i}}J-L_{_{c}}^{\left( i \right)}{{X}_{i}}{{I}_{i}}{{\|}_{F}}。}$ | (3) |
(2) 子流形全局对齐
由于每个小邻域在对应的子流形上各有独立的坐标系统,这一步的目标是将这些坐标系统统一起来,用一个共同的坐标系表示,也就是希望得到的全局流形坐标在局部上与子流形坐标一致,即
$\begin{align} & \underset{T}{\mathop{min}}\,\sum\limits_{i}{\|T{{S}_{i}}-{{T}_{i}}{{\|}_{F}}}, \\ & s.t.\text{ }T{{T}^{T}}=I, \\ \end{align}$ | (4) |
式中:T为流形的全局坐标;Si为子流形中的点Ti在全局坐标T中的位置矩阵。
最终,结合式(3)(4),得到LTSA的模型
$\begin{align} & \underset{T,{{L}_{c}}}{\mathop{min}}\,\sum\limits_{i}{\|T{{S}_{i}}J-L_{_{c}}^{^{\left( i \right)}}{{X}_{i}}{{I}_{i}}{{\|}_{F}}}, \\ & s.t.\text{ }T{{T}^{T}}=I。 \\ \end{align}$ | (5) |
目标形状向量拟合在特征点定位中的作用主要是通过PDM重建目标形状的非刚性形变,由于训练集形状向量之间的流形结构,基于线性数据结构假设的PDM无法将流形结构融入CLM中。事实上,根据局部坐标编码(LCC)对稀疏表示的研究发现,在样本的重建中起主要作用的往往是目标样本邻域内的其他样本。因此,为了能够有效的约束目标形状,应当找出真实形状坐标向量对应的局部子流形,并利用其对应训练集形状向量拟合目标,公式为:
${{x}_{k}}=\underset{{{x}_{i}}}{\mathop{argmax}}\,\|{{x}_{0}}-{{x}_{i}}\|,i=1,2,\cdots ,$ | (6) |
式中:{xi,i=1,2,…}为原空间的训练形状集;x0为目标形状向量;xk为原空间中与目标形状最相近的训练形状向量。那么目标形状在流形空间中的表示为:
${{\mu }^{M}}=L_{_{c}}^{k}\times {{x}_{0}},$ | (7) |
式中:Lck为xk所在子流形空间的投影函数;μM为x0在流形空间中的表示。
但是,由特征点响应值分布估计的未知人脸图像特征点坐标,不可避免地存在噪声,目标形状向量最相近的子流形未必包含真实的形状向量。对此,在响应值图相对可靠的情况下,目标形状与真实的形状相差不大,于是只需要找出足够多的与目标形状相近的形状,使其能够覆盖真实形状所在的局部子流形。具体来说,在流形空间中对所有的形状进行聚类,在流形空间中计算目标形状与各类中心之间的距离,距离目标形状最近的类能够包含真实形状。然而,该类中不可避免的包含大量的冗余,因此,需要进一步筛选用于拟合的形状向量,用较为稀疏表示来实现。
于是,基于流形的点分布模型
$\begin{align} & \underset{\left\{ s,q,R,t \right\}}{\mathop{min}}\,\lambda \|q{{\|}_{1}}+\|x-\mu {{\|}^{2}},\text{ } \\ & s.t.\text{ }x=sR\left( \bar{x}+\psi q \right)+t, \\ \end{align}$ | (8) |
式中:μ={μ1,μ2,…}为各特征点响应图给出的特征点可能的坐标 ;ψ为覆盖真实形状向量的子流形中的训练集形状向量组成的矩阵;λ为稀疏度正则化参数。
最终,基于流形的约束形状模型拟合算法流程如下:
算法 1 基于流形的约束形状模型拟合
输入 人脸形状坐标向量训练集{xi},由局部响应图得到的目标形状坐标向量μ。
步骤:
(1) 通过式(5)给出{xi}的低维流形空间中样本的坐标T以及相应的子流形投影矩阵集{Lc(i)}。
(2) 根据式(6)(7),找出在流形空间中与目标形状坐标向量μ最近的局部子流形以及对应的局部投影矩阵Lck,从而得到目标形状在流形空间中的坐标向量μM。
(3) 在流形空间中对所有的训练集形状利用k-means聚类,并用l2-范数计算μM到各类中点的距离,以此找出流形空间中与目标形状最相近的子流形簇{s1,s2,…,sn},其中n为近邻子流形个数。
(4) 在原空间中找出与{s1,s2,…,sn}对应的训练形状向量集{x1,x2,…,xn},组合成形状坐标向量基矩阵ψ。
(5) 通过式(8)稀疏重建目标形状坐标向量。
2 试验 2.1 数据库及参数设定为了验证本文提出的方法的有效性,主要在2个公共数据库上进行了一系列的实验。
(1) LFPW数据库
LFPW数据库的全称为自然条件下标注的人脸部件(Labeled Face Parts in the Wild)图片数据库[9],其中的图片来自于网络,并且受到姿态、光照、表情、遮挡等各种噪声影响。每张人脸图片包含29个特征点。由于数据库网站提供的图片下载链接中存在很多无效的地址,只下载了1 000张训练图片中的833张,以及300张测试图片中的232张用于试验。
(2) LFW数据库
LFW数据库的全称为自然条件下标注的人脸(Labeled Face Parts in the Wild)图片数据库[16],包含通过网络搜集来的13233张来自于5749个人的低分辨率的人脸图像。LFW数据库主要用于人脸识别和人脸验证。为了将其用于人脸特征点位置估计,文献[17]对每张图像都标注了10个主要特征点。在试验中,为了便于度量各方法的性能,进一步增加了2个关于瞳孔的特征点位置,因此,每张图片包含12个特征点。
图 2给出了2个数据库的人脸图像及相应特征点位置样例。
由于本文方法存在多个参数,考虑到人脸定位的实时性要求,简化了调参过程,简单地将2个数据的低维流形维度都设为2,近邻子流形的个数都设为1,聚类个数都设为5,LTSA中邻点个数都为8,λ设为0.01。
2.2 模拟数据试验由于本文方法集中于形状拟合部分,与特征点在响应图中的分布关系不大,因此,在与基于PCA的PDM比较时,首先在模拟数据集上进行试验以排除外观模型带来的影响。以LFPW[16]数据库为基础,将测试图像真实的人脸形状坐标向量经过扰动作为目标形状向量,分别用基于PCA的PDM模型和基于流形的PDM模型进行拟合。部分扰动之后的特征点位置如图 3所示,其中蓝色点为真实的特征点位置,红色点为经过扰动之后的结果。
用拟合之后的形状坐标向量与真实形状坐标向量之间的各特征点平均像素误差err(i)来衡量两种方法,即
$err\left( i \right)=\frac{1}{N}\sum\limits_{j}{{}}\|x_{i}^{j}-o_{i}^{j}\|,$ | (9) |
其中,xij 为第j个测试图像的第i个特征点拟合后得到二维坐标;oij 为其对应的真实二维坐标,N为测试样本个数。图 4给出了两种方法在每个特征点上的平均像素误差。
由图 4可以看出,与基于PCA拟合方法相比,基于流形的拟合方法在29个特征点上与真实坐标的误差更小:基于PCA的拟合方法得到的形状向量在每个特征点上与真实形状向量之间的误差平均为5.2个像素,而基于流形的拟合方法为3.7个像素。
2.3 LFPW与LFW数据库上的试验在模拟数据集的试验中,扰动得到的目标形状坐标与真实形状坐标差距很大,而现有的外观模型已经能够得到接近真实形状的坐标,因此,为了比较在目标形状坐标与真实形状坐标偏差较小的情况下两种拟合方法的差异,在LFPW和LFW上用具有不同PDM的CLM进行试验。
图 5分别展示了2种CLM在2个数据库上每个特征点的差异,这里采用规整化的均方误差(NRMSE)衡量两种方法的性能,即特征点平均像素误差与瞳距的比,计算式为:
$NRMSE\left( i \right)=\frac{1}{N\times l}\sum\limits_{j}{\|x_{i}^{j}-o_{i}^{j}\|},$ | (10) |
式中l为人脸图像中真实眼睛中心坐标之间的距离。
为了直观的展示2种拟合方法对CLM模型的影响,在2个数据库上部分展示了两种方法得到的特征点在人脸图像上的位置,如图 6所示。其中,白色的点为真实特征点位置,蓝色的点为基于PCA的CLM拟合方法得到的特征点位置,红色的点为基于流形的CLM拟合方法得到的特征点位置。
由于相同的特征点响应值分布,遮挡与光照对两种拟合方式没有太大影响。同时,正面人脸图像相对简单,两种方法都得到人脸形状与真实情况相差较小。但根据LCC理论,本文方法对参与拟合的形变向量根据流形进行了筛选,得到的形状显然更加接近于真实的形状。
2.4 试验结果讨论本文方法是在流形空间中利用稀疏重建的方式来拟合目标形状向量。事实上,结合稀疏表示和LCC,可以通过多种方式实现目标形状的拟合,这里给出几种其他拟合策略:
(1) 在流形空间中利用稀疏表示找出相邻的训练集形状,并将这些形状投影回原空间重建目标形状向量;
(2) 直接在原空间中利用稀疏重建来拟合目标形状向量。
为了比较几种拟合方式的差异,根据试验给出几种拟合策略的性能比较,如表 1所示。
由表 1可知,本文方法相比于其他两种方法更有效。理论上来说,拟合策略(2)与本文方法最相近,但是,由于稀疏表示中缺乏局部性,缺少了LCC的理论支撑,因此拟合效果并不好。对于拟合策略(1),由于LTSA是不保距的,会造成数据在流形空间中的尺度变换,这在很大程度上影响拟合的鲁棒性。总的来说,本文方法通过流形空间选择相邻样本用于重建,有效的结合了原空间与流形空间的优势,因此能够得到更好的性能。
3 结语现有的局部约束模型,虽然在特征点响应值分布方面做了大量的工作,但是在点分布模型方面,依然是以主成分分析为主。事实上,在人脸形状向量空间中,人脸形状向量并不是以线性结构分布的,人脸形状之间存在一定的流形结构。同时,目标形状坐标中存在噪声,而将全局形变用于目标形状重建显然不够鲁棒。对此,本文提出了基于流形的约束局部模型,利用LTSA在流形空间中找出目标形状与训练集形状的关系,并根据局部坐标编码中的分析利用相近的训练集形状来拟合目标形状向量,从而有效改进了局部约束模型中点分布模型存在的弊端。
[1] |
杜吉祥, 余庆, 翟传敏. 基于稀疏性约束非负矩阵分解的人脸年龄估计方法[J].
山东大学学报(理学版),2010, 45 (7) : 65-69.
DU Jixiang, YU Qing, ZHAI Chuanmin. Age estimation of facial image based on non-negative matrix factorization with sparseness constraints[J]. Journal of Shandong University (Nature Science),2010, 45 (7) : 65-69. (0) |
[2] |
夏海英, 杜海明, 徐鲁辉, 等. 基于自适应词典学习和稀疏表示的人脸表情识别[J].
山东大学学报(工学版),2014, 44 (1) : 45-48.
XIA Haiying, DU Haiming, XU Luhui, et al. Facial expression recognition based on adaptive dictionary learning and spares representation[J]. Journal of Shandong University (Engineering Science),2014, 44 (1) : 45-48. (0) |
[3] | SARAGIH J M, LUCEY S, COHN J F, et al. Deformable model fitting by regularized landmark mean-shift[J]. International Journal of Computer Vision,2011, 91 (2) : 200-215. (0) |
[4] | COOTES T F, TAYLOR C J, COOPER D H, et al. Active shape models-their training and application[J]. Computer Vision and Image Understanding,1995, 61 (1) : 38-59. (0) |
[5] | JOLLIFFE I. Principal component analysis[M]. New York: John Wiley & Sons, Ltd., 2002 . (0) |
[6] | CRISTINACCE D, COOTES T F. Feature detection and tracking with constrained local models[C]//Proceedings of the 17th British Machine Vision Conference.Edinburgh: BMVC, 2006: 929-938. (0) |
[7] | MARTINS P, CASEIRO R, HENRIQUES J F. Likelihood-enhanced Bayesian constrained local models[C]//Proceedings of the 21st IEEE International Conference on Image Processing.Paris: ICIP, 2014: 303-307. (0) |
[8] | ASTHANA A, ZAFEIROU S, CHENG S. Robust discriminative response map fitting with constrained local models[C]//Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Columbus: CVPR, 2013:3444-3451. (0) |
[9] | BELHUMEUR P N, JACOBS D W, KRIEGMAN D J. Localizing parts of faces using a consensus of exemplars[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2013, 35 (12) : 2930-2940. (0) |
[10] | CAO X, WEI Y, WEN F. Face alignment by explicit shape regression[J]. International Journal of Computer Vision,2014, 107 (2) : 177-190. (0) |
[11] | YU K, ZHANG T, GONG Y. Nonlinear learning using local coordinate coding[C]//Proceedings of the 22nd Advances in neural information processing systems. Vancouver: NIPS, 2009:2223-2231. (0) |
[12] |
杜世强, 石玉清, 王维兰, 等. 基于流形正则化判别的因子分解[J].
山东大学学报(理学版),2013, 48 (5) : 63-69.
DU Shiqiang, SHI Yuqing, WANG Weilan, et al. Manifold regularized-based discriminant concept factorization[J]. Journal of Shandong University (Nature Science),2013, 48 (5) : 63-69. (0) |
[13] | KASINSKI A, FLOREK A, SCHMIDT A. The PUT face database[J]. Image Processing and Communications,2008, 13 (3-4) : 59-64. (0) |
[14] | TENENBAUM J B, DE Silva V, LANGFORD J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science,2000, 290 (5500) : 2319-2323. (0) |
[15] | ZHANG Z, ZHA H. Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. Journal of Shanghai University:English Edition,2004, 8 (4) : 406-424. (0) |
[16] | HUANG G B, RAMESH M, BERG T. Labeled faces in the wild: a database for studying face recognition in unconstrained environments[R]. Amherst, USA: University of Massachusetts, 2007: 7-49. (0) |
[17] | DANTONE M, GALL J, FANELLI G. Real-time facial feature detection using conditional regression forests[C]//Proceedings of the 25th IEEE Conference on Computer Vision and Pattern Recognition. Rhode Island, USA: CVPR, 2012: 2578-2585. (0) |