文章快速检索     高级检索
  山东大学学报(工学版)  2017, Vol. 47 Issue (4): 7-13  DOI: 10.6040/j.issn.1672-3961.0.2016.466
0

引用本文 

黄炎辉, 樊养余, 苏旭辉. 基于单目RGB摄像机的三维人脸表情跟踪算法[J]. 山东大学学报(工学版), 2017, 47(4): 7-13. DOI: 10.6040/j.issn.1672-3961.0.2016.466.
HUANG Yanhui, FAN Yangyu, SU Xuhui. 3D facial expression tracking using a monocular RGB camera[J]. Journal of Shandong University (Engineering Science), 2017, 47(4): 7-13. DOI: 10.6040/j.issn.1672-3961.0.2016.466.

基金项目

陕西省科技统筹创新工程重点实验室资助项目(2013SZS15-K02);陕西省自然科学基金资助项目(2015JM6317)

作者简介

黄炎辉(1985—), 男, 山东泰安人, 博士研究生, 主要研究方向为人脸建模, 计算机视觉, 图像处理.E-mail:yanhuihuang_nwpu@sina.com

通讯作者

樊养余(1960—), 男, 陕西西安人, 教授, 博导,主要研究方向为虚拟现实, 图像处理.E-mail:fan_yangyu@nwpu.edu.cn

文章历史

收稿日期:2016-12-14
网络出版时间:2017-04-16 21:31:06
基于单目RGB摄像机的三维人脸表情跟踪算法
黄炎辉, 樊养余, 苏旭辉     
西北工业大学电子信息学院, 陕西 西安 710129
摘要:利用单目摄像机对人脸表情进行三维跟踪有两个关键问题, 一是从单幅图像中重建人脸的三维模型, 二是建立不同三维模型之间稠密的对应关系。针对上述问题, 提出一种有效的三维人脸表情跟踪算法。对输入的各帧人脸图像进行自动特征点检测, 并根据2D特征点, 利用Multilinear Model重建不同表情的三维模型。通过将三维模型重投影至图像空间, 计算各帧图像间的Optic Flow与Sift Flow对应。根据图像间的对应关系, 利用Laplacian网格变形对三维模型进行修正, 建立不同表情之间三维的稠密对应。试验表明, 该方法可以重建出较为真实的三维人脸表情模型, 同时可以精确跟踪连续变化的三维表情序列。
关键词三维人脸表情跟踪    Multilinear Model    Laplacian网格变形    
3D facial expression tracking using a monocular RGB camera
HUANG Yanhui, FAN Yangyu, SU Xuhui     
School of Electronics and Information, Northwestern Polytechnical University, Xi′an 710129, Shaanxi, China
Abstract: There were two key problems in tracking 3D facial expression using a monocular RGB camera. One was how to reconstruct 3D facial model from a single image, and the other was how to establish the dense correspondences between the different 3D models. To solve the above problems, an effective 3D facial expression tracking algorithm was proposed. The feature points were automatically detected on each input facial image frame, and the 3D models of different expressions were reconstructed by Multilinear Model according to 2D feature points. By re-projecting the 3D models into the image space, the Optic Flow and Sift Flow correspondences between images were calculated. According to the correspondences of the images, the 3D models were rectified by Laplacian mesh deformation, and the dense 3D correspondences between different expressions were established. The experimental results showed that the proposed method could create more realistic 3D expression models, and could accurately track the continuous change of the 3D expression sequence.
Key words: 3D facial expressions tracking    Multilinear Model    Laplacian mesh deformation    
0 引言

捕捉精确的人脸表情运动, 并重建真实感的三维人脸表情序列, 一直是计算机图形学领域追求的目标。由于人脸自身几何结构复杂, 同时具有丰富的表情变化, 建立时空一致的动态三维人脸模型仍然是研究中的一个难点。对人脸表情的三维跟踪主要有两个目标, 一是准确重建表情序列各帧的三维人脸几何模型, 二是建立模型之间的稠密对应关系, 即不同模型顶点都对应一致的人脸语义特征。早期的研究一般借助立体成像技术跟踪动态人脸表情, 例如:ZHANG等人[1]利用结构光扫描连续变化的目标人脸; HUANG等人[2]将深度扫描仪与人脸标记捕捉系统结合, 重建出高精度人脸表情动画; BEELER等人[3-4]建立了基于双目视觉的三维人脸重建与表情跟踪系统; BRADLEY等人[5]利用多视角几何重建恢复人脸的全局形状, 并利用双目相机记录人脸局部的细节变化; 迟静等人[6]提出针对动态点云的三维表情跟踪方法。这类方法往往需要复杂的成像与捕捉设备来建立时空一致性约束, 因而难以推广。

随着技术的发展, 研究人员在追求重建精度的同时, 也在致力于减轻对复杂成像设备的依赖。深度相机即RGBD相机可以同时记录人脸的深度信息与纹理变化, 基于RGBD相机的人脸表情跟踪算法[7-11]被相继提出。然而, 如今人脸视频往往通过移动端的输入设备获取(如手机摄像头), 利用单目RGB摄像机进行三维人脸表情的重建与跟踪成为目前主要的研究趋势。由于单目RGB摄像机缺少深度信息, 使得从二维RGB图像还原三维人脸成为一个欠定问题。对此, 研究人员主要使用具有人脸先验信息的参数模型如3D Morphable Model或Multilinear Model来解决。3D Morphable Model[12]是由一组中性人脸形状数据生成的主成分分析(principle component analysis, PCA)模型, 通过调整PCA参数生成不同形状的三维人脸。而Multilinear Model[13]则通过张量分解将人脸中性形状与表情形状解耦合, 使其具有更精确的重建效果。CAO等人[14-15]利用Multilinear Model来跟踪人脸表情变化, SHI等人[16]在此基础上增加了基于SFS的细节恢复来还原脸部的皱纹信息。然而CAO与SHI的方法仅对人脸表情序列建立了特征点级别的稀疏对应, 即在不同的人脸表情模型中, 仅在特征点附近的模型顶点具有一致的语义特征, 如嘴角、眼角与鼻尖等, 而在人脸的其他顶点则没有建立一致性。SUPASOM等人[17]通过Optic Flow来建立表情序列之间的稠密对应, FYFFE等人[18]则在此基础上进行了改进, 增加了关键帧选取, 来减少Optic Flow的漂移。但Optic Flow是计算输入图像序列前后帧的像素对应关系, 其求解过程要求像素的位移有平滑性约束, 但该约束并没有考虑人脸结构的变化, 从而使生成的表情对应并不准确。SIBBING等人[19]首先对不同表情图像建立三维模型, 再利用一张中性表情图像作为参考, 将其他表情图像通过网格变形与参考图像对齐, 最后通过Optic Flow计算中性表情与其他表情之间的对应。这一方法有效避免了Optic Flow自身平滑性的缺陷, 但由于人脸中性图像与不同表情图像之间纹理差异较大, 该方法仍难以建立准确的表情对应。

本研究提出一种新的基于单目RGB摄像机的三维人脸表情跟踪算法, 其流程框图如图 1所示。算法首先对输入图像序列进行二维特征点检测。在重建阶段, 利用检测的特征点通过Multilinear Model恢复三维人脸表情的形状与头部姿态。在跟踪阶段, 手动选取一帧近似中性表情的人脸作为参考帧, 并建立参考帧图像与后续帧图像之间的Optic Flow与Sift Flow对应, 最后通过网格Laplacian变形将后续每帧模型与参考模型对齐, 从而实现跟踪时各帧三维模型之间的一致对应。与其他方法[16, 19]相比, 本研究的主要贡献有两点:首先, 引入不同图像帧之间的Sift特征作为求解的约束条件, 可以有效减小纹理差异较大时的跟踪误差。其次, 将图像之间的Optic Flow、Sift Flow与网格Laplacian变形相结合, 从而把像素对应问题转换为网格变形问题, 在跟踪过程中可以保证网格变形的规则性, 避免出现畸形人脸。

图 1 三维人脸表情跟踪算法流程图 Figure 1 Pipeline for 3D facial expression tracking
1 人脸特征点检测

人脸特征点检测作为整个算法的初始环节, 其准确性直接影响到三维人脸的重建效果。本研究采用基于随机森林的级联式回归模型[20]检测2D人脸特征点。级联式回归模型以迭代的形式将若干弱回归器级联在一起, 使其具有非常强的非线性映射能力。该回归器使用随机森林在初始2D点附近抽取图像局部二值特征, 利用训练数据拟合局部特征与2D点位置残差的线性映射, 并将2D点的预测位置作为下一次线性回归的初始值, 通过多次迭代减少拟合残差。由于随机森林具有极强的泛化能力, 因此对各种人脸图像的特征点检测十分鲁棒。本研究通过对20000张标注人脸图片进行训练, 建立了7层级联的随机森林模型(共计2100棵树)检测人脸图像中的74个2D特征点。这些人脸特征点包含了人脸轮廓与内部区域的关键点, 如图 2所示, 其中轮廓特征点15个, 眉毛特征点12个, 眼睛特征点16个, 鼻子特征点12个, 嘴巴特征点19个。

图 2 人脸特征点定义(左1) 与检测结果 Figure 2 Facial feature points location (first one on the left) and detect results
2 三维人脸表情重建

在获得当前图像帧的2D特征点后, 对单幅图像中的人脸表情进行三维重建。由于单幅图像不包含深度信息, 直接从图像中恢复3D形状属于欠定问题, 因此需要引入人脸的先验信息作为约束。人脸PCA模型是经典的统计模型, 通过对3D人脸样本进行PCA分解, 使任意人脸可以表示为平均人脸加上主成分分量的线性组合。VLASIC等人[13]提出的Multilinear Model则在PCA模型的基础上进行了扩展, 将人脸形状的变化归纳为身份(identity)、表情(expression)与音素(viseme)三个维度, 并将3D人脸样本按照不同的维度排列对齐, 生成一个高阶张量, 通过张量SVD分解, 使任意人脸可以表示为张量核与三个维度权重向量的张量积

$\mathit{\boldsymbol{V}} = \mathit{\boldsymbol{Cr}}{ \times _{{\rm{id}}}}{\mathit{\boldsymbol{\omega }}_{{\rm{id}}}}{ \times _{{\rm{exp}}}}{\mathit{\boldsymbol{\omega }}_{{\rm{exp}}}}{ \times _{{\rm{vis}}}}{\mathit{\boldsymbol{\omega }}_{{\rm{vis}}}},$ (1)

其中: Cr为张量SVD分解后的张量核; ωid, ωexpωvis分别身份、表情与音素的权重向量; ×id表示在identity维度上的模乘; ×exp表示在expression维度上的模乘; ×vis表示在viseme维度上的模乘。Multilinear Model去除了引起人脸形状变化因素的相关性, 减少了模型本身的参数, 比PCA模型具有更高的重建精度。本研究利用FaceWareHouse数据库[12]中150个人脸47种表情, 建立了具有身份与表情两个维度的Multilinear Model, 对于任意人脸可由式(2) 重建出3D人脸模型

$\mathit{\boldsymbol{V}} = \mathit{\boldsymbol{Cr}}{ \times _{{\rm{id}}}}{\mathit{\boldsymbol{\omega }}_{id}}{ \times _{{\rm{exp}}}}{\mathit{\boldsymbol{\omega }}_{{\rm{exp}}}}。$ (2)

给定人脸图像中74个2D特征点{qi}, 记V中对应的3D顶点为{vi}, 则vi经过旋转、平移与透视投影后的2D坐标pi表示为

${p_i} = \mathit{\boldsymbol{Q}}\left( f \right) \cdot (\mathit{\boldsymbol{R}} \cdot {(\mathit{\boldsymbol{Cr}}{ \times _{{\rm{id}}}}{\mathit{\boldsymbol{\omega }}_{{\rm{id}}}}{ \times _{{\rm{exp}}}}{\mathit{\boldsymbol{\omega }}_{{\rm{exp}}}})^{(i)}} + \mathit{\boldsymbol{T}}),$ (3)

其中: Q(f)为透视投影矩阵, 设投影中心与图像中心对准, 则Q仅与相机焦距f相关; RT表示人脸在空间中的旋转矩阵与平移向量; (·)(i)表示抽取模型中第i个顶点坐标。为方便描述, 将相机焦距与人脸姿态合记为H={R, T, f}。以qipi的欧式距离为能量项Edata, 则从单张照片中恢复人脸姿态、3D形状与相机焦距可通过如下最小化约束问题计算

$\mathop {{\rm{arg}}\,{\rm{min}}}\limits_{\mathit{\boldsymbol{R}},{\rm{ }}\mathit{\boldsymbol{T}},{\rm{ }}\mathit{{f}},{\rm{ }}{\mathit{\boldsymbol{\omega }}_{{\rm{id}}}},{\rm{ }}{\mathit{\boldsymbol{\omega }}_{{\rm{exp}}}}} ({E_{{\rm{data}}}} + {\lambda _1} \cdot {E_{{\rm{i}}{{\rm{d}}_{\rm{ - }}}{\rm{reg}}}} + {\lambda _2}\cdot{E_{{\rm{ex}}{{\rm{p}}_ - }{\rm{reg}}}}),$ (4)

其中: R, T, f, ωidωexp为未知变量; Eid_regEexp_reg分别为ωidωexp的规则化约束项, 用于抑制人脸出现畸形形状; λ1λ2为权重系数, 各项计算公式为

$~{{E}_{\text{data}}}=\sum\limits_{i=1}^{74}{\|{{q}_{i}}-{{p}_{i}}{{\|}^{2}},}$ (5)
${E_{{\rm{i}}{{\rm{d}}_ - }{\rm{reg}}}} = {\left( {{\mathit{\boldsymbol{\omega }}_{{\rm{id}}}} - \mathit{\boldsymbol{\omega }}_{{\rm{id}}}^{{\rm{prior}}}} \right)^{\text{T}}}\cdot\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{{\rm{id}}}^{ - 1}\cdot({\mathit{\boldsymbol{\omega }}_{{\rm{id}}}} - \mathit{\boldsymbol{\omega }}_{{\rm{id}}}^{{\rm{prior}}}),$ (6)
${E_{{\rm{ex}}{{\rm{p}}_ - }{\rm{reg}}}} = {({\mathit{\boldsymbol{\omega }}_{{\rm{exp}}}} - \mathit{\boldsymbol{\omega }}_{{\rm{exp}}}^{{\rm{prior}}})^{\text{T}}}\cdot\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{{\rm{exp}}}^{ - 1}\cdot({\mathit{\boldsymbol{\omega }}_{{\rm{exp}}}} - \mathit{\boldsymbol{\omega }}_{{\rm{exp}}}^{{\rm{prior}}}),$ (7)

其中: ωidprior为平均人脸identity的权重向量; Σid-1为数据库中identity权重的协方差矩阵; ωexpprior为平均人脸expression的权重向量; Σexp-1为数据库中expression权重的协方差矩阵。由于整个最小化约束问题的未知参数较多, 本研究采用坐标下降法进行最优化求解。首先固定ωidωexp, 优化人脸姿态与相机焦距H={R, T, f}, 此时式(2) 中的张量积收缩为一维向量, 式(4) 中的能量最小化问题转换为关于H的非线性最优问题, 通过Gauss-Newton法进行迭代求解。然后固定Hωexp, 优化ωid, 此时式(2) 中的张量积收缩为二维矩阵Bexp与向量ωid的乘积, 其中Bexp=Cr×expωexp, 从而使式(4) 中转换为关于ωid的非线性最优问题, 同样通过Gauss-Newton法进行迭代求解。最后固定Hωexp, 优化ωid, 其计算法方式与上一步相同。经过多次总体迭代后, 该最小化约束可以收敛得到最优解。通过试验测试, λ1λ2分别取0.01与0.05。图 3分别显示了每次总体迭代后的中间结果, 其中第一列为输入人脸图像, 第二列至最后一列依次为第1次总体迭代至第4次总体迭代后的结果。由图 3可知, 通过4次总体迭代, 生成的人脸模型与图像中的人脸基本一致。

图 3 Multilinear Model优化迭代的中间结果 Figure 3 The intermediate results of Multilinear Model optimization

对于连续变化的人脸表情, 人脸的identity权重ωid应保持不变, 而仅expression权重ωexp发生变化。本研究首先对各帧人脸表情进行独立求解, 得到各帧初始identity与expression权重ωid0ωexp0, 再以连续K帧以内的人脸进行联合优化, 求解统一的identity权重ωid与各帧独立的expression权重ωexpk。测试表明, 每间隔K=30帧进行一次联合优化求解, 可以得到较好的重建结果, 同时可避免计算时间过长。

3 多特征融合的人脸表情跟踪

对动态表情进行三维跟踪, 需要计算人脸每一个顶点在t时刻的空间位置。从另一个角度看, 在各个时刻重建出的三维模型, 具有同一索引的网格顶点都要对应相同的人脸语义特征。然而, 在使用Multilinear Model重建各帧人脸模型后, 模型顶点仅在特征点附近保持相同的语义对应, 即眼睛、眉毛、嘴巴、鼻翼等区域, 而在其他区域如脸颊, 下巴、额头等特征点稀疏区域, 这种对应关系则无法保证。另一方面, Multilinear Model生成的人脸实际是数据库中各个人脸的线性组合, 如果目标人脸表情过于夸张, 超出了数据库中的表情范围, 则可能无法由Multilinear Model准确表示, 如图 4所示, Multilinear Model无法准确重建“厌恶”表情下的嘴部形状。

图 4 厌恶表情的三维重建与跟踪结果 Figure 4 3D reconstruction and tracking results for disgust expression

针对以上问题, 本研究对Multilinear Model的重建结果进行进一步修正。首先, 手动选取一帧接近中性表情的图像作为参考图像, 记为Iref。将该帧三维重建后的模型记为Vref, 并将其通过Href={Rref, Tref, fref}进行姿态变换与透视投影, 得到Pref=Q(fref)·(Rref·Vref+Tref), 使Pref与图像Iref在二维图像空间重叠。其次, 对于第k帧图像Ik与重建模型Vk, 同样通过其自身姿态参数进行变换得到Pk, Pk同样与Ik在图像空间重叠。图 5中a)图与b)图分别显示了IrefPref的叠加效果, 以及IkPk的叠加效果。

图 5 Optic Flow约束与Sift Flow约束示意图 Figure 5 Diagram for Optic Flow constraints and Sift Flow constraints

假设第k帧三维模型的顶点Vk进行修正后, 其空间位移为d, 则Vk+d重新投影变换至图像空间后得到Pk=Q(fk)·(Rk·(Vk+d)+Tk)。如果PkPref具有正确的人脸语义特征对应, 则根据Optic Flow图像灰度连续性的约束, 对于Pk每一个三角形内的像素值, 应该与Pref对应三角形内的像素值一致。图 5中绿色方框及其连线即为Optic Flow约束的示意图, 其中左侧白色三角形为Pref的第j个三角形, 对应顶点为pref(j1), pref(j2), pref(j3), 右侧白色三角形为Pk中的第j个三角形, 其顶点pk(j1), pk(j2), pk(j3)pk(j1), pk(j2), pk(j3)进行位移后得到。因此, Optic Flow约束可以表示为如下最小化能量约束

$~{{E}_{\text{optic}}}=\sum\limits_{x\in \text{face}}{\|{{I}_{\text{ref}}}(x)-{{I}_{k}}\left( w\left( x,\text{ }d \right) \right){{\|}^{2}}},$ (8)

其中: x∈face表示针对脸部可见区域内的每个像素建立能量函数; w(x, d)表示将Iref中的像素x, 通过三角网格对应关系变换至Ik中的坐标。假设像素x位于Pref的第j个三角形中, 首先计算出x在该三角形中的质心坐标(β(j1), β(j2), β(j3))(该坐标只需通过pref(j1), pref(j2), pref(j3)计算一次), 则xIk中的坐标可以用Pkj个三角形的三个顶点Pk(j1), Pk(j2), Pk(j3)表示, 即式(9)。由于Ik图像本身像素值是非线性变化, 因此Eoptic能量项是关于位移d的非线性约束。

$w\left( {x,{\rm{ }}d} \right) = ({\beta ^{(j1)}},{\rm{ }}{\beta ^{(j2)}},{\rm{ }}{\beta ^{(j3)}})\cdot{(P_k^{'(j1)},{\rm{ }}P_k^{'(j2)},{\rm{ }}P_k^{'(j3)})^{\rm{T}}}$ (9)

在实际情况中, 参考帧图像与第k帧图像之间灰度连续性的假设并不可靠。当人脸表情幅度比较大时, 脸部区域出现的皱纹以及光影的变化都会影响灰度连续性。本研究利用Sift Flow对图像对应做进一步约束。根据Sift Flow算法, 分别计算IrefIk的Sift图像, 得到SrefSk。在Sift图像中, 每一个像素均为128维向量。对于第k帧模型顶点在图像中的投影Pk, 要求Pk顶点位置处的Sift特征与Pref处的Sift特征尽量一致, 如图 4中红色圆框及其连线所示。因此针对每一个投影后的模型顶点pP建立如下约束

${{E}_{\rm{sift}}}=\sum\limits_{p\in P}{\|{{S}_{\rm{ref}}}({{p}_{\rm{ref}}})-{{S}_{k}}(p_{k}^{'}){{\|}^{2}}}。$ (10)

Sift特征描述的是像素周围梯度的直方图分布, 其数学定义本身不具有可微性。但本研究将Sift特征假设为图像的本征描述, 仍然按照连续的可微分空间对其求解。后续试验结果表明, 由该假设求解出的人脸跟踪精度有很大提升。从另一方看, 图像相邻像素之间的Sift特征本身也具有一定的连续性。

最后, 对网格顶点Vk的空间位移d作规则化约束, 防止位移后的模型网格出现翻转、重叠或者畸形三角形。本研究引入网格Laplacian坐标[21]来建立规则化约束能量项。对于一个在三维空间中定义了拓扑连接关系的网格, 其网格中第i个顶点vi的Laplacian坐标被描述为

$~\delta ({{\mathit{\boldsymbol{v}}}_{i}})={{\mathit{\boldsymbol{v}}}_{i}}-\frac{1}{{{n}_{i}}}\sum\limits_{j=1}^{{{n}_{i}}}{{{\mathit{\boldsymbol{v}}}_{j}}},$ (11)

其中: vj表示顶点vi的一环邻域; ni表示一环邻域内的顶点个数。δ(vi)反映了网格的局部连接关系与形状特征。在对Vk顶点施加偏移d之后, 希望网格变化前后各个顶点的Laplacian坐标保持不变, 即

${{E}_{\rm{Laplacian}}}=\sum\limits_{{{v}_{k}}\in {{\mathit{\boldsymbol{V}}}_{k}}}{\|\delta \left( {{\mathit{\boldsymbol{v}}}_{k}} \right)-\mathit{\boldsymbol{T}}\cdot \delta \left( {{\mathit{\boldsymbol{v}}}_{k}}+d \right){{\|}^{2}}},$ (12)

其中: T表示vk+d相对于vk的正交变换。根据文献[22], 正交变换T可以重新表示为Vkd的线性多项式。

将上述各能量项合并, 得到最终关于d的能量约束函数:E=Eoptic+λ1·Esift+λ2·ELaplacian。该能量函数中EopticEsift是关于d的非线性函数, ELaplaciand的线性函数, 对于最小化该能量函数的优化求解, 仍然可以使用Gauss-Newton法进行迭代计算。求解后的模型Vk=Vk+d即是最终得到的三维跟踪结果。

4 试验结果与分析

为了验证本研究方法对人脸表情的跟踪效果, 使用常规单目RGB相机录制多段不同的人脸面部表情, 要求表演者从中性静止状态开始, 完整表演一种人脸表情变化。本研究手动选取视频序列前几帧中最接近人脸中性表情的图像作为参考帧, 对后续各帧的表情变化以参考帧为基准进行跟踪。图 467分别是厌恶、高兴与惊讶三种表情跟踪结果, 其中第一排为原始表情图像序列, 第二排为Multilinear Model重建结果, 第三排为最终人脸表情跟踪结果。其中左侧第一列为选择的参考表情帧, 当人脸表情幅度较小时, Multilinear Model的重建结果与跟踪结果基本相同, 但如果人脸表情幅度比较夸张, 三维表情跟踪后的效果有明显提升, 在图中使用红色边框标出。

图 6 高兴表情的三维重建与跟踪结果 Figure 6 3D reconstruction and tracking results for happy expression
图 7 惊讶表情的三维重建与跟踪结果 Figure 7 3D reconstruction and tracking results for supprise expression

本研究方法与SHI等人[16]以及SIBBING等人[19]的方法进行了对比试验。SHI等人的方法对人脸表情的跟踪仅限于使用Multilinear Model重建, SIBBING等人的方法在重建出各帧三维人脸模型后, 利用Optic Flow进行跟踪, 本研究与上述两种方法进行对比, 结果如图 8所示。为了方便观察, 将模型以白色网格线绘制, 每幅图像右上角为人脸局部放大图。第二列显示出, Multilinear Model重建结果受模型本身表达能力的限制, 在表情幅度变化较大的时刻跟踪精度较低。第三列表明, 如果人脸表情纹理与中性表情纹理差异较大时, SIBBING等人的方法有较大局限性。图 9为各方法在各帧图像上的重建误差。对人脸表情各帧图像中的关键点进行了手动标记, 然后计算出重建模型对应关键点在2D平面投影后与标记关键点的像素平均误差, 对比结果表明本研究方法的跟踪误差低于以上两种方法。

图 8 本研究方法与SHI等人、SIBBING等人方法的对比图 Figure 8 Compare with SHI's method and SIBBING's method
图 9 本研究方法与其他方法重建误差对比 Figure 9 Reconstruction mean error, compared with SHI and SIBBING's method

本研究使用的三维人脸模型具有5348个顶点与10155个三角形, 输入图像分辨率在600×400左右。本研究方法在C++与OpenGL环境下进行测试, 使用的PC平台配置为CPU4.0 GHz, 内存16G。其中, 在重建阶段对单帧图像进行三维重建的平均时间为45ms。在跟踪阶段, 计算每一帧的平均时间为330ms。而SIBBING等人的方法由于没有使用Sift特征, 平均计算时间为250ms。

5 结论

本研究提出一种利用单目RGB摄像机对三维人脸表情进行跟踪的方法。由于单目摄像机无法获得有效的人脸深度信息, 本研究采用Multilinear Model重建三维人脸模型, 利用Multilinear Model中人脸的先验信息恢复人脸三维几何形状。对于由Multilinear Model建立的不同人脸表情缺乏准确对应这一问题, 本研究提出一种新的三维人脸跟踪方法, 通过结合Optic Flow中的像素连续性约束、Sift Flow中的Sift特征一致性约束以及三维网格的Laplacian规则化约束, 建立了计算人脸表情对应的优化求解方案。试验表明, 提出的方法可以有效跟踪多种人脸表情变化, 跟踪精度优于其他方法。此外, 本研究采用随机森林的级联式回归模型检测图像中的人脸特征点, 整个流程高度自动化, 仅需要手动挑选一帧中性人脸表情图像作为参考帧。未来将在本研究工作的基础上, 继续对人脸表面细节的恢复进行研究, 实现对三维人脸表情中皱纹的重建与跟踪。

参考文献
[1] ZHANG Li, SNAVELY N, CURLESS B, et al. Spacetime faces: high resolution capture for modeling and animation[J]. ACM Transactions on Graphics, 2004, 23(3): 548-558 DOI:10.1145/1015706
[2] HUANG Haoda, CHAI Jinxiang, TONG Xin, et al. Leveraging motion capture and 3D scanning for high-fidelity facial performance acquisition[J]. ACM Transactions on Graphics, 2011, 30(4): 74
[3] BEELER T, BICKEL B, BEARDSLEY P, et al. High-quality single-shot capture of facial geometry[J]. ACM Transactions on Graphics, 2010, 29(4): 157-166
[4] BEELER T, HAHN F, BRADLEY D, et al. High-quality passive facial performance capture using anchor frames[J]. ACM Transactions on Graphics, 2011, 30(4): 75
[5] BRADLEY D, HEIDRICH W, POPA T, et al. High resolution passive facial performance capture[J]. ACM Transactions on Graphics, 2010, 29(4): 41
[6] 迟静, 屠长河, 陈雪. 基于法向保持的三维人脸表情跟踪[J]. 计算机辅助设计与图形学学报, 2011, 23(6): 1069-1077
CHI Jing, TU Changhe, CHEN Xue. 3D facial expression tracking based on normal preserving[J]. Journal of Computer-Aided Design & Computer Graphics, 2011, 23(6): 1069-1077
[7] CHEN Yenlin, WU Hsiangtao, SHI Fuhao, et al. Accurate and robust 3D facial capture using a single RGBD camera[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 3615-3622.
[8] LI Hao, YU Jihun, YE Yuting, et al. Realtime facial animation with on-the-fly correctives[J]. ACM Transactions on Graphics, 2013, 32(4): 42
[9] WEISE T, BOUAZIZ S, LI Hao, et al. Realtime performance-based facial animation[J]. ACM Transactions on Graphics, 2011, 30(4): 77
[10] 何钦政, 王运巧. 基于Kinect的人脸表情捕捉及动画模拟系统研究[J]. 图学学报, 2016, 37(3): 290-295
HE Qinzheng, WANG Yunqiao. Research on system of facial expression capture and animation simulation based on Kinect[J]. Journal of Graphics, 2016, 37(3): 290-295 DOI:10.11996/JG.j.2095-302X.2016030290
[11] 李俊龙, 章登义, 黄珺. Kinect驱动的人脸动画合成技术研究[J]. 计算机工程, 2015, 41(3): 237-241
LI Junlong, ZHANG Dengyi, HUANG Jun. Research on synthesis technology of facial animation driven by Kinect[J]. Computer Engineering, 2015, 41(3): 237-241
[12] BLANZ V, SCHERBAUM K, VETTER T, et al. Exchanging faces in images[J]. Computer Graphics Forum, 2004, 23(3): 669-676 DOI:10.1111/cgf.2004.23.issue-3
[13] VLASIC D, BRAND M, PFISTER H, et al. Face transfer with multilinear models[J]. ACM Transactions on Graphics, 2005, 24(3): 426-433 DOI:10.1145/1073204
[14] CAO Chen, WENG Yanlin, LIN Stephen, et al. 3D shape regression for real-time facial animation[J]. ACM Transactions on Graphics, 2013, 32(4): 41
[15] CAO Chen, WENG Yanlin, ZHOU Shun, et al. Face-warehouse: a 3d facial expression database for visual computing[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(3): 413-425 DOI:10.1109/TVCG.2013.249
[16] SHI Fuhao, WU Hsiangtao, TONG Xin, et al. Automatic acquisition of high-fidelity facial performances using monocular videos[J]. ACM Transactions on Graphics, 2014, 33(6): 222
[17] SUPASOM S, IRA K, SEITZ M S. Total moving face reconstruction[M]//Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). [S.l.]: Springer International Publishing, 2014, 8692(4): 796-812.
[18] FYFFE G, JONES A, ALEXANDER O, et al. Driving high-resolution facial scans with video performance capture[J]. ACM Transactions on Graphics, 2014, 34(1): 8
[19] SIBBING D, HABBECKE M, KOBBELT L. Markerless reconstruction and synthesis of dynamic facial expressions[J]. Computer Vision and Image Understanding, 2011, 115(5): 668-680 DOI:10.1016/j.cviu.2010.11.022
[20] REN Shaoqing, CAO Xuding, WEI Yichen, et al. Face alignment at 3000 fps via regressing local binary features[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 1685-1692.
[21] 栾勐. 基于拉普拉斯变形技术的形状分析方法研究[D]. 杭州: 浙江大学, 2011L.
LUAN Meng. Shape analysis based on Laplacian deformation[D]. Hangzhou: Zhejiang University, 2011. http://d.wanfangdata.com.cn/Thesis/Y1853281
[22] SORKINE O, COHEN-OR D, LIPMAN Y, et al. Laplacian surface editing[C]//Proceedings of the 2004 Eurographics/ACM SIGGRAPH Symposium on Geometry processing. [S.l.]:ACM, 2004, 71:175-184.