基于层叠的部件轨迹片段模型的视频人体姿态估计

引用本文

史青宣, 王谦, 田学东. 基于层叠的部件轨迹片段模型的视频人体姿态估计[J]. 山东大学学报(工学版), 2018, 48(2): 14-21. DOI: 10.6040/j.issn.1672-3961.0.2017.431.

SHI Qingxuan, WANG Qian, TIAN Xuedong. Cascaded tracklet-based spatio-temporal model for video pose estimation[J]. Journal of Shandong University (Engineering Science), 2018, 48(2): 14-21. DOI: 10.6040/j.issn.1672-3961.0.2017.431.

基金项目

国家自然科学基金资助项目(编号: 61375075);河北省自然科学基金资助项目(编号: F2012201020);河北省高等学校科学技术研究重点资助项目(编号: ZD2017208);河北省教育厅资助项目(编号: ZD2017209)

作者简介

史青宣(1979—)，女，河北保定人，讲师，博士，主要研究方向为计算机视觉. E-mail:shiqingxuan@hbu.edu.cn

文章历史

收稿日期：2017-08-29
网络出版时间：2018-03-21 16:47:25

Contents Abstract Full text Figures/Tables PDF

基于层叠的部件轨迹片段模型的视频人体姿态估计

史青宣¹, 王谦², 田学东¹

1. 河北大学网络空间安全与计算机学院，河北保定 071000;
2. 河北大学教务处, 河北保定 071000

收稿日期：2017-08-29；网络出版时间：2018-03-21 16:47:25

基金项目：国家自然科学基金资助项目(编号: 61375075);河北省自然科学基金资助项目(编号: F2012201020);河北省高等学校科学技术研究重点资助项目(编号: ZD2017208);河北省教育厅资助项目(编号: ZD2017209)

作者简介：史青宣(1979—)，女，河北保定人，讲师，博士，主要研究方向为计算机视觉. E-mail:shiqingxuan@hbu.edu.cn

摘要：为解决单目视频中的人体姿态估计问题, 从人体的部件模型出发, 以人体部件轨迹片段为实体构建时空概率图模型, 通过逐步缩减轨迹片段在时域上的覆盖度, 形成多级层叠模型, 采用迭代的时域和空域交替解析的策略, 从完整轨迹的推理开始, 逐级过滤状态空间, 直至获取人体各部件在每帧图像中的最优状态。为提供高质量的状态候选, 引入全局运动信息, 将单帧图像中人体姿态检测结果传播到整个视频形成轨迹, 构成原始状态空间。在3个数据集上的对比试验表明, 该方法较其他视频人体姿态估计方法达到了更高的估计精度。

关键词：姿态估计轨迹片段马尔科夫随机场隐马尔科夫模型

Cascaded tracklet-based spatio-temporal model for video pose estimation

SHI Qingxuan¹, WANG Qian², TIAN Xuedong¹

1. School of Cyber Security and Computer, Hebei University, Baoding 071000, Hebei, China;
2. Academic Administration, Hebei University, Baoding 071000, Hebei, China

Abstract: To address the problem of full body human pose estimation in video, a coarse-to-fine cascade of spatio-temporal models was developed in which the tracklet of body part was considered as basic unit. The notion of "tracklet" ranges from trajectory covering the whole video to body part in one frame. In this cascade, coarse models filtered the state space for the next level via their max-marginals. Loops in the graphical models made the inference intractable, the models were decomposed into Markov random fields and hidden Markov models. Through iterative spatial and temporal parsing, optimal solution was achieved in polynomial time. To generate reliable state hypotheses, the pose detections were propagated to whole video sequence through global motion cues. Our model was applied on three publicly available datasets and showed remarkable quantitative and qualitative improvements over the state-of-the-art approaches.

Key words: pose estimation tracklet Markov random field hidden Markov model

0 引言

视频人体姿态估计是指获取给定视频中人体各部位在每帧图像中的位置或关节夹角等姿态参数的过程^[1], 是目前计算机视觉领域的研究热点。姿态参数的获取, 可以为重建人体的运动提供支持, 辅助实现计算机感知场景中人“在哪里”和分析人“在干什么”, 在动作识别^[2]、人机交互^[3]、视频理解^[4-5]等领域均有广泛应用。

近些年, 基于部件模型^[6], 针对单帧图像的人体姿态估计展开了大量的研究并取得了卓有成效的进展^[7-10], 进一步促进了在视频中的人体姿态估计研究。在人体部件模型(图 1(a))基础上添加部件在帧间的时序联系, 将视频中的人体姿态估计问题, 转换成一个时空概率图模型上的推理问题^[11-16]成为目前被普遍采用的一个有效的方案(图 1(b))。此时的时空概率图模型中, 结点对应人体部件在单帧中的状态, 时域上的覆盖粒度最小, 只覆盖单帧, 空域上的边对应部件间的几何约束, 时域上的边对应部件在帧间的一致性约束。由于模型中环路的存在, 通常只能通过近似推理, 如循环置信度传播^{[11, 17]}、采样^[18]、变分^[13]等手段来获取模型的近似解。另外一类思路对原始环状图模型进行拆解, 用一组树形子图来近似原始图模型^{[14, 19-20]}。还有部分方法采用分步优化的策略^[15-16], 首先不考虑空间约束, 对检测最为稳定的部件(如头部)进行序列估计, 再基于该序列估计, 对其邻接部件进行优化, 该过程一直到所有部件处理完成。以上基于部件的时空模型在视频的人体姿态估计中取得了不错的成绩, 但是由于人体姿态变化的多样性, 人的体型、穿着、视角等变化, 部件模型很难捕捉到所有的表观变化, 另外, 模型时域上只引入了相邻帧间的一致性约束, 没有长时一致性的约束, 易出现部件状态估计的误差累积。

图 1 现有方法所使用的模型 Figure 1 The models for pose estimation

文献[21-23]加大时空模型中结点在时域的覆盖粒度, 以人体部件的轨迹为实体, 实体在时域上覆盖整个视频, 如图 1(b)所示的时空部件模型在时域上的依赖关系不复存在, 模型中结点表示部件的轨迹, 边表示部件轨迹间的约束, 此时模型与单帧中的人体部件模型相同(图 1(c)), 推理的目的是为每个人体部件挑选一个最优的轨迹来组装成最终的姿态序列。这类模型中, 时域上可以添加长时一致性的约束, 而且当空域的人体部件模型为树形结构时, 可以精确推理获取最优解。然而, 由于人体四肢, 尤其末端部位(比如手腕、脚踝)极易出现表观的剧烈变化、遮挡、快速运动等情况, 为其生成合理优质的轨迹候选本身就是跟踪难题。

文献[24]以人体部件的轨迹片段为实体构建时空模型, 此时模型中结点在时域上覆盖多帧, 通过推理最优的轨迹片段, 来重新拼接融合生成人体的姿态轨迹。该模型避免了生成高质量长时部件轨迹的压力, 同时添加了一定程度的长时一致性约束, 姿态估计的精度有了很大的提升。

本研究综合以上方法的优势, 以部件轨迹片段模型^[24]为基础, 借鉴由粗到细逐步过滤状态空间的策略^[25-27], 通过改变部件轨迹片段结点在时域的覆盖粒度, 形成一个层叠的瀑布模型。“轨迹片段”的概念在最高层对应覆盖整个视频的完整轨迹, 在中层对应覆盖多帧的轨迹片段, 在最底层对应仅覆盖单帧的部件。上层模型推理的结果用于过滤下层模型的输入状态空间, 在最底层模型上推理获取每个部件在每一帧视频中的最优状态。

为解决对称部件易混淆的问题, 同文献[22]的策略, 本研究在概念上将对称部件合并, 在添加对称部件间约束的同时避免在空域模型中引入环路, 最终的层叠轨迹片段时空模型如图 2所示。在3个数据集上的试验结果表明, 较其他视频人体姿态估计方法, 本研究基于层叠部件轨迹片段模型的估计方法能够达到更高的估计精度。

图 2 层叠轨迹片段模型 Figure 2 The cascaded tracklet-based spatio-temporal model

剩余部分内容组织如下:第1节对视频姿态估计的问题及模型进行描述; 第2节介绍模型的推理算法; 第3节讨论试验以及结果; 第4节给到最后结论。

1 问题描述

给定含有N帧的图像序列, 本研究经历3个主要步骤得到最终的姿态估计结果。首先对视频中每帧图像进行姿态检测; 然后引入全局运动信息将每帧图像中的最优姿态检测结果传播到整个视频, 为每个人体部件生成N条轨迹, 构成原始状态空间; 状态空间经过层叠轨迹片段模型的逐层过滤, 逐步缩小, 最终通过最底层模型的推理获取部件的最优状态。方法的整体处理流程如图 3所示。

图 3 本研究方法总体框图 Figure 3 Overview of our method

1.1 单帧姿态检测

用于单帧图像的人体姿态检测器将人体建模成一个包含M个结点的树形概率图模型$\mathscr{C}=(\mathscr{V}, \mathscr{E})$, 如图 1(a)所示, 其中结点对应人体的M个部件, 边表示部件间的空间约束关系。人体的姿态可表示为所有部件的状态集合X={x₁, x₂, …, x_M}, 其中第i个部件的状态x_i由图像中的坐标位置构成。

给定图像I, 对某一特定人体部件状态配置X进行评分

$ \begin{array}{l} S\left( {I, X} \right) = \sum\limits_{i \in \mathscr{V}} {{w_i} \cdot {\phi _i}\left( {I, {x_i}} \right)} + \\ \;\;\;\sum\limits_{\left( {i, j} \right) \in \mathscr{E}} {{w_{i, j}} \cdot {\psi _{i, j}}\left( {{x_i}-{x_j}} \right)}, \end{array} $

(1)

式中:ϕ_i(I, x_i)为部件的观测项, 用于计算第i个部件取状态x_i时的图像区域特征与部件模板的匹配程度; ψ_{i, j}(x_i, x_j)评估两个相连人体部件i与j间的几何连接状况与人体模型对应结点间几何约束的匹配程度。姿态检测问题则形式化为最大化S(I, x)问题。所有部件的模板和部件间的几何约束利用结构化支持向量机(support vector machine, SVM)进行联合训练得到。

本研究采用文献[7]的算法进行单帧图像的姿态检测, 并采用文献[7]的方法对部件以及相连部件间空间约束进行建模, 为了简洁, 省略了式中部件类型相关的描述。

1.2 部件轨迹生成

本研究采用分层弹性运动跟踪方法^[28]对视频中的人体进行弹性运动跟踪^[29], 并基于此跟踪结果, 对每帧获得的人体姿态检测结果进行传播。弹性运动跟踪给出的是目标在视频各帧的一个全局对应关系, 给定某帧图像中一点A, 通过该对应关系可以获取该点在其他帧的对应位置。因此, 将第t帧的姿态检测结果X={x₁, x₂, …, x_M}作为参考点集, 通过全局运动信息, 可获取该点集在视频各帧中的对应位置, 由此获取到各部件的一条轨迹。对所有N帧中的姿态检测结果实施传播操作, 得到N条姿态轨迹, 构成原始的状态空间。在层叠模型中, 当结点对应覆盖多帧图像的轨迹片段时, 其状态候选由切割轨迹为互相交叠的定长片段构成。

1.3 层叠轨迹片段模型

层叠轨迹片段模型如图 2所示, 每层时空概率图模型的基本结构是相同的, 不同在于模型中结点所对应的轨迹片段在时域上的覆盖度。在最高层, 结点对应部件的完整轨迹, 因此时域联系不复存在, 模型中的边对应轨迹间的空间几何约束。在中间层, 结点对应部件的覆盖多帧的轨迹片段, 边表示轨迹片段间的空间几何约束以及时间上相邻片段的一致性约束。在最底层, 结点对应单帧图像中的人体部件, 边表示部件间的空域联系以及帧间的运动一致性约束。

为解决模型中存在的环路问题, 受文献[14]启发, 本研究将时空模型(图 4(a))分解为一组马尔科夫随机场(图 4(b))和隐马尔科夫模型(图 4(c)), 分别负责空域和时域的解析。注意在本研究的模型中, 为保留对称部件间的约束关系, 同时剔除空间模型中的环路, 对称部件已合并。为描述清晰, 本研究用单部件和组合部件对人体部件进行区分, 其中单部件指头、颈两部件, 组合部件指合并的对称部件即肩、肘、腕、胯、膝、踝六个部件。

图 4 模型分解 Figure 4 Sub-models of the spatio-temporal model

1.3.1 负责空域解析的马尔科夫随机场

子图模型马尔科夫随机场(图 4(b))用于在每个视频分段内进行空间解析, 本研究用$\mathscr{C}=(\mathscr{V}_T, \mathscr{E}_T) $来表示。T^t={T_i^t |_i=1^M}表示在第t个视频分段V^t中的M个人体部件的轨迹片段配置, 其中T^t∈T, T是各部件轨迹片段候选的任意组合。对特定轨迹片段配置T^t的评价为

$ {\mathbb{S}_T}\left( {{T^t}, {V^t}} \right) = \sum\limits_{i \in {\mathscr{V}_T}} {\mathit{\Phi }\left( {T_i^t, {V^t}} \right)} + \sum\limits_{\left( {i, j} \right) \in {\mathscr{E}_T}} {\mathit{\Psi }\left( {T_i^t, T_j^t} \right)}, $

(2)

在这个评价函数中, 一元项Φ(T_i^t, V^t)计算部件轨迹片段T_i^t与视频片段V^t的兼容性, 以及片段内部件表观一致性。当部件为对称部件组合体, 在该一元项中还将添加对称部件间的约束。为了能使式(2)描述更简洁, 这里用Q替换V^t, 用S表示单部件轨迹片段, 用C表示组合部件轨迹片段。Q={q^f|_f=1^F}, S={s^f|_f=1^F}, s^f表示轨迹片段S在视频片段Q第f帧图像q^f中的状态(坐标位置)。

对单部件, 一元项定义为

$ \mathit{\Phi }\left( {S, Q} \right) = \sum\limits_{f = 1}^F {{\phi _d}} \left( {{s^f}, {q^f}} \right) + {\lambda _1}{\phi _g}\left( S \right), $

(3)

式中:ϕ_d(s^f, q^f)=ϕ_p(s^f, q^f)+ϕ_fg(s^f, q^f)综合了部件的表观评价(式(1)中部件观测项)与前景覆盖度^[12], ϕ_g(S)计算视频片段内部件的表观一致性, 定义为

$ {\phi _g}\left( S \right) = -\frac{{{\rm{var}}\left( {\mathit{\Lambda }\left( {{s^1}} \right)\mathit{, \Lambda }\left( {{s^2}} \right), \cdots, \mathit{\Lambda }\left( {{s^F}} \right)} \right)}}{{\mathop {\max }\limits_{{t_1}, {t_2}} {{\left\| {{s^{{t_1}}}-{s^{{t_2}}}} \right\|}_2}}}, $

其中Λ(s^f)采用部件s^f所在的局部图像块的归一化后的颜色直方图。

对组合部件, 一元项定义为

$ \begin{array}{l} {\mathit{\Phi }_c}\left( {C, Q} \right) = {\mathit{\Phi }_s}\left( {C.l, Q} \right) + {\mathit{\Phi }_s}\left( {C.r, Q} \right) + \\ {\lambda _2}\sum\limits_{f = 1}^F {{\psi _{{\rm{color}}}}} \left( {{c^f}.l, {c^f}.r} \right) + {\lambda _3}\sum\limits_{f = 1}^F {{\psi _{{\rm{dist}}}}} \left( {{c^f}.l, {c^f}.r} \right), \end{array} $

其中包括三方面内容:(1)左右部件轨迹片段各自表观评估; (2)左右部件轨迹片段间颜色一致性; (3)左右轨迹片段间距离。评估原则为:表观与部件模型越兼容, 左右部件间颜色越一致, 左右部件间距离越远, 得分越高。式中c.l与c.r分别表示组合部件的左右两个部分, Φ_s同式(3), 左右部件间的chi-square距离为ψ_color(c^f.l, c^f.r)=χ²(Λ(c^f.l), Λ(c^f.r)), 表示对称部件间的颜色一致性${\psi _{{\rm{dist}}}}\left( {{c^f}.l, {c^f}.r} \right) = 1-\exp \left( {\frac{{-\left\| {{c^f}.l-{c^f}.r} \right\|_2^2}}{{\sigma _1^2}}} \right) $用来鼓励选择分离度好的对称部件。

二元项Ψ(T_i^t, T_j^t)评估两部件轨迹结点间的空域兼容性。当邻接的两结点S_i、S_j均为单部件结点时, 空域二元平滑项定义为$ \mathit{\Psi }\left( {{S_i}, {S_j}} \right)\sum\limits_{f = 1}^F {{\psi _p}} \left( {s_i^f, s_j^f} \right)$。

当邻接的两结点S_i、C_j分别对应单部件结点与组合部件结点时, 空域二元平滑项定义为

$ \mathit{\Psi }\left( {{S_i}, {C_j}} \right) = \sum\limits_{f = 1}^F {\left( {{\psi _p}\left( {s_i^f, c_j^f.l} \right) + {\psi _p}\left( {s_i^f, c_j^f.r} \right)} \right)} 。$

当邻接的两结点C_i、C_j均为组合部件结点时, 空域二元平滑项定义为

$ \mathit{\Psi }\left( {{C_i}, {C_j}} \right) = \sum\limits_{f = 1}^F {\left( {{\psi _p}\left( {c_i^f.l, c_j^f.l} \right) + {\psi _p}\left( {c_i^f.r, c_j^f.r} \right)} \right)}, $

式中ψ_p(p_i, p_j)=w_{i, j}·ψ(p_i-p_j), 用于评估两邻接部件p_i与p_j的空域兼容性。

1.3.2 负责时域解析的隐马尔科夫模型

隐马尔科夫模型负责在候选集中挑选出符合时域一致性约束的轨迹片段。

用V={V^t|_t=1^N}表示给定视频, V^t表示第t个视频片段。任一部件i在整个视频上的轨迹片段状态配置建模为一个马尔科夫链, 用T_i={T_i^t |_t=1^N}表示, 时域上的轨迹片段配置T_i的评估函数可定义为

$ S{'_T}\left( {{T_i}, V} \right) = \sum\limits_{t = 1}^N {\mathit{\Phi '}} \left( {T_i^t, {V^t}} \right) + \sum\limits_{t = 1}^{N-1} {\mathit{\Psi '}} \left( {T_i^t, T_i^{t + 1}} \right), $

式中:一元项Φ′(T_i^t, V^t)用于评估轨迹片段T_i^t 的表观似然度以及与i结点的双亲结点pa(i)的空域兼容性, 具体定义为Φ′(T_i^t, V^t)=Φ(T_i^t, V^t)+Ψ(T_i^t, T_pa(i)^t); 二元项Ψ′(T_i^t, T_i^t+1)用于评估两邻接轨迹片段的一致性。

(1) 对于中间层时空模型

结点对应覆盖多帧的轨迹片段, 本研究用轨迹片段重叠部分的距离来评估轨迹片段间的时域一致性, 假设两邻接轨迹片段分别为A和B, 重叠m帧, 则本研究用${\left\| {A-B} \right\|_2} = \sum\limits_{i = 1}^m {{{\left\| {{A^{F-m + i}}-{B^i}} \right\|}_2}} $表示A与B之间的距离。

对单部件结点, 二元项定义为

$ \mathit{\Psi }'\left( {A, B} \right) = \exp \left( {-\left\| {A-B} \right\|_2^2/\sigma _2^2} \right)。$

对组合部件结点, 二元项定义为

$ \mathit{\Psi }'\left( {A, B} \right) = \exp \left( {-{{\left( {\left( {{{\left\| {A.l-B.l} \right\|}_2} + {{\left\| {A.r-B.r} \right\|}_2}} \right)/2} \right)}^2}/\sigma _3^2} \right), $

(2) 对于最底层时空模型

结点对应单帧图像中的部件, 部件间的时域一致性用部件帧间的运动一致性来评估。

对单部件结点, 二元项定义为

$ \mathit{\Psi }'\left( {T_i^t, T_i^{t + 1}} \right) = \exp \left( {-\left\| {T_i^{t + 1}-{\rm{traj}}\left( {T_i^t} \right)} \right\|_2^2/\sigma _4^2} \right), $

其中traj(T_i^t)表示在t+1帧中与T_i^t 同轨迹的候选状态, 借助此项来鼓励部件在相邻帧间挑选同在一条轨迹上的候选。

对组合部件结点, 二元项定义为

$ \begin{array}{l} \mathit{\Psi }'\left( {T_i^t, T_i^{t + 1}} \right) = \exp (-\left\| {T_i^{t + 1}.l-{\rm{traj}}\left( {T_i^t.l} \right)} \right\|_2^2 + \\ \;\;\;\;{\left\| {T_i^{t + 1}.r-{\rm{traj}}\left( {T_i^t.r} \right)} \right\|_2})/2{)^2}/\sigma _5^2)。\end{array} $

2 模型推理

层叠轨迹片段模型中, 每一层原始图模型均被拆分, 推理均通过迭代的在两个子模型上交替推理来近似。空域解析过程中, 为部件i选择轨迹片段候选a的边缘分布定义为

$ {\mathscr{M}_T}\left( {T_i^t,a} \right) = \mathop {\max }\limits_{{T^t} \in \mathscr{F}:T_l^t = a} {\mathbb{S} _T}\left( {{T^t},{V^t}} \right)。$

由于对应的马尔科夫随机场是树形结构, 所有候选的边缘分布可以通过信念传播算法求得。从结点i到其双亲结点j的信息

$ \begin{array}{l} {m_{i \to j}}\left( {T_j^t} \right) = \mathop {\max }\limits_{T_l^t} ({m_i}\left( {T_i^t} \right) + \mathit{\Psi }\left( {T_i^t, T_j^t} \right), \\ {m_i}\left( {T_i^t} \right) = \mathit{\Phi }\left( {T_i^t, {V^t}} \right) + \sum\limits_{k \in {\rm{kids}}\left( i \right)} {{m_{k \to i}}} \left( {T_i^t} \right) \end{array}。$

消息从叶子结点传递到根结点, 再由根结点传递回叶子结点, 一个循环即可求得所有结点的边缘分布。

时域解析过程中, 隐马尔科夫模型上的推理同样可通过消息在马尔科夫链上的一个循环传递完成。

层叠模型中, 每一层的模型推理均从空域解析开始, 通过在马尔科夫随机场上的推理, 依据边缘分布为每个部件筛选轨迹片段候选, 构成缩小后的输入状态空间提供给隐马尔可夫模型进行时域解析。而时域推理后的输出作为空域解析的输入进入下一次迭代, 这个过程一直持续到本层模型状态空间缩小到预设目标。

3 试验与结果

本研究方法在UnusualPose^[12]、FYDP ^[30]和Sub_Nbest^[31]等3个视频数据集上进行了试验。采用目前常用的关键点正确率(percentage of correct keypoints, PCK)^[7]和部件检测正确率(percentage of correct limb parts, PCP)^[11]两个评价机制对试验结果进行分析。并与Nbest^[31]、UVA ^[30]、SYM^[15]、HPEV^[22]等4个主流的视频人体姿态估计方法以及VPE_FM^[12]和VPE_MM^[24]共6个算法进行了试验对比。其中VPE_FM和VPE_MM均采用与本研究相同的全局运动信息对每帧图像中的姿态检测结果进行传播, 关节点状态候选的质量与本研究所生成的候选相同。与本研究不同的是, VPE_FM基于部件时空模型, VPE_MM基于部件轨迹片段时空模型, 而本研究基于层叠部件轨迹片段时空模型进行视频中的人体姿态估计。从模型角度, VPE_FM方法的模型类似本研究方法的最下层, VPE_MM方法的模型类似本研究方法的中间层。

由于SYM与HPEV方法的代码无法获取, 在UnusualPose视频数据集上, 本研究只对比了Nbest、UVA和VPE_FM 3种方法。在FYDP和Sub_Nbest数据集上, 本研究直接引用了相关文献中提供的数据结果。

试验中, 层叠部件轨迹片段模型设置3层, 最高层结点时域覆盖完整视频, 中间层结点覆盖连续7帧, 最底层结点覆盖单帧。推理由最高层开始, 通过空域解析, 挑选高置信度轨迹, 开启第一轮的状态空间过滤, 层间状态空间的过滤比例设定为20%, 每层进行一次空域解析与时域解析的迭代。

表 1~3分别给出本研究在3个数据集上与其他方法的定量分析对比。UnusualPose数据集中的视频存在大量的非常规人体姿态以及快速运动, 极易造成姿态检测及运动估计的失败。由表 1的对比结果可以看出, 本研究方法整体性能略胜VPE_FM和VPE_MM, 均远优于其他视频姿态估计方法, 其主要原因在于这3个方法均采用全局运动信息对每帧图像中的姿态检测结果进行传播, 为模型推理提供了高质量的候选。数据结果证明了该策略在应对非常规人体姿态和快速运动等难题时的优势。

表 1 UnusualPose视频集上的PCK对比

表 2 FYDP数据集上的PCK对比 Table 2 PCK comparison on FYDP dataset

表 3 Sub_Nbest视频集上的PCP对比 Table 3 PCP comparison on Sub_Nbest dataset

FYDP数据集中人的肢体运动幅度较小, 运动均较平滑。从表 2的对比结果看, 在FYDP数据集上, 本研究方法PCK得分比VPE_MM有所提升, 高于VPE_FM, 优于其他方法, 但其提升幅度不及UnusualPose数据集。主要原因在于:(1)该数据集中肢体自遮挡严重(如胳膊在躯干前活动), 且运动幅度较小, 弹性运动跟踪对轮廓内部运动描述并无优势; (2)姿态检测结果质量普遍较平均, VPE_FM由关键帧的姿态检测展开模型推理, 挑选出来的关键帧精确度并不高, 导致其方法优势不明显。而在本研究方法中, 底层部件模型的推理是在中间层轨迹片段模型推理过滤后的状态空间中进行, 因此其准确率可以达到更高。

Sub_Nbest数据集中Walkstraight是一个侧面正常步行的序列, 姿态常规, 运动平滑, 视频Baseball包含大量罕见人体姿态以及剧烈运动。从表 3的PCP对比结果看, 本研究方法的综合性能最优。

与当前主流方法对比, 基于全局运动信息对每帧中的姿态检测结果进行传播可以为模型推理提供高质量的状态候选, 为获取更高精度的视频姿态估计结果奠定基础。与VPE_FM和VPE_MM对比, VPE_FM模型中实体在时域只覆盖单帧, 通过选取姿态检测结果最优的关键帧启动其部件模型的推理过程, 最终的检测结果高度依赖其选取的启动帧。VPE_MM模型中的实体在时域上覆盖多帧, 添加长时一致性约束, 避免误差累积, 但由于模型推理以选择符合时空约束的部件轨迹片段为目的, 一定程度上限制了探索状态空间的范围, 减弱了更优部件状态组合的可能性。而本研究方法结合VPE_FM和VPE_MM的优势, 进一步提高了姿态估计的精度, 同时避免选取启动帧, 泛化能力更强。

除定量试验结果外, 本研究还在图 5中展示了不同方法在UnusualPose数据集上的姿态估计结果。本研究为每段视频选取一帧, 并用骨架结构展示姿态估计的结果, 相比较可以看出, 本研究给出的姿态估计结果更符合真实的人体姿态。图 6、7分别展示了本研究方法在FYDP和Sub_Nbest数据集上的部分姿态估计结果。

图 5 UnusualPose视频集上的试验结果对比 Figure 5 Qualitative comparison on UnusualPose dataset

图 6 FYDP视频集上的试验结果 Figure 6 Sample results of our method on FYDP dataset

图 7 Sub_Nbest视频集上的试验结果 Figure 7 Sample results of our method on Sub_Nbest dataset

4 结论

本研究提出一种用于视频人体姿态估计的层叠部件轨迹片段模型, 该模型以部件轨迹片段模型为基础, 通过改变模型中轨迹片段在时域上的覆盖粒度, 形成多层结构。上层模型的推理结果用于过滤下层模型的输入状态空间, 从最高层逐层缩小状态空间, 直至在最底层推理获取人体部件在每帧中的最优状态, 完成人体姿态的估计。本研究方法综合了模型中结点时域覆盖度不同时的优点, 与其他主流视频姿态估计方法在3个数据集上的对比试验结果显示了本研究方法的优势。

参考文献

[1]	李毅, 孙正兴, 陈松乐, 等. 基于退火粒子群优化的单目视频人体姿态分析方法[J]. 自动化学报, 2012, 38(5): 732-741 LI Yi, SUN Zhengxing, CHEN Songle, et al. 3D human pose analysis from monocular video by simulated annealed particle swarm optimization[J]. Acta Automatica Sinica, 2012, 38(5): 732-741
[2]	朱煜, 赵江坤, 王逸宁, 等. 基于深度学习的人体行为识别算法综述[J]. 自动化学报, 2016, 42(6): 848-857 ZHU Yu, ZHAO Jiangkun, WANG Yining, et al. A review of human action recognition based on deep learning[J]. Acta Automatica Sinica, 2016, 42(6): 848-857
[3]	SHOTTON J, GIRSHICK R, FITZGIBBON A, et al. Efficient human pose estimation from single depth images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2821-2840 DOI:10.1109/TPAMI.2012.241
[4]	CRISTANI M, RAGHAVENDRA R, DEL BUE A, et al. Human behavior analysis in video surveillance: A social signal processing perspective[J]. Neurocomputing, 2013, 100: 86-97 DOI:10.1016/j.neucom.2011.12.038
[5]	WANG L M, QIAO Y, TANG X O. Video action detection with relational dynamic-poselets[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 565-580.
[6]	FELZENSZWALB P F, HUTTENLOCHER D P. Pictorial structures for object recognition[J]. International Journal of Computer Vision, 2005, 61(1): 55-79 DOI:10.1023/B:VISI.0000042934.15159.49
[7]	YANG Y, RAMANAN D. Articulated human detection with flexible mixtures of parts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2878-2890 DOI:10.1109/TPAMI.2012.261
[8]	SAPP B, JORDAN C, TASKAR B. Adaptive pose priors for pictorial structures[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 422-429. http://doi.ieeecomputersociety.org/10.1109/CVPR.2010.5540182
[9]	ANDRILUKA M, ROTH S, SCHIELE B. Pictorial structures revisited: People detection and articulated pose estimation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009: 1014-1021. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5206754
[10]	EICHNER M, MARIN-JIMENEZ M, ZISSERMAN A, et al. 2d articulated human pose estimation and retrieval in (almost) unconstrained still images[J]. International Journal of Computer Vision, 2012, 99(2): 190-214 DOI:10.1007/s11263-012-0524-9
[11]	FERRARI V, MARIN-JIMENEZ M, ZISSERMAN A. Progressive search space reduction for human pose estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE, 2008: 1-8. http://doi.ieeecomputersociety.org/10.1109/CVPR.2008.4587468
[12]	SHI Q X, DI H J, LU Y, et al. Human pose estimation with global motion cues[C]//Proceedings of the IEEE International Conference on Image Processing. Quebec, Canada: IEEE, 2015: 442-446. http://ieeexplore.ieee.org/document/7350837/
[13]	SAPP B, WEISS D, TASKAR B. Parsing human motion with stretchable models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA: IEEE, 2011: 1281-1288. http://ieeexplore.ieee.org/xpl/abstractAuthors.jsp?arnumber=5995607
[14]	ZHAO L, GAO X B, TAO D C, et al. Tracking human pose using max-margin markov models[J]. IEEE Transactions on Image Processing, 2015, 24(12): 5274-5287 DOI:10.1109/TIP.2015.2473662
[15]	RAMAKRISHNA V, KANADE T, SHEIKH Y. Tracking human pose by tracking symmetric parts[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 3728-3735. http://ieeexplore.ieee.org/document/6619322/
[16]	CHERIAN A, MAIRAL J, ALAHARI K, et al. Mixing body-part sequences for human pose estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 2361-2368.
[17]	SIGAL L, BHATIA S, ROTH S, et al. Tracking loose-limbed people[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2004: 421-428.
[18]	SMINCHISESCU C, TRIGGS B. Estimating articulated human motion with covariance scaled sampling[J]. The International Journal of Robotics Research, 2003, 22(6): 371-391 DOI:10.1177/0278364903022006003
[19]	WEISS D, SAPP B, TASKAR B. Sidestepping intractable inference with structured ensemble cascades[C]//Proceedings of Advances in Neural Information Processing Systems. Vancouver, Canada: MIT Press, 2010: 2415-2423. http://www.researchgate.net/publication/221619123_Sidestepping_Intractable_Inference_with_Structured_Ensemble_Cascades
[20]	TOKOLA R, CHOI W, SAVARESE S. Breaking the chain: liberation from the temporal Markov assumption for tracking human poses[C]//Proceedings of the IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 2424-2431. http://dl.acm.org/citation.cfm?id=2587249
[21]	ZHANG D, SHAH M. Human pose estimation in videos[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 2012-2020. http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=7410590
[22]	SHI Q, DI H, LU Y, et al. Video pose estimation via medium granularity graphical model with spatial-temporal symmetric constraint part model[C]//Proceedings of IEEE International Conference on Image Processing. Phoenix, USA: IEEE, 2016: 1299-1303. http://ieeexplore.ieee.org/document/7532568/
[23]	SAPP B, TOSHEV A, TASKAR B. Cascaded models for articulated pose estimation[C]//Proceedings of European conference on computer vision. Hersonissos, Greece: Springer Berlin Heidelberg, 2010: 406-420. http://www.springerlink.com/content/3233t3715ur41u35
[24]	TRAN D, WANG Y, FORSYTH D. Human parsing with a cascade of hierarchical poselet based pruners[C]//Proceedings of Multimedia and Expo (ICME), 2014 IEEE International Conference on. Chengdu, China: IEEE, 2014: 1-6. http://ieeexplore.ieee.org/document/6890316/
[25]	GKIOXARI G, HARIHARAN B, GIRSHICH R, et al. Using k-poselets for detecting people and localizing their keypoints[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 3582-3589. http://dl.acm.org/citation.cfm?id=2679600.2680056
[26]	吕峰, 邸慧军, 陆耀, 等. 基于分层弹性运动分析的非刚体跟踪方法[J]. 自动化学报, 2015, 41(2): 295-303 LYU Feng, DI Huijun, LU Yao, et al. Non-rigid tracking method based on layered elastic motion analysis[J]. Acta Automatica Sinica, 2015, 41(2): 295-303
[27]	DI H J, TAO L M, XU G Y. A mixture of transformed hidden Markov models for elastic motion estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(10): 1817-1830 DOI:10.1109/TPAMI.2009.111
[28]	PARK D, RAMANAN D. N-best maximal decoders for part models[C]//Proceedings of the IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 2627-2634. http://dl.acm.org/citation.cfm?id=2356373
[29]	SHEN H Q, YU S I, YANG Y, et al. Unsupervised video adaptation for parsing human motion[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 347-360. https://link.springer.com/chapter/10.1007%2F978-3-319-10602-1_23
[30]	WANG C Y, WANG Y Z, YUILLE AL. An approach to pose-based action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 915-922. http://ieeexplore.ieee.org/document/6618967/
[31]	SAPP B, WEISS D, TASKAR B. Parsing human motion with stretchable models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA: IEEE, 2011: 1281-1288. http://ieeexplore.ieee.org/xpl/abstractAuthors.jsp?arnumber=5995607