«上一篇 下一篇»
  山东大学学报(工学版)  2016, Vol. 46 Issue (2): 14-21  DOI: 10.6040/j.issn.1672-3961.2.2015.065
0

引用本文 

朱杰, 王晶, 刘菲, 高冠东, 段庆. 基于成分金字塔匹配的对象分类方法[J]. 山东大学学报(工学版), 2016, 46(2): 14-21. DOI: 10.6040/j.issn.1672-3961.2.2015.065.
ZHU Jie, WANG Jing, LIU Fei, GAO Guandong, DUAN Qing. Object classification method based on component pyramid matching[J]. Journal of Shandong University(Engineering Science), 2016, 46(2): 14-21. DOI: 10.6040/j.issn.1672-3961.2.2015.065.

基金项目

国家自然科学基金资助项目(61033013, 61370129, 61375062, 61300072, 61105056, 61402462);国家教育部博士点基金资助项目(20120009110006); 中央高校基础科研业务经费北京市科委资助项目(Z131110002813118);河北省教育厅青年基金资助项目(QN2015099); 2014年度全国司法行政系统理论研究规划课题资助项目(14GH2022);中国监狱工作协会监狱理论研究课题资助项目(2014YL41);河北省社会科学基金资助项目(HB15TQ013)

作者简介

朱杰(1982— ),男,河北保定人,博士研究生,主要研究方向为机器学习,机器视觉. E-mail:arthurzhujie@gmail.com

文章历史

收稿日期:2015-05-16
网络出版日期:2015-12-28 16:18:35
基于成分金字塔匹配的对象分类方法
朱杰1, 2, 王晶1, 刘菲3, 高冠东1, 段庆1    
1. 中央司法警官学院信息管理系,河北 保定 071000;
2. 北京交通大学计算机与信息技术学院交通数据分析与挖掘北京市重点实验室, 北京 100044;
3.中央司法警官学院现代教育技术中心, 河北 保定 071000
摘要: 提出基于成分金字塔匹配(component pyramid matching, CPM)的图像表示方法,将图像块按照颜色进行分层,在每一层中通过优化的方式选取几种颜色的图像块作为当前层次图像的前景成分,其余颜色的图形块作为图像的背景成分。前景成分对应对象的某些区域,能够为图像表示提供弱语义信息。然后,利用相似的颜色选择方法,对每一层背景成分进行再次划分,将其分为下一层前景成分和背景成分两部分。最后将这些成分所表示的直方图连接起来作为图像表示用于分类。试验采用Soccer、Flower17和Flower102 3个图像集进行测评,试验结果表明提出的算法能够得到比较好的分类结果。
关键词: 分类    颜色    成分金字塔匹配    图像表示    层次    
Object classification method based on component pyramid matching
ZHU Jie1, 2, WANG Jing1, LIU Fei3, GAO Guandong1, DUAN Qing1    
1. Department of Information Management, The Central Institute for Correctional Police, Baoding 071000, Heibei, China;
2. Beijing Key Lab of Traffic Data Analysis and Mining, School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China;
3. Modern Educational Technology Center, The Central Institute for Correctional Police, Baoding 071000, Heibei, China
Abstract: The image representation method based on component pyramid matching (CPM) was proposed, which separated the patches into different levels based on colors. In each level, some colors were selected by the optimal color selection method, then the patches with these selected colors were considered as the foreground components, and the rest of the patches with other colors were considered as the background components. Usually, the foreground components corresponded to some parts of the objects, which could supply weak semantic information for the image representation. Then, the background components were split into the foreground and background components in the next level based on the similar color selection method. The final representation of an image was obtained by concatenating the component histograms in each level. Classification results were presented on Soccer, Flower17 and Flower102 datasets, and the experiments showed that CMP could obtain satisfactory results in these datasets.
Key words: classification    color    component pyramid matching    image representation    level    
0 引言

图像分类是机器视觉领域的一个热点话题。词袋(Bag-of-Words,BOW)模型是一种非常优秀的图像表示方法,这种方法主要分为局部特征提取、特征编码和分类学习3步[1]。图像最终表示成为一种直方图的形式。然而,BOW图像表示方法没有考虑空间信息和局部特征之间的关系,使得BOW方法的对象表示能力受到限制。现实中的对象是多种多样的,在对应的区域进行特征提取用于图像表示是一个亟待解决的问题。许多文献尝试在BOW模型中融入空间信息,文献[2]首先基于不同的空间特征把局部特征进行映射产生一系列无序的特征,然后选择一种类似boosting的算法来选择特征进行图像表示。文献[3]利用成对临近的SIFT描述子来构建字典,把这种字典融入到BOW模型中增加了模型的空间信息,提高了分类精度。文献[4]用话题发现方法来发现图像的空间信息。文献[5]提出了一种快速核方法,用于把无序的特征集映射到多分辨率直方图中,并且在这些空间中计算直方图的交。空间子金字塔的方式能够有效的把空间信息融入到BOW表示中。文献[6]把空间金字塔匹配的方式用到自然场景分类中,这种方法首先把图像分割成更细的子区域,然后把子区域内的直方图连接起来用于图像表示。这种加入空间信息的方式能够提高场景分类的准确性。文献[7]提出了一种空间金字塔的扩展方法,这种方法首先通过稀疏编码对图像进行量化,然后用极大池化进行表示。但是这些基于空间金字塔的方法都是通过把图像硬分割成不同尺度的细胞单元,并且在相对应的细胞单元内进行匹配,如果场景或者对象不在相应的位置上则匹配效果比较差。为了解决这个问题,出现了很多基于学习并且能够融入空间信息的图像分类方法。文献[8]提出了一种新的识别框架,其中把估计不同图像分割块之间的空间重叠性问题当作一个回归问题。文献[9]提出了一种层次的图像匹配框架,在这种框架下首先用显著性图等信息作为边信息对图像进行分块,每一块的内容代表一个相关的语义信息,然后在每一块中用BOW的方式进行图像表示。这种方式比较好的克服了空间金字塔硬划分的缺陷,但是算法对每个划分得到的区域加权方式仍然存在缺陷。文献[10]提出了Object Bank的概念,通过这种方式可以对图像的外观和空间关系进行更高级的表示。文献[11]提出了一种新的有效的中层特征提取方法用于图像分类,并且提出选择那些有局部或者全局空间性的特征有利于构建更有区分力的直方图表示方法。文献[12]用一些图像的区域作为成分,但是这种成分选择方法不能找到类似的对象区域用于匹配。提出的成分对应一系列的图像区域,一个区域是由一种或某几种颜色组成,算法通过颜色视觉词找到某几种最有区分力的颜色,并且把这些颜色所属的区域当成成分。这些成分通常对应着一定的对象,然后通过一种类似层次的划分方式,把每一层的背景成分细分为下一层的前景成分和背景成分,用于最后的图像表示。图1为提出的成分金字塔(component pyramid matching,CPM)与空间金字塔(spatial pyramid matching,SPM)划分方法的区别。如图1所示,把图像A和B进行匹配,(c)和(d)为图像A和B的空间金字塔的匹配结果。当用空间金字塔方式进行匹配时,首先把图像划分成4个大小相同的细胞单元,然后对应细胞单元里的特征再进行匹配。由图1可以发现,(c)和(d)没有得到很好的匹配,图(c)中有两朵花,分别在细胞单元1和细胞单元2中,图(d)的朵花被平均分到了4个细胞单元当中,图(c)的细胞单元1里面包含了一朵花、花的叶子和背景的树。图(d)的细胞单元1里面包含了一部分的花和背景的树。不难发现这样的匹配没有针对某个类似的事物进行匹配,匹配效果不好。与此类似,两幅图像细胞单元2至细胞单元4的匹配结果也不好。(e)和(f)为成分金字塔的匹配结果,其中成分1中黄色的部分为成分的内容,即花的部分。成分2为花的叶子部分,成分3为背景的树的部分。利用成分金字塔加入的空间信息能够使两幅图像得到更好的匹配结果,更有利于图像表示。

图1 空间金字塔与成分金字塔划分方法的区别 Fig.1 Split differences between SPM and CPM
1 基于颜色的成分识别

成分金字塔匹配尝试把图像划分为前景成分和背景成分两部分,划分的条件是假设前景是当前图像中最有区分力的颜色的集合。有区分力颜色的选择是基于BOW框架的。在BOW框架下,图像Ii(i=1,2,…,N,N为图像的数量)中提取的局部特征表示为fij(j=1,2,…,Mi,Mi为从图像Ii上提取的局部特征的数量)。视觉词是wnK (n=1,2,…,VK),其中K∈{s,c}为形状或颜色,VK为形状或颜色视觉词的数量。用SIFT(Scale-invariant Feature Transform)[13]描述子来描述局部形状特征,CN(Color Name)[14]和HUE[15]两种描述子描述局部的颜色特征。颜色直方图和形状直方图体现出某种颜色和形状出现的频率。

文献[16]提出用自顶向下的颜色注意力(color attention,CA)找到有可能是对象区域的图像块,并且认为在某类当中出现频率高的颜色就是对象上的颜色。这种方式不能直接应用到对象颜色估计,因为首先在图像中往往存在多个对象,如图1中的花和草等,假设类内只有一种颜色的方法是不合理的。其次,同一类对象往往是由多种颜色组成的。为了尽可能使估计的前景成分包含完整的对象,需要对当前对象的颜色进行估计。

通常情况下,那些最具有代表性的前景颜色是最有区分力的颜色。每一个类别的颜色直方图可以用来表示不同颜色在这类图像中出现的比例,而有区分力的颜色直方图只保留了颜色直方图中最有区分力的颜色。图2解释了颜色直方图和有区分力的颜色直方图之间的区别。图2(a)为一副AC Milan类别的图像,图2(b)为AC Milan类别的颜色直方图,除了显示出前景中对象的颜色还显示出了背景中草地和广告牌的颜色,图2(c)为AC Milan类别的有区分力的颜色直方图,只显示了对象颜色出现的频率,其他的颜色被忽略掉了。

图2 AC Milan队的颜色直方图和有区分力的颜色直方图 Fig.2 The differences between color histogram and discriminative color histogram of AC Milan

CA认为在某类中出现频率越高的颜色越有可能是对象颜色,但是在Soccer图像集中草地的颜色和Flower图像集中土地的颜色也是高频颜色。

为了得到每类的有区分力的颜色直方图,首先用互信息的方式来衡量颜色与类别的相关性,表达式为:

\[\text{MI}\left( w_{n}^{c},\text{class} \right)=\log \frac{p\left( w_{n}^{c},\text{class} \right)}{p\left( w_{n}^{c} \right)\times p\left( \text{class} \right)}=\log \frac{p\left( w_{n}^{c}|\text{class} \right)}{p\left( w_{n}^{c} \right)},\] (1)
式中class为类别。式(1)衡量了wnc和class的互信息,可以发现互信息值与wnc在class中出现的概率成正比,与wnc在所有图像中出现的频率成反比。

互信息值越高,当前的视觉词与某类越相关。算法首先计算所有的颜色视觉词与某一类的互信息值,并且由大到小进行排序,然后选择与任意类i最相关的前mi(i=1,2,…,k,k为类别的数量)种颜色来构建有区分力的颜色直方图。

为了获得与每类最相关的颜色视觉词数量mi,算法构造了如下目标函数:

$$\eqalign{ & \mathop {min}\limits_{{m_i},i = 1, \cdots ,k} \sum\limits_{i = 1}^{k - 1} {} \sum\limits_{j > i}^k {{\rm{Sim}}\left( {{\rm{D}}{{\rm{H}}_{i{m_i}}},{\rm{D}}{{\rm{H}}_{j{m_j}}}} \right) - } \sum\limits_{i = 1}^k {{\rm{Sim}}\left( {{H_i},{\rm{D}}{{\rm{H}}_{i{m_i}}}} \right)} , \cr & {\rm{s}}{\rm{.t}}{\rm{. 1}} \le {m_i} \le {V^c}, \cr} $$ (2)
式中:Hi和DHimi分别为第i类的颜色直方图和最有区分力的颜色直方图;Sim(·,·)是两个直方图之间的相似度,这里用直方图的交来衡量。

式(2)中的目标函数构造过程中首先假设任意两类前景的对象颜色是不一样的,在目标函数的第一项中希望任意两个不同类的前景颜色越不相似越好。目标函数的另外一个假设是希望相同类别的颜色直方图和有区分力的颜色直方图相似,也就是希望有区分的颜色选择不会对图像本身的颜色构成太大的损失。目标函数的第二项计算了所有类别的颜色直方图和有区分力的颜色直方图相似度,这个值越大越好。可以通过坐标下降法求解目标函数得到。迭代过程为:

\[\begin{align} & m_{1}^{\left( t+1 \right)}=\arg \text{ }\underset{p=1}{\overset{{{V}^{c}}}{\mathop{\min }}}\,\sum\limits_{i=2}^{k-1}{{}}\sum\limits_{j>i}^{k}{\text{Sim}}\left( \text{D}{{\text{H}}_{im_{l}^{\left( t \right)}}},\text{D}{{\text{H}}_{jm_{j}^{\left( t \right)}}} \right)+\sum\limits_{j>1}^{k}{\text{Sim}}\left( \text{D}{{\text{H}}_{1p}},\text{D}{{\text{H}}_{jm_{j}^{\left( t \right)}}} \right)- \\ & \sum\limits_{l=2}^{k}{\text{Sim}}\left( {{H}_{l}},\text{D}{{\text{H}}_{lm_{l}^{\left( t \right)}}} \right)-\text{Sim}\left( {{H}_{1}},\text{D}{{\text{H}}_{1p}} \right) \\ & \cdots \\ & m_{q}^{\left( t+1 \right)}=\arg \text{ }\underset{p=1}{\overset{{{V}^{c}}}{\mathop{\min }}}\,\sum\limits_{i\ne q}^{k-1}{{}}\sum\limits_{j>i,j\ne q}^{k}{\text{Sim}}\left( \text{D}{{\text{H}}_{im_{i}^{\left( t \right)}}},\text{D}{{\text{H}}_{jm_{j}^{\left( t \right)}}} \right)+\sum\limits_{j>p}^{k}{\text{Sim}}\left( \text{D}{{\text{H}}_{qp}},\text{D}{{\text{H}}_{jm_{j}^{\left( t \right)}}} \right)+ \\ & \sum\limits_{i<q}^{k-1}{\text{Sim}}\left( \text{D}{{\text{H}}_{i,m_{i}^{\left( t \right)}}},\text{D}{{\text{H}}_{qp}} \right)-\sum\limits_{l\ne q}^{k}{\text{Sim}}\left( {{H}_{l}},\text{D}{{\text{H}}_{lm_{l}^{\left( t \right)}}} \right)-\text{Sim}\left( {{H}_{q}},\text{D}{{\text{H}}_{qp}} \right) \\ & \cdots \\ & m_{k}^{\left( t+1 \right)}=\arg \text{ }\underset{p=1}{\overset{{{V}^{c}}}{\mathop{\min }}}\,\sum\limits_{i=1}^{k-1}{{}}\sum\limits_{j>i}^{k-1}{\text{Sim}}\left( \text{D}{{\text{H}}_{im_{i}^{\left( t \right)}}},\text{D}{{\text{H}}_{jm_{j}^{\left( t \right)}}} \right)+\sum\limits_{i=1}^{k-1}{\text{Sim}}\left( \text{D}{{\text{H}}_{kp}},\text{D}{{\text{H}}_{im_{i}^{\left( t \right)}}} \right)- \\ & \sum\limits_{l=1}^{k-1}{\text{Sim}}\left( {{H}_{l}},{{H}_{lm_{l}^{\left( t \right)}}} \right)-\text{Sim}\left( {{H}_{k}},{{H}_{kp}} \right),\\ \end{align}\] (3)
式中:mq(t)mq(t+1) 分别代表旧的和更新过后的第q类的最有区分力的颜色数量。

2 基于颜色的成分金字塔划分方法

空间金字塔匹配可以认为是一种层次匹配的方法,通过把图像划分成越来越细的细胞单元来增加空间信息,这种策略简单并且能够获得良好的分类效果,但是对于对象分类,因为对象可能出现在图像的任意位置,使各细胞单元之间不能很好匹配,难以提高识别的准确率。为了解决这个问题,提出了一种基于成分的层次划分方法来表示图像,如图3所示。图3中,从上到下为第一、二、三层,原图像在第一层。在第二层中,通过有区分力的颜色识别方法,把图像划分为前景成分和背景成分,最有区分力的颜色是花朵的颜色,所以把图像分成了前景的成分花朵和背景成分花的叶子、树叶和大树两部分。在第三层,认为花的叶子是第二层背景图像的前景成分,剩余部分为背景成分。在划分每一层的背景图像时,都把当前背景的内容作为本类图像的内容。每一次划分都把当前图像中有区分力的颜色的区域内容当做前景,其他作为背景。

图3 图像的成分层次划分方法 Fig.3 The hierarchical partition of CPM

假设视觉颜色字典Wc=(w1c,w2c,…wVcc),其中wic 为第i个视觉颜色词,Vc为颜色词的数量。在第N层的图像中,第j类的颜色直方图组成的向量QjNc=(qjN1c,qjN2c,…,qjNVcc),qjNic 为第j类中在第N层图像中wic 出现的频率,1≤i≤Vc,其中qjNic=0,wicSN-1c,其中SN-1c 是前N-1层最有区分力的颜色的集合。

3 成分的直方图表示方法

在每一个成分中,用多特征融合的方式对成分区域进行BOW表示,其中最常见的方式就是早融合和晚融合的方式[16],早融合把局部的特征描述子加权连接起来,形成一种新的描述子

\[f_{ij}^{sc}=\left( \beta f_{ij}^{s},\left( 1-\beta \right)f_{ij}^{c} \right),\] (4)
式中:β为权重,β∈[0,1],图像表示时用于调整颜色和形状的重要性,如果形状特征是主要特征,β赋予一个较大的值,如果颜色是主要特征,β趋近于0。

晚融合通过把不同特征表示的直方图加权连接起来形成最终的图像表示。假设Hs(I)和Hc(I)是成分I的形状直方图和颜色直方图,晚融合的直方图表示为

\[{{H}^{sc}}\left( I \right)=\left[\beta {{H}^{s}}\left( I \right),\left( 1-\beta \right){{H}^{c}}\left( I \right) \right]\circ \] (5)

因为应用早融合方式需要再次聚类,并且晚融合在形式上与空间金字塔的表示方式类似,这里选择晚融合的方式进行图像表示。对于图像I,加权连接前景和背景成分直方图,其中把原图像认为是第一层的前景和背景成分,则第j层的图像表示为:

\[H_{j}^{sc}\left( I \right)=\left[\alpha H_{jf}^{sc}\left( I \right),\left( 1-\alpha \right)H_{jb}^{sc}\left( I \right) \right],\] (6)
式中:Hjfsc (I)和Hjbsc (I)分别代表第j层前景和背景成分;α为权重,α∈[0,1],用于调整前景和背景的重要性,取α=0.7。

整个图像的直方图表示为:

\[{{H}^{sc}}\left( I \right)=\left[H_{1}^{sc}\left( I \right),H_{2}^{sc}\left( I \right),\cdots ,H_{L}^{sc}\left( I \right) \right],\] (7)
式中L为总的层数;

与CA相似,在最后进行图像表示的时候,首先假设当前的图像属于所有类,然后得到有类区分的形状颜色直方图,最后把这些有类区分的直方图连接起来形成图像表示。最终图像表示的维度是2kL(Vs+EVc),其中k为类的数量,E代表颜色描述子的数量。

4 试验结果与分析 4.1 试验数据

算法在3个图像集上进行试验。图像集1是Soccer图像集[15],包含了7类足球队的280幅图像,其中175幅用于训练,105幅用于测试。在这个图像集中颜色是最主要的特征,球队的衣服颜色是最有区分力的颜色。图像集2是Flower17图像集[17],包含了17类花,其中1 020幅图像用于训练,340幅图像用于测试,在这个图像集中颜色和形状都是最主要的特征。图像集3是Flower102图像集[18],包含了102类花的8 189幅图像,其中每类当中给定了10幅图像用于训练和10幅图用于验证,剩下的用于测试。在这个图像集中颜色和形状都是最主要的特征。

4.2 试验设计

试验采用标准的BOW框架,SIFT描述子用于构造形状字典,CN和HUE两种颜色描述子用于构造颜色字典。在Soccer图像集中,视觉形状字典的长度是400,视觉颜色字典的长度是300。在Flower17和Flower102图像集中,视觉形状字典的长度是1 000,视觉颜色字典的长度是500。采用密采样的方式对图像进行采样,图像中每隔8个像素采样,每个图像块的大小是16像素×16像素。试验中,用标准的非线性SVM进行分类,在3个图像集中都采用了交核,并且C=1。β通过交叉验证得到。

4.3 试验结果

Soccer图像集中,图像中对象位置的空间特性不明显,如图4所示,Ac Milan的图像当中有多个球员,他们分布的位置几乎在整个图像中,Barcelona的球员在左边,Chelsea的球员在右边,Madrid的球员在上面。

图4 Soccer图像集 Fig.4 The images from Soccer

表1显示了CPM与一些优秀算法的分类结果比较。其中早融合算法的字典维度为1200,晚融合算法形状和颜色字典的维度分别为400和300。从表1可以看出,在Soccer图像集中,晚融合的分类效果要优于早融合,这是因为晚融合是把图像的形状直方图和颜色直方图加权连接起来,颜色在这个图像集中占有更重要的作用,给颜色赋予更大的权重能够更好的体现出两种特征的关系,早融合方法把局部颜色和形状特征加权连接,这种方式对于Soccer图像库的图像表示效果不好,因为对于某些图像块如广告、队标等,图像块形状信息与颜色信息同样重要或者更为重要。

表1 Soccer图像集上的结果 Table 1 Experimental results on Soccer

当把早融合和晚融合算法应用于3层空间金字塔的时,由于融入了空间信息,算法精度有了明显的提高。CA和LRFF与CPM相似,都是只融合了颜色特征和形状特征进行分类,其中CA融入了一些空间信息,给可能是对象的图像块加入了大权值,但是频繁出现的背景也被赋予了大权值。LRFF只是通过逻辑回归对视觉词进行了加权,并没有融入空间信息。当采用3层成分金字塔时候,CMP要优于这些算法。

Flower17图像集中,图像中花朵位置的空间特性不明显,如图5所示,Daffodil和Daisy中的花朵分别处于图像的左上和右下方,LilyValley的花朵处于图像的左下和右上方,Crocus的花朵则充满了整张图片。

图5 Flower 17图像集 Fig.5 Images from Flower 17

表2显示了CPM与一些优秀算法的结果比较。由于Flower 17图像集比较大,为了获得更好的分类效果,试验中早融合的字典维度为2 000,晚融合的形状和颜色字典维度为1 200和300。在Flower 17图像集中,颜色和形状都很重要,通过交叉验证得到早融合和晚融合的权重,发现形状和颜色的权重非常相似,所以早融合和晚融合方法的分类精度相似,当加入空间金字塔之后,两种方法的分类精度都有所提高。

表2 Flower 17图像集上的结果 Table 2 Experimental results on Flower 17

CA、LRFF和CPM应用了同样的描述子SIFT+CN+HUE,由于提出的算法不但融合了多种特征,而且加入了空间信息,提出的算法仍然优于CA,但是结果与LRFF相似。MKL用了3种特征[20],KMTJSRC-CG除了颜色和形状信息还用到的HOG特征[21],lpMK-FDA中利用了7种不同特征的距离[22]。提出的算法只利用了颜色和形状两种特征就已经获得了优秀的结果。

Flower102图像集中的训练集测试集和验证集是提前给定的,并且此图像集同样没有明显空间信息,每幅图像中花朵所在的位置不确定,如图6所示。图像库中花朵的主要颜色比较相似,如红、黄和紫等,所以在图像表示的过程中,形状比颜色的作用更加明显。

图6 Flower 102图像集 Fig.6 Images from Flower 102

表3中可以看到,在3层空间金字塔加入到早融合和晚融合之后,分类准确率分别提高了将近0.2%,而CPM的精度达到了72.1%,CA通过构建注意力图找到对象区域,也提供了空间信息,但是由于不能猜测出对象的具体位置,其精度甚至低于晚融合的空间金字塔示。显著性图是常见的对象区域选择方法,文献[23]尝试通过显著性图的方式加入空间信息,但是分类效果仍然低于CPM。通常情况下,引入图像分割的方法会提高算法的精度[24, 25],但是CPM在只应用2种描述子并且没有用图像分割方法的前提下也得到了比较好的分类精度。

表3 Flower 102图像集上的结果 Table 3 Experimental results on Flower 102
5 结语

提出了一种成分金字塔的图像表示方式,与传统的空间金字塔的硬划分相比,CPM在每一层通过对图像中最有区分力颜色的判断,把图像分成前景成分和背景成分两部分,然后对背景成分继续划分。这种方式在每层中把几种颜色组成的区域当做前景对象成分进行匹配,能够提供更好的空间信息。通过算法试验比对,CPM图像表示方法在3个图像集上都能取得比较好的分类效果。但目前的方法只融入了颜色和形状特征,在以后的工作中尝试融入更多的特征,用以更好的判断对象区域。此外,由于提出的有区分力的颜色识别方法能够比较准确的估计对象颜色继而判断对象区域,在以后的工作中,会对此方法进一步改进,使其能够应用到视频跟踪分析当中。

参考文献
[1] CSURKA G, DANCE CR, FAN LX, et al. Visual categorization with bags of keypoints[C]//Proceedings of the 8th European Conference on Computer Vision. Prague: IEEE, 2004:1-22.(1)
[2] CAO Y, WANG C, LI Z, et al. Spatial-bag-of-features[C]//Proceedings of the 23th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010:3352-3359.(1)
[3] MORIOKA N, SATOH S. Building compact local pairwise codebook with joint feature space clustering[C]//Proceedings of the 11th European Conference on Computer Vision. Crete: IEEE, 2010:692-705.(1)
[4] SIVIC J, RUSSELL B, EFROS A, et al. Discovering objects and their location in images[C]//Proceedings of the 10th International Conference on Computer Vision. Beijing:IEEE, 2005:370-377.(1)
[5] GRAUMAN K, DARRELL T. The pyramid match kernel: Discriminative classification with sets of image features[C]//Proceedings of the 10th International Conference on Computer Vision. Beijing: IEEE, 2005:1458-1465.(1)
[6] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of the 19th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York:IEEE, 2006:2169-2178.(1)
[7] YANG J, YU K, GONG Y, et al. Linear spatial pyramid matching using sparse coding for image classification [C]//Proceedings of the 22th IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Florida: IEEE, 2009:1794-1801.(1)
[8] LI F, CARREIRA J, SMINCHISESCU C. Object recognition as ranking holistic figure-ground hypotheses[C]//Proceedings of the 23th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010:1712-1719.(1)
[9] CHEN Q, SONG Z, HUA Y, et al. Hierarchical matching with side information for image classification[C]//Proceedings of the 25th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Rhode Island: IEEE, 2012:3426-3433.(1)
[10] LI L J, SU H, LIM Y, et al. Object bank: an object-level image representation for high-level visual recognition[J].International Journal of Computer Vision, 2014, 107(1):20-39.(1)
[11] FERNANDO B, FROMONT E, TUYTELAARS T. Mining mid-level features for image classification[J]. International Journal of Computer Vision, 2014, 108(3): 186-203.(1)
[12] LIU J, ZHANG C, TIAN Q, et al. One step beyond bags of features: visual categorization using component[C]//Proceedings of the International Conference on Image Processing. Brussels: IEEE, 2011:2417-2420.(1)
[13] LOWE D G. Object recognition from local scale-invariant features[C]//Proceedings of the 7th International Conference on Computer Vision. Kerkyra:IEEE, 1999: 1150-1157.(1)
[14] VAN-DE-WEIJER J, SCHMID C, VERBEEK J, et al. Learning color names for real-world applications[J].IEEE Transactions on Image Processing, 2009, 18(7):1512-1523.(1)
[15] VAN-DE-WEIJER J, SCHMID C. Coloring local feature extraction[C]//Proceedings of the 9th European Conference on Computer Vision. Graz: IEEE, 2006:334-348.(2)
[16] SHAHBAZ-KHAN F, VAN-DE-WEIJER J, VANRELL M.Top-down color attention for object recognition[C]//Proceedings of the 12th International Conference on Computer Vision. Tokyo: IEEE, 2009:979-986.(8)
[17] NILSBACK M E, ZISSEMAN A. A visual vocabulary for flower classification[C]//Proceedings of the 19th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2006:1447-1454.(1)
[18] NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes[C]//Proceedings of the 6th Indian Conference on Computer Vision, Graphics and Image Processing. Bhubaneswar: IEEE, 2008:722-729.(1)
[19] FERNANDO B, FROMONT E, MUSELET D, et al. Discriminative feature fusion for image classification[C]//Proceedings of the 25th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Rhode Island: IEEE, 2012:3434-3441.(2)
[20] GEHLER P, NOWOZIN S. On feature combination for multiclass object classification[C]//Proceedings of the 12th International Conference on Computer Vision. Tokyo:IEEE, 221-228.(2)
[21] YUAN X T, YAN S. Visual classification with multi-task joint sparse representation[C]//Proceedings of the 23th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010:3493-3500.(2)
[22] YAN F, MIKOLAJCZYK K, BARNARD M, et al. Lp norm multiple kernel fisher discriminant analysis for object and image categorisation[C]//Proceedings of the 23th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010:3626-3632.(2)
[23] KANAN C, COTTRELL G. Robust classification of objects, faces, and flowers using natural image statistics [C]//Proceedings of the 23th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010:2472-2479.(2)
[24] CHAI Y, LEMPITSKY V, ZISSERMAN A. BiCoS: A Bi-level Co-Segmentation Method for Image Classification[C]//Proceedings of the 13th International Conference on Computer Vision. Barcelona: IEEE, 2011:2579-2586.(1)
[25] CHAI Y, RAHTU E, RAHTU E, et al. Tricos: A tri-level class-discriminative co-segmentation method for image classification[C]//Proceedings of the 12th European Conference on Computer Vision. Firenze: IEEE, 2012:794-807.(1)