交通标志识别(traffic sign recognition, TSR)系统是智能交通系统(intelligent transportation systems, ITS)的重要组成部分, 在无人驾驶技术和辅助驾驶技术中起着关键作用[1-3]。此外, 交通标志的识别还可应用于盲人辅助导航、智能机器人等领域, 因此对交通标志识别技术的研究非常具有学术意义和实用价值[4]。
TSR系统主要分为检测定位阶段和分类识别阶段[5]。关于检测方面的研究已有很多[6-8], 本研究主要研究交通标志的分类。目前常用的分类方法有模板匹配法、神经网络分类法、特征提取结合分类器的机器学习法等。模板匹配法主要是利用目标与已知模板的相似程度进行分类识别, 文献[9]利用输入图像与标志模板间的互相关运算实现了标志分类, 但是交通标志存在多样性(比如变形、褪色、遮挡等), 使得模板的选择较为困难, 且计算量较大。基于神经网络的分类方法是目前交通标志识别研究最多的一类算法, Ciresan等[10]提出的基于卷积神经网络的标志分类方法在公开的GTSRB数据集上获得了目前最高的分类准确率, 但是该类算法运算量较大, 实时性较差。基于特征提取结合分类器的机器学习法是实际应用中较为可靠的方法, 文献[11]通过提取HOG特征并引入随机森林分类器实现了标志的识别。
LBP、HOG特征作为局部特征算子已广泛应用于人脸识别、车牌检测、行人检测等领域[12-13], 全局Gist特征[14-15]主要应用于场景分类等[16-17]。根据我国交通标志的特点, 本研究提出了一种基于多特征融合的交通标志分类方法, 通过提取交通标志图像的LBP、HOG以及Gist特征并进行融合实现特征互补, 针对多特征融合后数据维数较高的问题, 采用主成分分析法[18]进行数据降维, 最后通过线性SVM分类器进行训练, 在测试数据上获得了相对于提取单一特征时更高的分类准确率, 且满足实时性要求。图 1给出了本研究基于多特征融合的交通标志分类方法的整体流程。
LBP特征是一种描述图像局部纹理特征的算子, 可以用来描述交通标志内部的指示信息。原始LBP算子只覆盖了一个固定半径的小区域, 且随着邻域集内采样点数p的增加, 二进制模式的种类急剧增加, 这不利于特征的提取、分类以及存储。
本研究采用OJALA T等[19]提出的LBP“等价模式”对LBP算子的模式种类进行降维。当某个LBP所对应的循环二进制数从0到1或从1到0最多有两次跳变时, 该LBP所对应的二进制就称为一个等价模式类。采用该算子后, LBP特征的维数由2p变为p(p-1)+2, 大大降低了LBP特征向量的维数。图 2给出了原始LBP与LBP等价模式的编码方式。
本研究提取交通标志LBP特征的具体步骤如下:(1) 将图像进行分块, 块的大小为20×20, 块与块之间的重叠率为50%; (2) 对每块图像进行等价模式LBP特征的提取, 其中采样点数p=8, 采样半径R分别取1, 3;(3) 将每个小块区域所得LBP特征连接起来作为整幅图像的LBP特征。
按照上述步骤, 对于一幅40×40的交通标志图像, 图像可分为9块, 每一个采样半径下的LBP特征有59维, 则最终的LBP特征维数为59×9×2=1 062。
1.2 HOG特征的提取HOG特征[20]通过统计图像局部区域的梯度方向信息作为该局部图像区域的表征, 可以较好地提取交通标志的形状信息, 本研究提取HOG特征的过程主要为:(1) 将归一化大小的样本图像作为输入, 通过梯度算子计算水平和垂直方向上的梯度, DALAL N等人利用许多一阶微分模板进行梯度近似值的计算, 但在试验中表明使用模板[-1, 0, 0]时效果最好。(2) 统计局部图像梯度信息, 把样本图像分割为若干个像素的单元(cell), 把梯度方向平均划分为k个区间(bin), 在每个单元内对所有像素的梯度方向在k个方向区间上进行直方图统计, 得到一个k维的特征向量; (3) 每相邻的4个cell构成一个块(block), 把一个块内的所有cell的特征向量联起来得到该block区域的特征描述向量; (4) 以块为单位对样本图像进行扫描, 扫描步长设定为cell大小, 将所有块的特征向量串联起来构成样本图像最终的HOG特征描述子。
本研究提取图像HOG特征时采用的参数:cell为8×8, block为16×16, 梯度方向划分为9个方向, 则对于40×40的交通标志图像来说, HOG特征维数为576维。
1.3 Gist特征提取Gist特征是通过模拟人的视觉来提取图像粗略的信息, 同时还能反映上下文信息[16]。Gist特征是一种全局特征, 主要是使用多尺度多方向的Gabor滤波器组对图像滤波后提取图像的轮廓信息, 这里的Gabor滤波器实质为二维Gabor函数, 其表达式为
$g\left( {x,y} \right) = \frac{1}{{2\pi {\sigma _x}{\sigma _y}}}\exp \left[{ - \left( {\frac{{{x^2}}}{{\sigma _x^2}} + \frac{{{y^2}}}{{\sigma _y^2}}} \right)} \right]\cos \left( {2\pi {f_0}x + \varphi } \right),$ | (1) |
式中:x和y分别代表图像像素的横纵坐标; f0为滤波器频率; σx和σy为沿方向x和方向y上高斯分布的方差; φ为谐波相位差。
在Gabor滤波器g(x, y)基础上可通过尺度和旋转变换扩展成多尺度多方向的Gabor滤波器组, 这是一种自相似Gabor小波, 即:
$\left\{ \begin{gathered} {g_{mn}}\left( {x,y} \right) = {a^{ - m}}g\left( {x',y'} \right),a > 1; \hfill \\ x' = {a^{ - m}}\left( {x\cos \theta + y\cos \theta } \right); \hfill \\ y' = {a^{ - m}}\left( { - x\sin \theta + y\cos \theta } \right); \hfill \\ \theta = n\pi /\left( {n + 1} \right). \hfill \\ \end{gathered} \right.$ | (2) |
式中:a-m为母小波膨胀尺度因子; θ为滤波器的方向; m和n分别为Gabor滤波器组的尺度数和方向数, 通过调整m和n的值就可以构造不同的二维Gabor滤波器。
本研究标志图像的Gist特征提取过程为:
(1) 将一幅大小为w×h的灰度图像f(x, y)划分成大小相等的np×np个规则网格, 网格块按行依次记为Pi, 其中i=1, 2, …, np×np, 每个网格块的大小记为w′×h′, 则有w′=w/np, h′=h/np。
(2) 用nc个通道(即m尺度n方向, nc=m×n)的滤波器对图像的每个网格块进行卷积操作, 则每个网格块各通道滤波后级联的结果称为块Gist特征, 即:
$G_i^P\left( {x,y} \right) = \mathop {{\text{cat}}}\limits_{{n_c}} \left( {f\left( {x,y} \right)*{g_{mn}}\left( {x,y} \right)} \right),\left( {x,y} \right) \in {P_i},$ | (3) |
式中:cat为级联运算符; GP的维数为nc×w′×h′。
(3) 对GP各通道滤波结果取平均值后按行串联组合得到图像的全局Gist特征, 即:
${G^G} = \left\{ {\overline {G_1^P} ,\overline {G_2^P} ,\cdots ,\overline {G_{{n_p} \times {n_p}}^P} } \right\},$ | (4) |
式中:
本研究按照OLIVA A和TORRALBA A的方法[14-15]将交通标志图像划分为4×4的规则网格, 利用4尺度8方向共32个Gabor滤波器得到交通标志图像的全局Gist特征, 其特征维数为4×4×32=512。
2 特征融合与数据降维 2.1 特征融合通过上述特征提取过程可分别得到交通标志图像的LBP特征、HOG特征和Gist特征, 3种特征各有优势, LBP特征可以较好地描述交通标志的内部纹理信息, HOG特征对标志边缘信息有较强的描述能力, Gist特征作为一种全局特征则可以较好地表述标志图像的整体信息。
为降低计算复杂度, 本研究选择线性组合方式将3种特征融合起来, 即:
$\boldsymbol{F} = {k_1}{\boldsymbol{F}_{{\text{LBP}}}} + {k_2}{\boldsymbol{F}_{{\text{HOG}}}} + {k_3}{\boldsymbol{F}_{{\text{Gist}}}},$ | (5) |
式中:k1, k2, k3分别为3种特征融合时的权重系数, 且k1+k2+k3=1, 在融合之前将各自的特征值均归一化至[0, 1]区间;FLBP、FHOG、FGist分别代表提取的LBP、HOG、Gist特征向量;F为融合后的特征向量。根据文献[17]和多次试验表明, 当k1=k2=k3时融合特征取得的分类效果最佳。
2.2 数据降维对于一幅40×40的交通标志图像, 提取的LBP、HOG、Gist特征的维数分别为1 062、576、512, 由公式(5)可知, 融合后的特征维数D是3种特征的维数之和, 特征维数过高会造成训练模型复杂、训练速度过慢等问题, 为此, 本研究采用PCA进行数据降维, 去掉数据中的冗余信息。主要方法是在保证均方误差最小的前提下, 将D维的特征向量映射到维数为d的特征子空间中, 其中d≪D, 通过求解协方差矩阵的特征向量与特征值, 并只保留前d个较大特征值的特征向量, 使得前d列特征向量包含的信息量之和占总信息量的大部分, 试验中取95%, 重新建立坐标系, 构成PCA算法的映射变换矩阵W。则融合特征向量F经PCA算法后的输出为:
$\boldsymbol{f} = {\boldsymbol{W}^{\text{T}}}\boldsymbol{F}$ | (6) |
这样D维特征向量F就可以得到降维后的d维向量f。
3 交通标志分类与试验结果分析 3.1 基于SVM的多类标志识别本研究采用SVM分类器实现交通标志的分类识别。传统的SVM是基于二分类问题的, 对于多类问题则需要通过多个二分类器的组合来实现。常用的组合策略有“一对多”(one-versus-rest)和“一对一”(one-versus-one)方法[21]。在“一对多”策略中, 在训练时依次把每类样本作为一类, 其余样本归为另一类, 这样对于C类样本可以构造出C个分类器, 分类时将未知样本归类为具有最大分类函数值的类别。“一对一”策略则是在任两类样本之间构造一个SVM分类器, 对于C个类别的样本需要设计C(C-1)/2个分类器, 当对一个未知样本进行分类时, 采用投票机制, 得票最多的类别即为该未知样本的类别。
本研究在多类标志识别中采用“一对一”方法, 并且为了提高训练和测试速度, 选用线性核函数。
3.2 训练及测试数据库由于国内目前还没有公开的交通标志数据库, 因此本研究首先构建训练及测试数据库, 数据库中的标志样本一部分来自于GTSRB图像库, 一部分由实验室人员在济南市区拍摄所得。数据库主要包括禁令标志、指示标志以及警告标志三大类, 其中每类标志包含6种标志牌, 标志具体种类如图 3所示, 各类标志数量如表 1所示。数据库包含了不同天气、不同光照条件以及遮挡、模糊等情况下的交通标志, 充分体现了实际自然场景中交通标志的各类情况, 部分样本如图 4所示。
本研究算法实现平台为Matlab R2012b, 计算机硬件配置为Intel(R)Core(TM)i3 CPU, 主频为2.53 GHz, 内存为6 GB。为了验证本研究提出的多特征融合算子的有效性, 在试验中, 将本研究算法与LBP、HOG和Gist算法进行比较。提取特征之前, 数据库中的标志图像尺寸均归一化为40×40。
首先, 分别提取训练数据库中18类交通标志的LBP、HOG和Gist特征, 并送入SVM分类器进行训练, 得到各自特征的分类器。然后利用式(5)进行特征融合, 并通过SVM训练得到融合特征的分类器。试验中采用LIBSVM库, 训练参数相同, 均采用线性核函数、“一对一”训练方式。
表 2给出了采用单一特征算子和本研究融合特征算子进行标志分类的性能比较[22-23]。由表 2可以看出, 本研究采用的融合特征算子在识别准确率上有较大提高, 比单一的LBP、HOG和Gist算子分别提高了5.99%、2.47%和7.73%。由于本研究采用简单的线性组合方式进行特征融合, 特征算子的维数大大提高, 使得算法的实时性下降。
为了提高标志识别的实时性, 本研究采用PCA对融合后的特征算子进行降维处理。表 3给出了采用PCA方法和线性判别分析(linear discriminant analysis, LDA)法进行数据降维的性能比较。由表 3中数据可以得出:LDA虽然可以将特征数据的维数降为17维, 识别一幅图像所需时间仅为0.12 ms左右, 但是经LDA降维后的识别准确率大大降低; 而PCA在保留总信息量95%的情况下不仅可以将原始数据由2 150维降为393维, 并且在识别准确率上达到了92.91%, 比不降维时的识别率高出了0.08%, 算法的实时性也得到较大提升。因此本试验中采用PCA降维的效果要优于LDA。
本研究比较了SVM、k最近邻(k-nearest neighbors, k NN)和AdaBoostM2 3种多分类算法在数据库上的优劣。表 4给出了融合特征经PCA降维后在这3种分类算法中的试验结果对比, 其中k NN算法的训练时间最短, 其次是SVM算法, AdaBoostM2算法最长; 在平均识别时间方面, AdaBoostM2算法识别时间最短, 其次是SVM算法, k NN算法最长; 在识别率方面, SVM算法达到了92.91%, k NN算法为80.01%, AdaBoostM2算法只有22.36%。综合看来, 经PCA方法降维后的特征数据在使用SVM算法分类时达到了最佳的效果。
图 5给出了使用本研究算法所得到的混淆矩阵。可以看出, 本研究算法对指示标志和警告标志的分类效果较好, 其中个别标志的分类准确率可以达到100%, 对于禁令标志中的限速标志分类效果相对较差, 限速30和50两种标志牌的识别率分别为84%和86%, 主要原因是限速标志牌相似度较高, 很难区分。
本研究提出了一种基于多特征融合的交通标志分类方法, 首先分别提取图像的局部LBP特征、HOG特征和全局Gist特征, 然后采用线性组合方式, 实现特征互补, 并通过PCA方法解决了特征数据维数过高的问题, 最后使用线性SVM进行标志的分类识别。试验结果表明:相对于提取单一特征的交通标志分类方法, 本文算法获得了更高的分类精确度, 对于40×40的标志图像的识别时间仅为3.14 ms, 满足实时性要求。但是本文算法对于限速标志牌的准确率相对较低, 这将是今后研究的重点方向。
[1] |
陈龙, 潘志敏, 李清泉, 等. 利用ASIFT算法实现多视角静态交通标志识别[J].
武汉大学学报·信息科学版 , 2013, 38 (5) : 553-556 CHEN Long, PAN Zhimin, LI Qingquan, et al. Multi-view traffic sign recognition based on ASIFT[J]. Geomatics and Information Science of Wuhan University , 2013, 38 (5) : 553-556 (0) |
[2] |
孙光民, 王晶, 于光宇, 等. 自然背景中交通标志的检测与识别[J].
北京工业大学学报 , 2010, 36 (10) : 1337-1343 SUN Guangmin, WANG Jing, YU Guangyu. The detection and recognition of traffic sign in natural scenes[J]. Journal of Beijing University of Technology , 2010, 36 (10) : 1337-1343 (0) |
[3] | GREENHALGH J, MIRMEHDI M. Real-time detection and recognition of road traffic signs[J]. IEEE Transactions on Intelligent Transportation Systems , 2012, 13 (4) : 1498-1506 DOI:10.1109/TITS.2012.2208909 (0) |
[4] |
刘华平, 李建民, 胡晓林, 等. 动态场景下的交通标识检测与识别研究进展[J].
中国图象图形学报 , 2013, 18 (5) : 493-503 LIU Huaping, LI Jianmin, HU Xiaolin, et al. Recent progress in detection and recognition of the traffic signs in dynamic scenes[J]. Journal of Image and Graphics , 2013, 18 (5) : 493-503 (0) |
[5] |
谷明琴, 蔡自兴, 李仪, 等. 基于多模型表示的交通标志识别算法设计[J].
控制与决策 , 2013, 28 (6) : 844-848 GU Mingqin, CAI Zixing, LI Yi, et al. Traffic sign recognition algorithm design based on multi-modal representation[J]. Control and Decision , 2013, 28 (6) : 844-848 (0) |
[6] | LIU C S, CHANG F L, CHEN Z X. Rapid multiclass traffic sign detection in high-resolution images[J]. IEEE Transactions on Intelligent Transportation Systems , 2014, 15 (6) : 2394-2403 DOI:10.1109/TITS.2014.2314711 (0) |
[7] | MOGELMOSE A, TRIVEDI M M, MOESLUND T B. Vision-based traffic sign detection and analysis for intelligent driver assistance systems: perspectives and survey[J]. IEEE Transactions on Intelligent Transportation Systems , 2012, 13 (4) : 1484-1479 DOI:10.1109/TITS.2012.2209421 (0) |
[8] |
张静, 何明一, 戴玉超, 等. 多特征融合的圆形交通标志检测[J].
模式识别与人工智能 , 2011, 24 (2) : 226-232 ZHANG Jing, HE Mingyi, DAI Yuchao, et al. Multi-feature fusion based circular traffic sign detection[J]. PR & AI , 2011, 24 (2) : 226-232 (0) |
[9] | KHAN J F, BHUIYAN S M A, ADHAMI R R. Image segmentation and shape analysis for road-sign detection[J]. IEEE Transactions on Intelligent Transportation Systems , 2011, 12 (1) : 83-96 DOI:10.1109/TITS.2010.2073466 (0) |
[10] | CIRESAN D, MEIER U, MASCI J, et al. Multi-column deep neural network for traffic sign classification[J]. Neural Networks , 2012, 32 (8) : 333-338 (0) |
[11] | ZAKLOUTA F, STANCIULESCU B. Real-time traffic sign recognition in three stages[J]. Robotics and Autonomous Systems , 2014, 62 (1) : 16-24 DOI:10.1016/j.robot.2012.07.019 (0) |
[12] |
曹红根, 袁宝华, 朱辉生. 结合对比度信息与LBP的分块人脸识别[J].
山东大学学报(工学版) , 2012, 42 (4) : 29-34 CAO Honggen, YUAN Baohua, ZHU Huisheng. Recognition of intersected face based on contrast information and local binary pattern[J]. Journal of Shandong University (Engineering Science) , 2012, 42 (4) : 29-34 (0) |
[13] |
刘威, 段成伟, 遇冰, 等. 基于后验HOG特征的多姿态行人检测[J].
电子学报 , 2015, 43 (2) : 217-224 LIU Wei, DUAN Chengwei, YU Bing, et al. Multi-pose pedestrian detection based on posterior HOG feature[J]. Acta Electronica Sinica , 2015, 43 (2) : 217-224 (0) |
[14] | OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision , 2001, 42 (3) : 145-175 DOI:10.1023/A:1011139631724 (0) |
[15] | OLIVA A, TORRALBA A. Building the Gist of a scene: the role of global image features in recognition[J]. Progress in Brain Research: Visual Perception , 2006, 155 (2) : 23-36 (0) |
[16] |
杨昭, 高隽, 谢昭, 等. 局部Gist特征匹配核的场景分类[J].
中国图象图形学报 , 2013, 18 (3) : 264-270 YANG Zhao, GAO Jun, XIE Zhao, et al. Scene categorization of local Gist feature match kernel[J]. Journal of Image and Graphics , 2013, 18 (3) : 264-270 (0) |
[17] |
孙伟, 钟映春, 谭志, 等. 多特征融合的室内场景分类研究[J].
广东工业大学学报 , 2015, 32 (1) : 75-79 SUN Wei, ZHONG Yingchun, TAN Zhi, et al. Research on multi-featured fusion for indoor scene recognition[J]. Journal of Guangdong University of Technology , 2015, 32 (1) : 75-79 (0) |
[18] | WOLD S, ESBENSEN K, GELADI P. Principal component analysis[J]. Chemometrics and Intelligent Laboratory Systems , 1987, 2 (1) : 37-52 (0) |
[19] | OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence , 2002, 24 (7) : 971-987 (0) |
[20] | DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, International Conference on. Beijing, China:IEEE, 2005:886-893. (0) |
[21] |
李晓宇, 张新峰, 沈兰荪. 支持向量机(SVM)的研究进展[J].
测控技术 , 2006, 25 (5) : 7-12 LI Xiaoyu, ZHANG Xinfeng, SHEN Lansun. Some developments on support vector machine[J]. Measurement & Control Technology , 2006, 25 (5) : 7-12 (0) |
[22] | HASTIE T, TIBSHIRANI R. Discriminant adaptive nearest neighbor classification[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence , 1996, 18 (6) : 607-616 (0) |
[23] | FREUND Y, SCHIPARE RE. Experiments with a new boosting algorithm[C]//Thirteenth International Conference on Machine Learning. Bari, Italy:Universita′ di Bari, 1996:148-156. (0) |