深度学习的概念起源于人工神经网络的研究, 最早由深度学习鼻祖、多伦多大学教授G E Hinton提出[1], 而深度学习框架的出现, 则降低了深度学习入门的门槛, Caffe[2]是其中的代表。与其他的深度学习框架相比, Caffe具有上手快、速度快、模块化、开放性以及社区好等优势, 能够很好地运行图片分类领域中的经典模型。Caffe模型与对应的优化都以文本形式给出, 而非专用的代码, 可以很方便地根据特定的识别任务对已有的模型进行微调, 其中solver.prototx文件包含全局参数的配置, train_val.prototxt文件包含训练与测试网络的配置, deploy.prototxt文件包含测试网络的配置。基于以上优势, 本研究选用Caffe框架下的经典深度模型作为微调的对象。
近年来, 深度学习在图像处理、语音识别等领域的应用中取得了突破性的进展[3], 从学术界到工业界, 掀起了一波又一波的浪潮。深度学习模型已经成为人工智能领域最受关注的热点之一。
在2012年ImageNet图像分类比赛中, AlexNet使用了5个卷积层、3个pool层和2个norm层, 把Top5错误率从之前的25%大幅度降低到15%, 对分类问题取得了惊人的结果[4]。而在2014年, GoogleNet[5]是2014年ILSVRC挑战赛冠军, 他使用了59个卷积层、16个pool层和2个norm层, 将Top5的错误率降低到6.67%, 亚军VGG[6]也使用了19个卷积层, 并获得比较好的性能。GoogleNet的成功也得益于使用了并行多分辨率的inception结构以及NIN (network-in-network)[7]结构。
这种通过加深模型层次、增加模型复杂度的方法, 虽然可以有效改善深度学习模型的分类效果, 但是在当前的硬件条件下, 即使采用先进的GPU加速, 在训练过程中仍存在着严重的性能不足, 往往需要十余天或者更多时间才能达到模型的收敛, 而且新结构的提出显然很困难。
在图像处理方面, 卷积神经网络具有优异的特征学习能力[8], 尤其在大规模训练样本的情况下, 卷积深度模型会有更加突出的表现。然而, 在物理世界构建大规模、符合数量要求的样本是非常困难的, 目前存在的已知训练数据库无法达到预期的要求。ImageNet 2014[9]的训练数据库包括126万左右的标注样本, ImageNet已经收集了将近2.2万个类别总共大约1 420万幅图像, 但是这些海量的数据, 仍然不能避免参数规模庞大的深度模型的过拟合现象。
国内外学者在提升深度模型的分类效果方面做了很多工作, 这两年具有代表性的工作当属ResNet[10]与DenseNet[11]结构的提出。2015年何恺明等提出了ResNet结构, 在ImageNet和COCO的多个比赛项目中均获得最佳成绩, 直接影响了2016年深度学习在学术界和工业界的发展方向; 2016年黄高等提出了DenseNet结构, 通过对图像特征的有效利用, 可以减少参数变量并达到更好地效果, 影响同样深远。但是这两种结构的提出都是为解决深层网络训练梯度消失的问题, 最终仍然是通过加深网络结构来提升分类效果。
针对目前提升深度模型分类表现方法存在的硬件性能不足、结构创新不易、训练样本有限的问题, 本研究借鉴多特征融合识别思想, 从另外一条思路出发, 提出了一种基于DSmT推理的物品融合识别算法, 在已有的理论与经典模型的基础上, 用来提高物品识别率。首先, 利用预训练的物品识别深度学习模型, 根据分类识别任务进行特定的微调; 然后, 为解决DSmT理论中构造信度赋值困难的问题, 使用深度学习模型对图像的每次判别输出构造证据源的BBA, 进行基本信度赋值; 最后, 运用DSmT经典理论在决策级层进行融合处理, 从而完成对物品的准确识别。
1 Caffe模型的微调通常来说, 在需要应用的方向, 比如一些特定领域的识别分类中, 获取大量的数据是相当困难的。在目前世界最大的图像数据库ImageNet中, 一般情况下, 可能只会获取到某一特定领域几千张或者几万张图像, 比如识别家具、水果、生物种类等。在这种情况下, 从头开始训练新的网络模型不仅比较麻烦复杂, 而且数据量不够, 参数也不好调整, 基于以上考虑, 适度地微调是比较理想的选择。
训练一个新的网络模型, 模型参数都是随机初始化的, 而微调则是在一个初始化的模型参数文件的基础上, 如ImageNet上1 000类分类训练好的权重参数, 根据特定的分类识别任务进行适度调整。
以识别水果为例, 假设有5种物品需要识别, 现有ImageNet的模型参数文件, 使用小型网络模型CaffeNet。这个识别任务的变化是把ImageNet上1 000种分类转变成自己特定数据集的5种分类, 那么在网络模型的微调中, 整个过程分为以下几个步骤:(1)准备样本数据集, 包括训练数据和测试数据, 使用Caffe提供的convert_imageset工具计算出数据集的均值文件; (2)修改train_val.prototxt文件中的数据层和输出层, 并且需要加快最后一层的参数学习速率; (3)调整Solver.prototxt文件的配置参数, 通常需要减小学习速率, 适当修改步长, 迭代次数也要适当减少; (4)在预训练的权重基础上启动训练。
2 物品融合识别框架把待识别物品图像输入到微调好的深度学习模型, 根据输出结果进行信度赋值, 利用DSmT中的PCR6规则对上述的基本信度赋值进行处理, 从而完成不同深度模型识别结果的融合。基于DSmT的物品融合识别算法框架(以3个证据源为例)如图 1所示。
|
图 1 物品融合识别框架 Figure 1 The framework of an object fusion recognition |
DSmT是Desert和Smarandache等[12-15]共同提出来的一种新的处理不确定、高度冲突和不精确证据源的融合问题的有效方法。作为经典DSmT理论的扩展, 却不受证据理论(Dempster-Shafer)框架的限制, 可以有效处理由信度函数表示、任意复杂的动态或静态、独立信息源间的信息融合问题, 尤其是当信息源之间的冲突很大, 或者考虑问题的辨识框架Θ中命题之间的界限模糊、不精确、不确定而导致很难细分时, DSmT都发挥了其独特优势, 可以很好地应用于信息融合、专家系统等人工智能领域。
针对物品识别, 简化处理应用背景, 在DSmT模型下采用完全排他性约束条件, 提出针对超幂集空间中仅单子焦元具有信度赋值的情况, 如Θ={θ1, θ2}, 那么对应的超幂集空间Dθ={θ1, θ2, θ1∪θ2, θ1∩θ2}, θ1∪θ2与θ1∩θ2信度赋值为0, 仅θ1和θ2有信度赋值。使用DSmT理论组合规则和第6种比例冲突分配规则(Proportional conflict redistribution rules No.6, PCR6)重新分配规则进行融合。
在具体模型中, 每一个证据源代表一个网络模型, mi表示第i个网络模型, 焦元Tj(j=1, 2, 3…)表示物品被判别为第j类, mi(Tj)表示在网络模型i下的物品被判别为第j类。
在DSmT模型下处理信息融合问题时, 与两个独立证据源S1和S2相关联的广义基本信度赋值分别为m1(·)和m2(·), 其经典组合规则[15]为
| $ \forall x \in {D^\theta },{\rm{ }}{m_{uf(\theta )}}\left( x \right) \equiv m\left( x \right) = \sum\limits_{\begin{align}\theta _i,{\theta _j} \in {D^\theta } \\ \theta _i \cap {\theta _j} = x \end{align}} {{m_1}\left( {{\theta _i}} \right){m_2}\left( {{\theta _j}} \right)} 。$ | (1) |
采用DSmT组合规则时会产生新的冲突, 由于假设了完全排他性约束条件, 需要将产生的冲突质量进行重新分配。而PCR规则(Proportional conflict redistribution rules)[16]根据部分冲突质量中卷入的非空焦元的比例, 把部分冲突质量分配到卷入冲突的焦元上。这些PCR规则中, 从数学意义来讲, PCR6是数学逻辑上最精确的组合规则, 具体为:
| $ \forall x \in {D^\theta }\backslash \left\{ \varnothing \right\}, {m_{\rm PCR6}}\left( x \right) = {m_{12}}\left( x \right) + \sum\limits_{\begin{align}y \in {D^\theta }\backslash x \\ x \cap y = \varnothing \end{align}} {\left[ {\frac{{{m_1}{{\left( x \right)}^2}{m_2}\left( y \right)}}{{{m_1}\left( x \right) + {m_2}\left( y \right)}} + \frac{{{m_2}{{\left( x \right)}^2}{m_1}\left( y \right)}}{{{m_2}\left( x \right) + {m_1}\left( y \right)}}} \right]} 。$ | (2) |
式(2)中卷入的全数元素皆是规范形式, m12(·)对应两个证据源合取一致的结果, m12…k(·)对应两个以上证据源的组合结果[17]。
2.2 基本信度赋值在处理不确定、不完备信息问题方面, DSmT经典推理理论的能力已经得到广泛认可, 但是在使用该理论解决物品识别问题时, 证据源的基本信度赋值(Basic belief assignment)构造是难点。传统方法通常使用指数函数和距离函数构造基本信度赋值[18], 这不仅需要知识库或者领域专家经验知识的支持, 而且缺少在线学习的能力, 计算量较大且实时性不高。而人工神经网络, 尤其是深度学习网络具有联想存储、高速寻找优化解、自学习的特点, 可以不断通过自学习功能优化调整神经网络的连接权值, 最终达到识别分类的目的[19]。
从理论上讲, 人工神经网络经过样本数据集训练后, 在某种程度上, 已经具备相当于甚至超越该领域专家的判断识别能力, 使用人工神经网络对待识别图像的判别输出结果构造证据源的基本信度赋值的方法, 是完全可信、可行的; 从实际来说, 人工神经网络完全可以通过离线训练与实时计算保证结果的准确性与实时性, 用于解决基本信度赋值构造问题, 可以简化过程、解决计算量大的问题。
采用微调后的CaffeNet网络模型(迭代次数为6 000), 对某一图片进行识别, 图 2给出了由Jupiter自动绘制的可视化识别结果。从图 2中可以看出, 模型的识别结果不仅可以罗列出识别的种类, 还可以给出识别为该种类的概率, 可以方便直观的实现信度赋值, 即在CaffeNet模型下, 该物品图片被判别为第0类的信度赋值为0, 被判别为第1类的信度赋值为3%, 以此类推。
|
图 2 CaffeNet的物品识别实例 Figure 2 The example of object recognition with CaffeNet |
物品融合识别算法流程图如图 3所示, 其步骤为:(1)准备训练数据与测试数据集, 计算数据集的均值文件, 调整网络层参数, 修改Solver参数; (2)启动训练, 加载预训练模型微调; (3)利用微调后的深度网络模型处理待识别目标, 根据不同的判别结果, 作为证据体的信度赋值; (4)对获得的信度赋值, 根据PCR6规则在决策层进行信息融合; (5)选择决策层中融合结果的最大值, 并与预先设定的门限值进行对比, 如果门限值小于融合结果中的最大值, 则可以判定待识别物品是最大值对应的类型; 如果门限值大于或者等于最大值, 则拒绝判定。
|
图 3 物品融合识别算法流程图 Figure 3 The flow diagram of Object Fusion Recognition Algorithm |
该算法的复杂度在步骤4, 即使用PCR6规则在决策层进行信息融合。针对仅有两个证据源, 超幂集中仅单子焦元具有信度赋值的情况Dθ={θ1, θ2, θ3, …, θn}, n代表焦元个数。假设一次加法运算的复杂度用∑表示, 一次乘法运算的复杂度用K表示, 一次除法运算用ψ表示, 则该算法的计算复杂度为ο[n]=[K+(4K+2ψ+4∑)(n-1)]n。
3 试验与分析仿真试验在Ubuntu14.04系统下进行, 使用Caffe BVLC、matlab2015b版本, 微调后的模型分为2组, 每组有3个深度网络模型, 模型组一为AlexNet、CaffeNet以及GoogleNet, 模型组二为GoogleNet、ResNet-50及DenseNet(L=40, k=12)。微调数据集选择苹果、橘子、梨、蘑菇、球等五类, 其中训练样本集每类2 000幅, 验证样本每类1 000幅, 微调后采用的模型迭代次数均为6 000次。算法测试数据集分为5组, 每组1 000幅, 每类200张。部分微调数据集图片如图 4所示。
|
图 4 部分微调数据集 Figure 4 Parts of fine-tuning data set |
取5组算法测试数据集对模型组一与模型组二进行测试并计算正确识别率, 在方法的门限值设置中, 组一设为0.65, 组二设为0.8(后面试验门限值不变)。每次正确识别率结果如图 5所示。
|
图 5 物品融合识别算法的识别率 Figure 5 The right rate of Object Fusion Recognition Algorithm |
由图 5可知:利用本研究提出的物品融合识别算法进行识别时, 两组模型的正确识别率在93%以上。
3.2 试验二:DSmT的作用从算法测试数据集随机选择5类、每类1幅图片组成测试样本集, 用来检验DSmT理论在信息融合中起到的拒判作用, 其中0代表苹果, 1代表球, 2代表蘑菇, 3代表橘子, 4代表梨。判定结果如表 1所示。
| 表 1 DSmT在本方法中的作用 Table 1 The effect of DSmT in this method |
由表 1可知:如果只利用单一深度网络模型识别, 容易造成错误识别, 如实际类别为2, CaffeNet判定为类别4。但是选择使用DSmT理论进行信息融合后, 一般情况下会给出比较高的识别率且结果合理。
3.3 试验三:DSmT的有效拒判选择两个不属于数据集类别的图片作为样本, 分别进行测试, 5和6代表不在数据集中的类别。测试结果如表 2所示。
| 表 2 DSmT的有效拒判 Table 2 The effective rejection of DSmT |
由表 2可知:若只用单一模型进行识别, 都给出了错误的识别结果, 如实际类别为5, GoogleNet判定为类别0。但是使用本文提出的方法识别, 利用DSmT融合不同模型的识别信息, 与门限值比较, 能够对数据库中不存在的图片进行有效地拒判。
3.4 试验四:识别率与门限值在试验一的基础上, 针对不同的门限值, 取5次测试结果的平均值, 则不同的门限值对识别精度的影响如图 6所示。
|
图 6 识别精度与门限值关系图 Figure 6 The relation diagram of right rate and threshold value |
由图 6可知:当选择的门限值大于最佳门限值时, 因为DSmT的拒判作用, 导致识别率大幅度下降; 当选择的门限值小于最佳门限值时, 正确率随门限值发生波动。
3.5 试验五:对比试验取5组算法测试数据集进行测试。将本研究方法与单一网络模型方法、平均值处理方法进行对比试验。正确识别率对比结果如图 7所示。
|
图 7 本文方法与其他方法的对比 Figure 7 Comparison of this method with other methods |
由图 7可知, 本研究方法的正确识别率比单一网络模型方法、平均值处理方法要好, 组一的平均正确识别率可以达到94.76%, 组二的平均正确识别率可以达到95.86%。
DSmT理论可以对多个模型提供的不同识别信息有效融合, 而门限值的设立可以对融合后的结果做出判断, 当融合结果中的最大值大于门限值, 判断类型有效, 否则拒判。试验一与试验五证明, 与其他方法相比, 本研究方法在物品识别方面具有更高的正确识别率; 试验二与试验三则证明, DSmT理论与门限值在本研究方法中起到有效判断作用; 试验四则说明了门限值的恰当选择对最终的识别率有巨大影响。
4 结语本研究提出了一种基于DSmT推理的物品融合识别算法, 针对待识别的图像目标, 根据特定的识别任务微调已有的深度网络模型, 然后通过对不同模型提供的识别信息融合决策, 达到提高物品识别率的目的, 其创新性在于将经典的深度学习模型与DSmT理论相结合, 利用多个经典深度模型对物品进行识别, 使用深度模型的输出构造证据源的信度赋值, 应用DSmT理论在决策层对识别信息融合处理, 采用门限值对比的方法对融合结果进行判断。
试验结果证明, 综合正确识别率及有效拒判能力, 本方法的识别效果比单一模型更有效。与采取求平均值处理的方法相比, 直接采用DSmT理论融合的集成预测更准确。
该方法也存在一些问题和有待进一步研究的地方, 当待识别的种类数目很大时, 会导致计算瓶颈的问题[20]。另外, 选择合理的门限值将对DSmT的有效拒判以及识别的正确率产生积极影响, 因此怎样科学有效地选择恰当的门限值是一个值得深入研究的问题。
| [1] |
韩小虎, 徐鹏, 韩森森. 深度学习理论综述[J].
计算机时代, 2016(6): 107-110 HAN Xiaohu, XU Peng, HAN Sensen. Theoretical overview of deep learning[J]. Compute Era, 2016(6): 107-110 |
| [2] | JIA Y, SHELHAMER E, DONAHUE J, et al. CAFFE: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. New York, USA: ACM, 2014: 675-678. https://arxiv.org/abs/1408.5093 |
| [3] |
伍家松, 达臻, 魏黎明, 等. 基于分裂基-2/(2a)FFT算法的卷积神经网络加速性能的研究[J].
电子与信息学报, 2017, 39(2): 285-292 WU Jiasong, DA Zhen, WEI Liming, et al. Acceleration performance study of convolutional neural network based on split-radix-2/(2a) FFT algorithms[J]. Journal of Electronics & Information Technology, 2017, 39(2): 285-292 |
| [4] | KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. New York, USA: Curran Associates, 2012: 1097-1105. https://dl.acm.org/citation.cfm?id=2999257 |
| [5] | SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: CVPR, 2015: 1-9. http://ieeexplore.ieee.org/document/7298594/ |
| [6] | SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//International Conference on Learning Representations. San Diego, USA: ICLR, 2015: 1-5. |
| [7] | SUZUKI S, SHOUNO H. A study on visual interpretation of network in network[C]//International Joint Conference on Neural Networks. Anchorage, USA: IJCNN, 2017: 903-910. http://ieeexplore.ieee.org/document/7965948/ |
| [8] |
卢宏涛, 张秦川. 深度卷积神经网络在计算机视觉中的应用研究综述[J].
数据采集与处理, 2016, 31(1): 1-17 LU Hongtao, ZHANG Qinchuan. Application of deep convolutional neural network in computer vision[J]. Journal of Data Acquisition and Processing, 2016, 31(1): 1-17 |
| [9] | RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252 DOI:10.1007/s11263-015-0816-y |
| [10] | HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Computer Vision and Pattern Recognition. Las Vegas, USA: CVPR, 2016: 770-778. http://ieeexplore.ieee.org/document/7780459/ |
| [11] | HUANG G, LIU Z, WEINBERGER K Q, et al. Densely connected convolutional networks[C]//Computer Vision and Pattern Recognition. Hawaii, USA: CVPR, 2017: 1-5. 10.1109/CVPR.2017.243 |
| [12] | DEZERT J. Foundations of a new theory of plausible and paradoxical reasoning[J]. Information & Security Journal, 2002, 9(1): 13-57 |
| [13] | DEZERT J, SMARANDACHE F. On the generation of hyper-powersets for the DSmT[C]//Proceedings of the 6th International Conference of Information Fusion. Cairns, Australia: ICIF, 2005: 1118-1125. http://ieeexplore.ieee.org/document/1255330/ |
| [14] | LI X, DEZERT J, SMARANDACHE F, et al. Evidence supporting measure of similarity for reducing the complexity in information fusion[J]. Information Sciences, 2011, 181(10): 1818-1835 DOI:10.1016/j.ins.2010.10.025 |
| [15] | LI Xinde, JEAN D, HUANG X H, et al. A fast approximate reasoning method in hierarchical DSmT(A)[J]. Acta Electronica Sinica, 2010, 38(11): 2566-2572 |
| [16] | SMARANDACHE F, DEZERT J. Information fusion based on new proportional conflict redistribution rules[C]//International Conference on Information Fusion. Stockholm, Sweden: ICIF, 2006: 8 pp. http://ieeexplore.ieee.org/document/1591955/ |
| [17] |
郭强, 何友. 基于云模型的DSm证据建模及雷达辐射源识别方法[J].
电子与信息学报, 2015, 37(8): 1779-1785 GUO Qiang, HE You. DSm evidence modeling and radar emitter fusion recognition method based on cloud model[J]. Journal of Electronics & Information Technology, 2015, 37(8): 1779-1785 |
| [18] |
王霞, 田亮. 基于典型样本的信度函数分配的构造方法[J].
电力科学与工程, 2015(5): 11-15 WANG Xia, TIAN Liang. Method of constructing confidence function distribution based on typical sample[J]. Electric Power Science and Engineering, 2015(5): 11-15 |
| [19] |
李新德, 杨伟东. 一种飞机图像目标多特征信息融合识别方法[J]. 自动化学报, 2012, 38(8): 1298-1307.
LI Xinde, YANG Weidong, DEZERT J. An airplane image target's multi-feature fusion recognition method[J]. Acta Automatica Sinica, 2012, 38(8): 1298-1307. http://kns.cnki.net/KCMS/detail/detail.aspx?filename=moto201208009&dbname=CJFD&dbcode=CJFQ |
| [20] |
李新德, 杨伟东, 吴雪建, 等. 一种快速分层递阶DSmT近似推理融合方法(B)[J].
电子学报, 2011, 39(a03): 31-36 LI Xinde, YANG Weidong, WU Xuejian, et al. A fast approximate reasoning method in hierarchical DSmT (B)[J]. Acta Electronica Sinica, 2011, 39(a03): 31-36 |


