文章快速检索     高级检索
  山东大学学报(工学版)  2016, Vol. 46 Issue (3): 7-13  DOI: 10.6040/j.issn.1672-3961.2.2015.106
0

引用本文 

刘帆, 陈泽华, 柴晶. 一种基于深度神经网络模型的多聚焦图像融合方法[J]. 山东大学学报(工学版), 2016, 46(3): 7-13. DOI: 10.6040/j.issn.1672-3961.2.2015.106.
LIU Fan, CHEN Zehua, CHAI Jing. A new multi-focus image fusion method based on deep neural network model[J]. Journal of Shandong University(Engineering Science), 2016, 46(3): 7-13. DOI: 10.6040/j.issn.1672-3961.2.2015.106.

基金项目

国家自然科学基金资助项目(61403273,61402319);山西省青年科学基金资助项目(2014021022-3,2014021022-4);太原理工大学青年科学基金资助项目(2014QN017)

作者简介

刘帆(1982-),女,山西晋中人,讲师,博士,主要研究方向为遥感图像处理,机器学习等.E-mail:liufan@tyut.edu.cn

文章历史

收稿日期:2015-06-23
网络出版时间:2016-01-07
一种基于深度神经网络模型的多聚焦图像融合方法
刘帆, 陈泽华, 柴晶     
太原理工大学信息工程学院, 山西 太原 030024
摘要: 基于多聚焦图像融合中存在的低频信息易产生缺失的现象进行分析,提出一种基于深度神经网络模型的低频子带融合策略,并结合小波核滤波器及针对高频子带的融合策略,给出多聚焦图像融合方法。该方法利用自动编码器提取低频子带特征,利用网络隐层中的权值信息选择低频子带分量。采用3组聚焦不同的自然图像及1组医学图像进行算法测试,并与传统的低频子带融合策略进行对比,同时比较基于轮廓波变换的多聚焦图像融合方法、基于非下采样轮廓波变换的多聚焦图像融合方法。试验结果表明:其中一组图像采用深度神经网络模型的策略所得到的融合结果的边缘融合指标值能够达到0.8027,优于其余比较方法的0.7614、0.7227和0.7164,从而证实基于深度神经网络模型的融合策略的有效性。
关键词: 多聚焦图像    图像融合    小波核滤波器    深度神经网络    自动编码器    
A new multi-focus image fusion method based on deep neural network model
LIU Fan, CHEN Zehua, CHAI Jing     
College of Information Engineering, Taiyuan University of Technology, Taiyuan 030024, Shanxi, China
Abstract: There existed low-frequency information distortion phenomenon in fusing multi-focus images. Aimed to solve the problem, a new fusion strategy based on deep neural network model was proposed for fusing low-frequency subbands. Combined with Wavelet Kernel Filter and traditional fusion strategy for high-frequency subbands, a new fusion method for fusing multi-focus images was given. The method extracted efficient features by using AutoEncoder model. The experimental results showed that proposed method could obtain better images. The edge fusion qualify value of the proposed fusion result was 0.8027, compared with traditional fusion strategy, contourlet-based multi-focus method and non-sampled contourlet-based multi-focus method, 0.7614, 0.7227, and 0.7164, which could provide an effective method for fusing multi-focus images.
Key words: multi-focus image    image fusion    wavelet kernel filter    deep neural network    autoencoder    
0 引言

图像融合技术是将采用不同获取方式所获取的同一场景的图像包含的信息进行整合,使得能够适应人类视觉系统并完成后续的处理工作。常见的自然图像的融合针对不同聚焦的图像,采用图像融合技术便可获取更为清晰的图像[1]

常用到的多聚焦图像融合方法可根据分析手段分为空域和频域两种处理方法。其中多尺度变换是典型的频域分析方法,因其特有的多尺度特性,成功应用到图像融合中[1]。多尺度工具有高通滤波器、拉普拉斯塔分解[2]、小波变换[3]、gabor变换[4]、小波包变换、非下采样小波变换[5]、轮廓波变换(contourlets)[6]、轮廓波包变换[7]、非下采样contourlet变换[8]、支撑值变换[9]等。近年来出现的稀疏表示,也已成功应用在多聚焦图像融合中[10]。然而,融合规则目标在于获取更为清晰的图像,要保留变换中高频子带含有的表示源图特征的信息。因而根据图像变换的特点,针对高频子带的融合规则有模极大值法、区域能量法、区域内积法等。而针对低频子带,传统的方法认为其含有的信息不如高频子带重要,采用的是加权求和的融合策略,因此存在低频信息损失现象。为了更好地利用低频子带中包含的信息,采用深度神经网络模型逼近低频子带,通过网络模型选择出低频子带信息,实现低频子带的融合。

1 多聚焦图像融合

图 1给出4组待融合自然图像,图 1(a)为2幅clock图像,包含两个聚焦不同的表盘。图 1(b)是医学子计算机断层扫描(computed tomography,CT)图像与磁共振成像(magnetic resonance imaging,MRI)图像。图 1(c)图 1(a)类似,同为2幅聚焦不同的图像,记为pepsi图像。图 1(d)为office图像,人为加了模糊区域。

图 1 4组待融合图像 Figure 1 Four couples of original images

库中的多源数据通过不同传感器获得,大部分来自于美国机载多传感器密集小群系统(USA airborne multisensor pod system,AMPS)项目[11]中的daedalus扫描仪,其余为英国布里斯托尔大学DRA高光谱扫描仪所收集,在自然场景下的高光谱图像数据集以及小部分多聚焦自然图像组。源图像中包括城市、工业区、自然景观和农田等,存在着细节信息及目标(飞机、建筑物、工厂标志等)以及轮廓信息(农田、道路和跑道等)。

图 2是多源图像数据,来自于曼彻斯特大学图像融合库。

图 2 6组多源图像 Figure 2 Six couples of multi-sensor images

考虑到多聚焦图像的特点,其图像融合过程可归纳为图 3所示。图像变换是将源图像变换到另一个空间,用系数表示源图像中包含的信息。多聚焦图像融合方法中,图像变换是某种多尺度逼近的方法,如高通滤波器、拉普拉斯塔分解法、gabor滤波器、小波变换、非下采样小波变换、contourlets和contourlet包等,也可以是稀疏表示中的过完备字典。图 3中所示的系数αA和系数αB是由图像变换分解获得,分别表达源图像IA和源图像IB。通过融合规则对系数αA和系数αB进行融合,得到融合后系数αC,经过图像反变换获得融合后的图像IC

图 3 多聚焦图像融合过程 Figure 3 Fusion procedure of multi-focus images

变换后通常包含高频子带和低频子带,针对不同的子带,其融合规则也不同。

2 深度神经网络

深度神经网络即多隐藏层神经网络,其优势是能够利用较少的参数表示复杂的函数。然而,在2006年前,多层神经网络经常陷入到局部最优解,通常比只含有一个隐藏层的神经网络表现更差[12],2006年由文献[13]和文献[14]提出新的深度学习算法,解决了深度神经网络的学习问题。

新提出的深度神经网络学习算法构成一种能够提取深层特征的神经网络,解决多层神经网络难以训练的问题,使得深度神经网络再次流行起来。目前,已被成功应用到语音识别、人脸识别、数字识别、图像检索等多种模式识别任务中。已诞生多种深度神经网络,包括卷积神经网络(一种前馈神经网络,对图像处理有出色表现)、深度受限玻尔兹曼机[15]、自动编码器(autoencoder)[14]等。模式识别中,autoencoder应用最为广泛,根据实际的需求也衍生出多种autoencoder,例如sparse autoencoder[16]。另外,深度神经网络还被成功应用于基于EEG情感分类[17]、轮船检测[18]、聚类[19]等多领域问题中。

深度神经网络模型中,autoencoder应用最为广泛,作为无监督的学习算法,autoencoder可以自动从无标注数据中学习特征,可以给出比原始数据更好的特征描述。基于autoencoder模型给出低频子带融合规则,其过程是利用编码器自己发现输入数据中隐含的特征,从而通过隐含的特征制定低频子带的融合规则。autoencoder是包含有隐藏层的神经网络,当隐藏层神经元数目少于输入层的数目时,autoencoder网络模型能够起到数据压缩的效果,若隐藏层神经元数目较多时,隐藏层的神经元能够转换为输出层的输出,若输出层的输出数目等于输入层的输入数目时,可认为其输出等于输入(见图 4)。

图 4 深度神经网络模型示意图 Figure 4 Deep neural network diagram
3 一种基于深度神经网络模型的多聚焦图像融合方法

多聚焦图像融合难点在于如何从源图中提取出有效的信息,以及选择融合规则保留源图中有效的信息,避免信息损失和振铃效应。构造融合算法的第一步为选择信息提取工具,本节选择具有平移不变性的多尺度工具——小波核滤波器(wavelet kernel filter,WKF)[20],给出基于小波核滤波器的多聚焦图像融合方法。

3.1 基于小波核滤波器的多聚焦图像融合

算法 1  基于WKF的多聚焦图像融合

Step 1  分解,将经过配准的2个源图像IAIB进行WKF分解,分解层数为L,分解后的结果分别为源图像IAL个多尺度高频子带WAj和低频子带PA,源图像IBL个多尺度高频子带WBj和低频子带PB,j=1,…,L,子带中的系数表示源图的特征;

Step 2  高频子带的融合,根据式(1)提取高频子带中领域之间的局部能量作为显著特征[21]

${{S}_{j}}\left( x,y \right)=\sum \sum {{W}_{j}}{{\left( x+s,y+t \right)}^{2}},j=1,\ldots ,L,$ (1)

其中,Wj(x,y)是在点(x,y)处的WKF系数,(s,t)为在点(x,y)处邻域大小为3×3的窗口。采用选择最大显著特征作为融合后特征,式(2)中给出

${{W}_{Fj}}\left( x,y \right)=\left\{ \begin{align} & {{W}_{Aj}}\left( x,y \right),{{S}_{Aj}}\left( x,y \right)\ge {{S}_{Bj}}\left( x,y \right), \\ & {{W}_{Bj}}\left( x,y \right),otherwise, \\ \end{align} \right.$ (2)

其中:WFj(x,y)代表融合后的WKF系数;WAjWBj为源图经过WKF分解之后第j次分解所得的系数。

Step 3  低频子带融合,根据式(3)采取求平均值计算获得融合后的低频子带:

${{P}_{F}}\left( x,y \right)=\frac{\left( {{P}_{A}}\left( x,y \right)+{{P}_{B}}\left( x,y \right) \right)}{2},\text{ }$ (3)

其中,PF,PAPB分别表示融合后图像、源图像IAIB的低频子带。

Step 4  新的子带PFWFj(x,y)经过WKF重构获得融合后的图像IF

3.2 结合深度神经网络模型的融合策略

算法1给出的融合方法低频子带仍采取的求平均融合策略,存在低频子带信息损失的现象,因此引入深度神经网络模型(deep neural network model,DNNM),其中的autoencoder构造低频子带。低频子带作为网络的输入,基于autoencoder无监督学习特性,学习输入子带的特征,得到隐藏层神经元权值,并比较不同输入的低频子带所对应的隐藏层权值,选择出相应的低频子带作为融合后子带,实现低频子带的融合。

算法 1  基于DNNM的多聚焦图像融合

Step 1  分解,将经过配准的2个源图像IAIB进行WKF分解,分解层数为L,分解后的结果分别为源图像IAL个多尺度高频子带WAj和低频子带PA,源图像IBL个多尺度高频子带WBj和低频子带PB,j=1,…,L,子带中的系数表示源图的特征;

Step 2  高频子带的融合,根据式(1)和式(2)获得融合后的高频系数WFj(x,y);

Step 3  低频子带融合,PFPAPB分别表示融合后图像,源图像IAIB的低频子带;

首先将低频子带PAPB分成多个n×n子块,作为autoencoder输入,针对低频子带PAPB分别构造autoencoder模型;

其次进行无监督学习,对输入层数据进行编码,通过重构误差最小获得对输入表达最好的编码,输入至下一层;

最后获取隐藏层权值,设层数为3,隐藏层神经元是对原始输入的表达,获得隐层权值记为EAEB,权值的大小代表了对应的神经元能否更好的表达原始输入;图 5给出了对应于医学图像和office图像的隐层权值示意图。

图 5 隐层权值示意图 Figure 5 Weights of hidden lays

据式(4)选择相应的低频子带:

${{P}_{F}}\left( x,y \right)=\left\{ \begin{align} & {{P}_{A}}\left( x,y \right),{{E}_{A}}\left( a,b \right)\ge {{E}_{B}}\left( a,b \right), \\ & {{P}_{B}}\left( x,y \right),otherwise,\text{ } \\ \end{align} \right.$ (4)

其中:PF(x,y)代表融合后的低频子带系数;PAPB为源图像经过分解之后的低频子带系数。

Step 4  新的子带PFWFj(x,y)经过WKF重构获得融合后的图像IF

4 试验结果及分析

多聚焦图像融合常用的评价指标包括信息熵[22]、平均梯度[22]、标准差[22]、交叉熵(cross entropy,CE)[23]、互信息量(mutual information,MI)[23]、加权融合指标QW以及边缘融合指标Qe[24-25]。多聚焦图像融合性能评价的准则为对同一组融合试验,若所获得的图像信息熵、平均梯度和标准差相对较大、交叉熵相对较小、互信息量相对较大、QWQe的值越接近1,则说明该融合方法的性能较好。

4.1 多聚焦图像融合试验结果及分析

图 6给出4组多聚焦图像的融合结果,将DNNM应用于图像融合的算法与基于contourlet变换(CT)的融合方法、非下采样contourlets(NSCT)的融合方法、算法1给出的方法相比较。从视觉效果来看,由于CT采取了下采样处理,因此融合结果中存在块效应现象,其他算法由于具有平移不变性,在细节处理上均有较好的表现。

图 6 4组多聚焦图像融合结果 Figure 6 Fusion results of multi-focus images

图 6所示结果来看,clock图像包含2个闹钟,表的边缘表盘数字皆为细节信息,融合结果突出了两个表盘的清晰度,基于CT的结果在边缘处存在少量振铃现象。后3种方法从图像上难以分辨优劣,表 1给出了数据结果,说明DNNM所获图像更为清晰且保留了源图中的信息。然而表 1结果所示互信息量WKF的结果略优于DNNM,其余的指标均是DNNM更胜一筹,尤其是交叉熵和平均交叉熵,该值表明DNNM所得融合结果与源图更为接近,其他的指标也表明DNNM结果略优于其余方法。医学图像包含CT与MRI图像,其融合目的在于获取1幅同时包含有CT和MRI信息的图像,为后续进一步的治疗提供直观的依据,融合结果来看,图 6(a)所示结果噪声较大,其余3个方法结果比较接近,见表 2中所示数值结果。Pepsi图像与clock图像类似,也能够得到与clock图像相类似的结论,从表 3所示的数值也能够看出DNNM结果较优于其余方法。Office图像为人为进行模糊处理,通过融合获取1幅清晰的office图像,图 6所示结果表明各个融合策略均能得到视觉较好的结果,表 4给出的数值说明DNNM方法的有效性,然而同clock图像的结果相似,其互信息量值略低于WKF,但其余指标均优于其他3种方法。

表 1 Clock图像指标比较 Table 1 Quality indices of quantitative assessment of clock images
表 2 医学图像指标比较 Table 2 Quality indices of quantitative assessment of medical images
表 3 Pepsi图像指标比较 Table 3 Quality indices of quantitative assessment of pepsi images
表 4 Office图像指标比较 Table 4 Quality indices of quantitative assessment of office images

图 6给出的多聚焦图像融合结果以及表 1~4来看,所提出的融合算法采用具有平移不变性的WKF,从源图中提取出更多所需要的细节信息,且引入到融合策略的构造中的深度神经网络模型逼近策略,从低频子带中选取出更为有效的低频信息组成融合算法,使源图中细节信息很好的保留在融合结果中,既避免了融合中常出现的振铃效应,也获得了更为光滑的融合结果。

图 7为算法2获得的多源图像融合结果,原始数据图 2给出。从结果上看,所需要的细节信息,如道路信息、机场跑道信息、工厂信息、飞机目标等保持的较好,避免了融合中常出现的振铃效应,线条光滑,融合后该图所表达的信息更为清晰,为后续的目标识别,线条提取等处理打下了基础。

图 7 6组多传感器图像融合结果 Figure 7 Fusion results of multi-sensor images
4.2 隐层神经元数量的选择

当隐层神经元数目少于输入数目时,自编码神经网络达到数据压缩的效果,因此算法中隐层神经元的数量影响融合结果。当隐层神经元等于输入数目时,融合结果最好,但是增加整个算法的运行时间,若隐层神经元少于输入的数目时,算法运行时间会降低,但是融合效果略逊于与输入数目相同时的融合结果,见图 8图 8结果表明,由于隐层神经元数量小于输入数量,等同于对输入数量进行了数据压缩,因此图 8(a)所示结果边缘存在块状现象,图 8(b)中的结果无此类现象发生。 表 56给出了融合指标以及仿真试验运行时间。

试验中所使用的多聚焦图像大小均为512×512,仿真环境:CPU为E5-1603双核2.8GHz,8G内存,64位操作系统,MATLAB R2012a版。

图 8 不同隐层神经元数量的融合结果 Figure 8 Fusion results of different paramete
表 5 不同的隐层神经元的试验指标比较 Table 5 Quality indices of different parameters
表 6 不同的隐层神经元的试验指标比较 Table 6 Quality indices of different parameters
5 结论

针对多聚焦图像融合低频子带融合策略选择的问题,将深度神经网络模型引入到融合方法,提出基于autoencoder的低频子带融合策略。其思想是利用autoencoder对低频子带进行无监督学习,提取出能够表达输入子带的特征,保留隐层权值,根据权值选择出融合后的低频子带。结合具有多尺度性和平移不变性的WKF构造完成的图像融合算法。为了检验所提出的融合方法的有效性,给出4组多聚焦图像进行试验,结果表明CT、NSCT、算法1的结果较为相近,算法2结果更为清晰,从数据上看算法2稍有优势,保存了更多的有效低频信息,结果中避免了图像融合中常出现的振铃现象。由此可以证明利用深度神经网络模型作为低频子带融合策略是可行的,能够获得好的融合图像,为后续处理打好基础。为了更好的了解算法中所使用的autoencoder模型中隐层神经元数量对试验结果的影响,特别给出了隐层神经元数量等于输入数目及小于输入数目的试验,也从直观视觉和数值指标两方面给出结果。

近年来随着深度神经网络的发展,出现了更多的网络模型和算法,针对图像融合领域,如何将深度神经网络引入到融合方法中也成为了后续研究的重点。

参考文献
[1] POHL C, VAN GENDEREN J L. Multisensor image fusion in remote sensing: concepts, methods and applications[J]. International Journal of Remote Sensing,1998, 19 (5) : 823-854. (0)
[2] BURT P J, ADELSON E H. The Laplacian pyramid as a compact image code[J]. IEEE Transactions on Communication,1983, 31 (4) : 532-540. (0)
[3] ZAVORIN I, LE MOIGNE J. Use of multiresolution wavelet feature pyramids for automatic registration of multisensor imagery[J]. IEEE Transactions on Image Processing,2005, 14 (6) : 770-782. (0)
[4] REDONDO R, ROUBEK F, FISCHER S, et al. Multifocus image fusion using the log-Gabor transform and a multisize windows technique[J]. Information Fusion,2009, 10 (2) : 163-171. (0)
[5] BORWONWATANADELOK P, RATTANAPITAK W, UDOMHUNSAKUL S. Multi-focus image fusion based on stationary wavelet transform and extended spatial frequency measurement[C]//IEEE International Conference of Electronic Computer Technology. Macau, China: IEEE Press, 2009: 77-81. (0)
[6] DO M N, VETTERLI M. The Contourlet transform: an efficient directional multiresolution image representation[J]. IEEE Transactions on Image Processing,2005, 14 (12) : 2091-2106. (0)
[7] YANG S Y, WANG M, JIAO L C. Image fusion based on a new contourlet packet[J]. Information Fusion,2010, 11 (2) : 78-84. (0)
[8] DA CUNHA A L, ZHOU J P, DO M N. The nonsubsampled contourlet transform: theory, design, and applications[J]. IEEE Transactions on Image Processing,2006, 15 (10) : 3089-3101. (0)
[9] ZHENG S, SHI W Z, LIU J, et al. Multisource image fusion method using support value transform[J]. IEEE Transactions on Image Processing,2007, 16 (7) : 1831-1839. (0)
[10] YANG B, LI S T. Multifocus image fusion and restoration with sparse representation[J]. IEEE Transactions on Instrumentation and Measurement,2010, 59 (4) : 884-892. (0)
[11] PETROVIC' V. Subjective tests for image fusion evaluation and objective metric validation[J]. Information Fusion,2007, 8 (2) : 208-216. (0)
[12] BENGIO Y. Learning deep architectures for AI[J]. Journal Foundations and Trends in Machine Learning,2009, 2 (1) : 1-127. (0)
[13] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation,2006, 18 (7) : 1527-1554. (0)
[14] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[C]//Advances in Neural Information Processing Systems 19 (NIPS′06). Vancouver, Canada: MIT Press, 2007: 153-160. (0)
[15] HINDON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science,2006, 313 (5786) : 504-507. (0)
[16] COATES A, NG A Y, LEE H. An analysis of single-layer networks in unsupervised feature learning[M]. Brookline: Microtome Publishing, 2011 : 215 -223. (0)
[17] ZHENG W L, ZHU J Y, PENG Y, et al. EEG-Based emotion classification using deep belief networks[C]//IEEE International Conference on Multimedia and Expo. Chengdu, China: IEEE press, 2014: 1-6. (0)
[18] TANG J X, DENG C W, HUANG G B, et al. Compressed-domain ship detection on spaceborne optical image using deep neural network and extreme learning machine[J]. IEEE Transactions on Geoscience and Remote Sensing,2015, 53 (3) : 1174-1185. (0)
[19] HUANG P H, HUANG Y, WANG W, et al. Deep embedding network for clustering[C]//22nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE press, 2014: 1532-1537. (0)
[20] LIU F, JIAO L C, YANG S Y. SAR image despeckling based on wavelet kernel transform and gaussian scale mixture model[C]//2nd Asian-Pacific Conference on Synthetic Aperture Radar. Xi′an, China: IEEE Press, 2009: 1088-1091. (0)
[21] HUANG X S, CHEN Z. A wavelet-based image fusion algorithm[C]//IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering. Beijing, China: IEEE Press, 2002: 602-605. (0)
[22] 王海晖, 彭嘉雄, 吴巍. 基于小波包变换的遥感图像融合[J]. 中国图像图形学报,2002, 7 (9) : 922-937.
WANG Haihui, PENG Jiaxiong, WU Wei. Remote sensing image fusion using wavelet packet transform[J]. Journal of Image and Graphics,2002, 7 (9) : 922-937. (0)
[23] 刘贵喜, 杨万海. 基于小波分解的图像融合方法及性能评价[J]. 自动化学报,2002, 28 (6) : 927-934.
LIU Guixi, YANG Wanhai. A Wavelet decomposition-based image fusion scheme and its Performance Evaluation[J]. ACTA Automatica Sinica,2002, 28 (6) : 927-934. (0)
[24] WANG Z, BOVIK A C. A universal image quality index[J]. IEEE Signal Processing Letters,2002, 9 (3) : 81-84. (0)
[25] PIELLA G, HEIJMANS H. A new quality metric for image fusion[C]//International Conference on Image Processing. Barcelona, Spain: IEEE Press, 2003:Ⅲ-173-6 vol.2. (0)