您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2021, Vol. 51 ›› Issue (2): 19-25.doi: 10.6040/j.issn.1672-3961.0.2020.225

• 机器学习与数据挖掘 • 上一篇    下一篇

基于多级特征级联的遥感图像实时语义分割

曹春红(),段鸿轩*(),曹玲,张乐乐,胡凯,肖芬   

  1. 智能计算与信息处理教育部重点实验室(湘潭大学),湖南 湘潭 411100
  • 收稿日期:2020-06-17 出版日期:2021-04-20 发布日期:2021-04-16
  • 通讯作者: 段鸿轩 E-mail:caoch@xtu.edu.cn;201821562036@smail.xtu.edu.cn
  • 作者简介:曹春红(1975—), 女, 湖南湘潭人, 副教授, 博士, 主要研究方向为遥感图像和医学图像处理. E-mail: caoch@xtu.edu.cn
  • 基金资助:
    湖南省教育厅资助项目(19A496);国家自然科学基金资助项目(61802328)

Real-time semantic segmentation of high-resolution remote sensing image based on multi-level feature cascade

Chunhong CAO(),Hongxuan DUAN*(),Ling CAO,Lele ZHANG,Kai HU,Fen XIAO   

  1. The MOE Key Laboratory of Intelligent Computing & Information Processing (Xiangtan University), Xiangtan 411100, Hunan, China
  • Received:2020-06-17 Online:2021-04-20 Published:2021-04-16
  • Contact: Hongxuan DUAN E-mail:caoch@xtu.edu.cn;201821562036@smail.xtu.edu.cn

摘要:

针对遥感图像语义分割中存在的分割耗时长、分割小目标不准确的问题,提出基于多级特征级联的高分辨率遥感图像快速语义分割模型(multi-level feature cascade network, MFCNet)。该模型主要由特征编码、特征融合以及目标细化3部分组成。特征编码对输入的不同分辨率图像用不同量级主干网络进行特征提取,由于低分辨率图像分辨率较低,使用重量级的主干网络在增加较少参数的情况下可以获取丰富的语义信息,而中、高分辨图像分辨率较大,使用轻量级主干网络既减少参数量又可获取全局信息。中等和低分辨率的编码使用权重和计算共享的方式,进一步减少模型参数,降低计算复杂性。特征融合对来自不同分支的特征进行融合,以获取不同尺度的信息。目标细化采用残差校正对融合后的特征和编码部分的特征进行融合校正,以恢复图像的空间细节信息,使分割更加准确。该模型可以端到端的方式有效地工作,试验验证所提模型在遥感图像语义分割中的有效性,在模型复杂性和精度上取得较好的平衡。

关键词: 遥感图像, 实时语义分割, 多级特征融合, 特征提取, 端到端

Abstract:

Aiming at the problems of long segmentation time and inaccurate segmentation of small targets in remote sensing image semantic segmentation, a fast semantic segmentation model of high-resolution remote sensing image based on multi-level feature cascade network (MFCNet) was proposed. The model was mainly composed of feature encoding, feature fusion and target refinement. Feature encoding extracted the input images feature of different resolutions and used different backbone networks. Due to the lower resolution of low-resolution images, heavy-weight backbone networks were used to obtain rich semantic information with fewer parameters. For medium and high-resolution images, lightweight backbone network was used to reduce the amount of parameters and obtain global information. While medium and low-resolution encoding used the way of weights and calculation sharing to further reduce model parameters and computational complexity. The feature fusion section fused features from different branches to obtain information at different scales. The target refinement used residual to correction the fused features and the features of the coded part to restore the spatial detail information of the image, making the segmentation more accurate. And the entire model worked efficiently in an end-to-end manner. The experimental verified the validity of the model in semantic segmentation of remote sensing images, and achieved a good balance between model complexity and accuracy.

Key words: remote sensing image, real-time semantic segmentation, multi-level feature fusion, feature extraction, end-to-end

中图分类号: 

  • TP18

图1

基于多级特征级联的网络模型"

图2

级联特征融合"

图3

残差校正方案"

图4

不同分割方法在Vaihingen数据集下结果对比"

图5

不同分割方法在Potsdam数据集下结果对比"

表1

MFCNet与其他方法在Vaihingen数据集下对比结果"

方法 F1 OA mIOU
不透水的表面 建筑物 低植被 树木 汽车 平均
UNet 85.14 89.24 73.21 82.12 71.84 80.31 83.82 67.88
ICNet 85.84 90.36 72.71 81.99 36.86 73.55 83.68 61.69
PSPNet 85.68 90.13 73.46 83.02 65.40 79.53 84.52 67.20
MFCNet 86.90 91.02 75.26 83.54 74.15 82.18 85.53 70.53

表2

MFCNet与其他方法在Potsdam数据集下对比结果"

方法 F1 OA mIOU
不透水的表面 建筑物 低植被 树木 汽车 平均
UNet 88.16 89.74 80.68 80.36 88.90 85.57 86.04 75.12
ICNet 88.49 90.10 78.22 77.73 79.75 82.86 85.19 71.20
PSPNet 90.04 93.59 82.08 80.89 88.00 86.92 87.89 77.25
MFCNet 89.84 92.98 81.37 79.76 90.82 86.91 87.47 77.39

表3

Vaihingen数据集下复杂性比较"

方法 分割图像的平均时间/s 参数量
UNet 26.38 7846822
ICNet 64.85 6743442
PSPNet 31.28 46692053
MFCNet 34.17 7795320

表4

Potsdam数据集下复杂性比较"

方法 分割图像的平均时间/s 参数量
UNet 194.55 7846822
ICNet 908.18 6743442
PSPNet 220.13 46692053
MFCNet 210.40 7795320

表5

不同分支连接位置对试验结果的影响"

分支 OA F1 mIOU
分支1 81.70 77.02 63.72
分支2 85.53 82.18 70.53
1 刘航, 汪西莉. 基于注意力机制的遥感图像分割模型[J]. 激光与光电子学进展, 2020, 57 (4): 170- 180.
LIU Hang , WANG Xili . Remote sensing image segmentation model based on attention mechanism[J]. Laser & Optoelectronics Progress, 2020, 57 (4): 170- 180.
2 LIU C , YUEN J , TORRALBA A . Nonparametric scene parsing via label transfer[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33 (12): 2368- 2382.
doi: 10.1109/TPAMI.2011.131
3 LONG J , SHELHAMER E , DARRELL T . Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39 (4): 640- 651.
4 BADRINARAYANAN V , KENDALL A , CIPOLLA R . Segnet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39 (12): 2481- 2495.
5 ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017: 2881-2890.
6 CHEN L, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[C]// Proceedings of the International Conference on Learning Representations (ICLR). San Diego, USA: IEEE, 2015: 1-14.
7 CHEN L , PAPANDREOU G , KOKKINOS I , et al. Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (4): 834- 848.
doi: 10.1109/TPAMI.2017.2699184
8 CHEN L, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 801-818.
9 NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015: 1520-1528.
10 MEHTA S, RASTEGARI M, SHAPIRO L, et al. Espnetv2: a light-weight, power efficient, and general purpose convolutional neural network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recogintion (CVPR). California, USA: IEEE, 2019: 9190-9200.
11 WANG Y, ZHOU Q, LIU J, et al. Lednet: a lightweight encoder-decoder network for real-time semantic segmentation[C]//Proceedings of the IEEE International Conference on Image Processing (ICIP). Taipei, China: IEEE, 2019: 1860-1864.
12 YU C, WANG J, PENG C, et al. Bisenet: bilateral segmentation network for real-time semantic segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 334-349.
13 LI H, XIONG P, FAN H, et al. Dfanet: deep feature aggregation for real-time semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recogintion (CVPR). California, USA: IEEE, 2019: 9522-9531.
14 HE T, SHEN C, TIAN Z, et al. Knowledge adaptation for efficient semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). California, USA: IEEE, 2019: 578-587.
15 ZHAO H, QI X, SHEN X, et al. Icnet for real-time semantic segmentation on high-resolution images[C]// Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 405-420.
16 ZHUANG J, YANG J, GU L, et al. Shelfnet for fast semantic segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCVW). Seoul, Korea: IEEE, 2019: 847-856.
17 MARIUS C, MOHAMED O, SEBASTIAN R, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recogintion (CVPR). Las Vegas, USA: IEEE, 2016: 3213-3223.
18 LIN T, MICHAEL M, SERGE B, James Hays, et al. Microsoft coco: common objects in context[C]// Proceedings of the European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014: 740-755.
19 OLAF R, PHILIPP F, THOMAS B. U-net: convolutional networks for biomedical image segmentation[C]// Proceedings of the Medical Image Computing and Computer-Assisted Intervention (MICCA). Munich, Germany: Springer, 2015: 234-241.
20 HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016: 770-778.
[1] 刘冬兰,刘新,陈剑飞,王文婷,张昊,马雷,李冬. 基于物理不可克隆函数的电网NB-IoT端到端安全加密方案[J]. 山东大学学报 (工学版), 2020, 50(1): 63-71.
[2] 杨煦,陈辉,林游思,屠长河. 飞行蝙蝠标记自动提取与追踪算法[J]. 山东大学学报 (工学版), 2019, 49(2): 67-73.
[3] 范君,业巧林,业宁. 基于改进的有监督无参局部保持投影算法的人脸识别[J]. 山东大学学报 (工学版), 2019, 49(1): 10-16.
[4] 王国新,陈凤东,刘国栋. 基于彩色伪随机编码结构光特征提取方法[J]. 山东大学学报 (工学版), 2018, 48(5): 55-60.
[5] 叶子云,杨金锋. 一种基于加权图模型的手指静脉识别方法[J]. 山东大学学报(工学版), 2018, 48(3): 103-109.
[6] 张振月,李斐,江铭炎. 基于低秩表示投影的无监督人脸特征提取[J]. 山东大学学报(工学版), 2018, 48(1): 15-20.
[7] 于青民,李晓磊,翟勇. 基于改进EMD和数据分箱的轴承内圈故障特征提取方法[J]. 山东大学学报(工学版), 2017, 47(3): 89-95.
[8] 郭超,杨燕,江永全,宋祎. 基于多视图分类集成的高铁工况识别[J]. 山东大学学报(工学版), 2017, 47(1): 7-14.
[9] 钟智彦,文志强, 张潇云,叶德刚. 基于半色调图像的邻域相似性描述子方法[J]. 山东大学学报(工学版), 2016, 46(3): 58-64.
[10] 肖乔,裴继红,王荔霞,龚志成. 基于多通道Gabor滤波模糊融合的遥感图像舰船检测[J]. 山东大学学报 (工学版), 2015, 45(5): 29-35.
[11] 卢丹, 周以齐. 基于EEMD和CWT的挖掘机座椅振动分析[J]. 山东大学学报(工学版), 2015, 45(3): 58-64.
[12] 于海晶1,2, 李桂菊1*. 基于差分盒维数的彩色烟雾图像识别[J]. 山东大学学报(工学版), 2014, 44(1): 35-40.
[13] 李慧1,2,胡云1,3,李存华1. 基于粗糙集理论的瓦斯灾害信息特征提取技术[J]. 山东大学学报(工学版), 2012, 42(5): 91-95.
[14] 曹红根1,袁宝华1,朱辉生2. 结合对比度信息与LBP的分块人脸识别[J]. 山东大学学报(工学版), 2012, 42(4): 29-34.
[15] 张思懿1,2,王士同1*. 核化空间深度间距的特征提取方法[J]. 山东大学学报(工学版), 2012, 42(3): 45-51.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 庞志俭 张长桥. 甲基丙烯酸十二酯基二元共聚制备缔合减阻剂的合成与性能研究[J]. 山东大学学报(工学版), 2009, 39(5): 128 -132 .
[2] 李善评,胡振,孙一鸣,甄博如,张启磊,曹翰林 . 新型钛基PbO2电极的制备及电催化性能研究[J]. 山东大学学报(工学版), 2007, 37(3): 109 -113 .
[3] 罗运虎, 吴旭文,潘双来,董尔令,孙秀娟,王传江,吴娜 . 需求侧两种可中断负荷与发电侧备用容量的协调[J]. 山东大学学报(工学版), 2007, 37(6): 66 -70 .
[4] 翟新献 陈东海 郭念波 勾攀峰. 济三煤矿沿空巷道矿压显现规律研究[J]. 山东大学学报(工学版), 2009, 39(4): 92 -96 .
[5] 刘佃瑞,赵辉宏,钟麦英 . 一类线性离散时变系统的H∞故障估计[J]. 山东大学学报(工学版), 2008, 38(4): 11 -16 .
[6] 乔小燕. 赤潮藻显微图像自动识别方法[J]. 山东大学学报(工学版), 2016, 46(3): 1 -6 .
[7] 吕国仁,闫书明,白书锋,贾 宁,马 亮 . 高速公路新型波形梁护栏端头实车碰撞性能研究[J]. 山东大学学报(工学版), 2008, 38(4): 47 -52 .
[8] 王会青,孙宏伟,张建辉. 基于Map/Reduce的时间序列相似性搜索算法[J]. 山东大学学报(工学版), 2016, 46(1): 15 -21 .
[9] 张庆松 李术才 韩宏伟 葛颜慧 刘人太 张霄. 岩溶隧道施工风险评价与突水灾害防治技术研究[J]. 山东大学学报(工学版), 2009, 39(3): 106 -110 .
[10] 刘勇,顾乃杰,任开新,刘刚, . 基于Omega网的新型自路由多播网络[J]. 山东大学学报(工学版), 2006, 36(4): 37 -43 .