您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2019, Vol. 49 ›› Issue (4): 8-13.doi: 10.6040/j.issn.1672-3961.0.2019.050

• 机器学习与数据挖掘 • 上一篇    下一篇

一种针对不平衡数据分类的集成学习算法

张宗堂1(),王森2,孙世林1   

  1. 1. 海军潜艇学院航海观通系, 山东 青岛 266000
    2. 91154部队, 海南 三亚 572000
  • 收稿日期:2019-01-30 出版日期:2019-08-20 发布日期:2019-08-06
  • 作者简介:张宗堂(1989—),男,山东青岛人,博士,主要研究方向为水声目标识别.E-mail:robin_zh@126.com

An ensemble learning algorithm for unbalanced data classification

Zongtang ZHANG1(),Sen WANG2,Shilin SUN1   

  1. 1. Navigation and Observation Department, Navy Submarine Academy, Qingdao 266000, Shandong, China
    2. 91154 force, Sanya 572000, Hainan, China
  • Received:2019-01-30 Online:2019-08-20 Published:2019-08-06

摘要:

针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。

关键词: 不平衡数据, 集成学习, 水声目标识别, AdaBoost算法, 随机子空间

Abstract:

For unbalanced data classification problem in underwater acoustic target recognition, a random subspace AdaBoost algorithm called RSBoost was proposed. Subtraining sample set was extracted by random subspace method in different underwater acoustic feature space and base classifier was trained in every subtraining sample set. The base classifier with the maximum margin mean of minority class was chosen as the base classifier of this round, the final ensemble classifier was formed iteratively. The experiment was carried out on the measured data, the performance of RSBoost and AdaBoost in different feature space was evaluated by F-measure and G-mean. The results showed that, compared with AdaBoost, the F-measure of RSBoost improved from 0.07 to 0.22 and the G-mean improved from 0.18 to 0.25, which showed that RSBoost was superior to AdaBoost in underwater acoustic unbalanced classification problem.

Key words: unbalanced data, ensemble learning, underwater acoustic target recognition, AdaBoost algorithm, random space

中图分类号: 

  • TP391

图1

RSBoost算法流程图"

表1

二分类问题的混淆矩阵"

类别 预测少类 预测多类
实际少类 TP FN
实际多类 FP TN

表2

试验数据特征维度"

特征 Demon谱 功率谱 高阶谱 MFCC 小波
维度 512 14 19 36 16

图2

两种算法F-measure对比"

图3

两种算法G-mean对比"

表3

两种算法在不同特征空间的性能对比"

特征集 F-measure G-mean
RSBoost AdaBoost RSBoost AdaBoost
Demon 0.30 0.14 0.22 0.29
功率谱 0.18 0.06 0.26 0.17
高阶谱 0.18 0.04 0.18 0.11
MFCC 0.22 0.05 0.31 0.14
小波 0.21 0.07 0.26 0.18
平均 0.22 0.07 0.25 0.18
1 DAI H L . Class imbalance learning via a fuuzy total margin based support vector machine[J]. Applied Soft Computing, 2015, 31, 172- 184.
doi: 10.1016/j.asoc.2015.02.025
2 WANG S , YAO X . Using class imbalance learning for software defect prediction[J]. IEEE Trans on Reliability, 2013, 62 (2): 434- 443.
doi: 10.1109/TR.2013.2259203
3 OZCIFT A , GULTEN A . Classifer ensemble construction with rotation forest to improve medical diagnosis performance of machine learning algorithms[J]. Computer Methods Programs Biomedicine, 2011, 104 (3): 443- 451.
doi: 10.1016/j.cmpb.2011.03.018
4 KUBAT M, MATWIN S. Addressing the curse of imbalanced trainingsets: one-sided selection[C]//Proceedings of the Fourteenth International Conference on Machine Learning. New York, USA: Morgan Kaufmann, 1997: 179-186.
5 CHAWLA N , BOWYER K , HALL L , et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16, 321- 357.
doi: 10.1613/jair.953
6 张伶卫, 万文强. 基于云计算平台的代价敏感集成学习算法研究[J]. 山东大学学报(工学版), 2012, 42 (4): 19- 28.
ZHANG Lingwei , WAN Wenqiang . Study on the cost-sensitive ensemble learning algorithm based on the cloud computing platform[J]. Journal of Shandong University(Engineering Science), 2012, 42 (4): 19- 28.
7 MANEVITZ L M , YOUSEFS M . One-class SVMs for document classification[J]. Journal of Machine Learning Research, 2001, 2, 139- 154.
8 李雄飞, 李军, 董元方, 等. 一种新的不平衡数据学习算法PCBoost[J]. 计算机学报, 2012, 35 (2): 2202- 2209.
LI Xiongfei , LI Jun , DONG Yuanfang . A new learning algorithm for imbalanced data-PCBoost[J]. Chinese Journal of Computers, 2012, 35 (2): 2202- 2209.
9 BAIG M , AWAIS M , EL-ALFY Esm . AdaBoost-based artificial neural network learning[J]. Neurocomputing, 2017, 248 (1): 120- 126.
10 RCHAPIRE R , FREUND Y , BARLETT Y , et al. Boosting the margin: a new explanation for the effectiveness of voting methods[J]. The Annals of Statistics, 1998, 26 (5): 1651- 1686.
doi: 10.1214/aos/1024691352
11 ZHOU Z H , WU J , TANG W . Ensembling neural networks: Many could be better than all[J]. Artificial Intelligence, 2002, 137 (1-2): 239- 263.
doi: 10.1016/S0004-3702(02)00190-X
12 HO T K . The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20 (8): 832- 844.
doi: 10.1109/34.709601
13 GAO Wei , ZHOU Zhihua . On the doubt about margin explanation of boosting[J]. Artificial Intelligence, 2013, 203, 1- 18.
doi: 10.1016/j.artint.2013.07.002
[1] 白琳,俱通,王浩,雷明珠,潘晓英. 面向不平衡数据的提升均衡集成学习算法[J]. 山东大学学报 (工学版), 2024, 54(4): 59-66.
[2] 常新功,苏敏惠,周志刚. 基于进化集成的图神经网络解释方法[J]. 山东大学学报 (工学版), 2024, 54(4): 1-12.
[3] 顾玉磊,马晖,王愚勤,胡卉,刘富鑫. 基于BP-Adaboost与TOPSIS的航空装备供应商评价[J]. 山东大学学报 (工学版), 2024, 54(1): 63-73.
[4] 闵海根,雷小平,李杰,童星,吴霞,方煜坤. 基于双层混合集成的自动驾驶汽车故障检测[J]. 山东大学学报 (工学版), 2022, 52(6): 30-40.
[5] 张大鹏,刘雅军,张伟,沈芬,杨建盛. 基于异质集成学习的虚假评论检测[J]. 山东大学学报 (工学版), 2020, 50(2): 1-9.
[6] 周荣翔,贾修一. 中文反语识别特征分析[J]. 山东大学学报 (工学版), 2019, 49(1): 41-46.
[7] 张璞,刘畅,王永. 基于特征融合和集成学习的建议语句分类模型[J]. 山东大学学报 (工学版), 2018, 48(5): 47-54.
[8] 沈冬冬,周风余,栗梦媛,王淑倩,郭仁和. 基于集成深度神经网络的室内无线定位[J]. 山东大学学报 (工学版), 2018, 48(5): 95-102.
[9] 王换,周忠眉. 一种基于聚类的过抽样算法[J]. 山东大学学报(工学版), 2018, 48(3): 134-139.
[10] 王立宏,李强. 旅行商问题的一种选择性集成求解方法[J]. 山东大学学报(工学版), 2016, 46(1): 42-48.
[11] 熊冰妍,王国胤,邓维斌. 分级式代价敏感决策树及其在手机换机预测中的应用[J]. 山东大学学报 (工学版), 2015, 45(5): 36-42.
[12] 陈大伟,闫昭*,刘昊岩. SVD系列算法在评分预测中的过拟合现象[J]. 山东大学学报(工学版), 2014, 44(3): 15-21.
[13] 鲁淑霞,李黎敏. 加权最大夹角间隔核心集向量机的不平衡数据分类[J]. 山东大学学报(工学版), 2014, 44(3): 1-7.
[14] 江伟坚1,2,郭躬德1,2*,赖智铭1,2. 基于新Haar-like特征的Adaboost人脸检测算法[J]. 山东大学学报(工学版), 2014, 44(2): 43-48.
[15] 李翔1,朱全银1,王尊2. 基于可变基函数和GentleAdaBoost的小波神经网络研究[J]. 山东大学学报(工学版), 2013, 43(5): 31-38.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 张永花,王安玲,刘福平 . 低频非均匀电磁波在导电界面的反射相角[J]. 山东大学学报(工学版), 2006, 36(2): 22 -25 .
[3] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[4] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[5] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[6] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[7] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[8] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[9] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[10] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .