您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2019, Vol. 49 ›› Issue (4): 8-13.doi: 10.6040/j.issn.1672-3961.0.2019.050

• 机器学习与数据挖掘 • 上一篇    下一篇

一种针对不平衡数据分类的集成学习算法

张宗堂1(),王森2,孙世林1   

  1. 1. 海军潜艇学院航海观通系, 山东 青岛 266000
    2. 91154部队, 海南 三亚 572000
  • 收稿日期:2019-01-30 出版日期:2019-08-20 发布日期:2019-08-06
  • 作者简介:张宗堂(1989—),男,山东青岛人,博士,主要研究方向为水声目标识别.E-mail:robin_zh@126.com

An ensemble learning algorithm for unbalanced data classification

Zongtang ZHANG1(),Sen WANG2,Shilin SUN1   

  1. 1. Navigation and Observation Department, Navy Submarine Academy, Qingdao 266000, Shandong, China
    2. 91154 force, Sanya 572000, Hainan, China
  • Received:2019-01-30 Online:2019-08-20 Published:2019-08-06

摘要:

针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。

关键词: 不平衡数据, 集成学习, 水声目标识别, AdaBoost算法, 随机子空间

Abstract:

For unbalanced data classification problem in underwater acoustic target recognition, a random subspace AdaBoost algorithm called RSBoost was proposed. Subtraining sample set was extracted by random subspace method in different underwater acoustic feature space and base classifier was trained in every subtraining sample set. The base classifier with the maximum margin mean of minority class was chosen as the base classifier of this round, the final ensemble classifier was formed iteratively. The experiment was carried out on the measured data, the performance of RSBoost and AdaBoost in different feature space was evaluated by F-measure and G-mean. The results showed that, compared with AdaBoost, the F-measure of RSBoost improved from 0.07 to 0.22 and the G-mean improved from 0.18 to 0.25, which showed that RSBoost was superior to AdaBoost in underwater acoustic unbalanced classification problem.

Key words: unbalanced data, ensemble learning, underwater acoustic target recognition, AdaBoost algorithm, random space

中图分类号: 

  • TP391

图1

RSBoost算法流程图"

表1

二分类问题的混淆矩阵"

类别 预测少类 预测多类
实际少类 TP FN
实际多类 FP TN

表2

试验数据特征维度"

特征 Demon谱 功率谱 高阶谱 MFCC 小波
维度 512 14 19 36 16

图2

两种算法F-measure对比"

图3

两种算法G-mean对比"

表3

两种算法在不同特征空间的性能对比"

特征集 F-measure G-mean
RSBoost AdaBoost RSBoost AdaBoost
Demon 0.30 0.14 0.22 0.29
功率谱 0.18 0.06 0.26 0.17
高阶谱 0.18 0.04 0.18 0.11
MFCC 0.22 0.05 0.31 0.14
小波 0.21 0.07 0.26 0.18
平均 0.22 0.07 0.25 0.18
1 DAI H L . Class imbalance learning via a fuuzy total margin based support vector machine[J]. Applied Soft Computing, 2015, 31, 172- 184.
doi: 10.1016/j.asoc.2015.02.025
2 WANG S , YAO X . Using class imbalance learning for software defect prediction[J]. IEEE Trans on Reliability, 2013, 62 (2): 434- 443.
doi: 10.1109/TR.2013.2259203
3 OZCIFT A , GULTEN A . Classifer ensemble construction with rotation forest to improve medical diagnosis performance of machine learning algorithms[J]. Computer Methods Programs Biomedicine, 2011, 104 (3): 443- 451.
doi: 10.1016/j.cmpb.2011.03.018
4 KUBAT M, MATWIN S. Addressing the curse of imbalanced trainingsets: one-sided selection[C]//Proceedings of the Fourteenth International Conference on Machine Learning. New York, USA: Morgan Kaufmann, 1997: 179-186.
5 CHAWLA N , BOWYER K , HALL L , et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16, 321- 357.
doi: 10.1613/jair.953
6 张伶卫, 万文强. 基于云计算平台的代价敏感集成学习算法研究[J]. 山东大学学报(工学版), 2012, 42 (4): 19- 28.
ZHANG Lingwei , WAN Wenqiang . Study on the cost-sensitive ensemble learning algorithm based on the cloud computing platform[J]. Journal of Shandong University(Engineering Science), 2012, 42 (4): 19- 28.
7 MANEVITZ L M , YOUSEFS M . One-class SVMs for document classification[J]. Journal of Machine Learning Research, 2001, 2, 139- 154.
8 李雄飞, 李军, 董元方, 等. 一种新的不平衡数据学习算法PCBoost[J]. 计算机学报, 2012, 35 (2): 2202- 2209.
LI Xiongfei , LI Jun , DONG Yuanfang . A new learning algorithm for imbalanced data-PCBoost[J]. Chinese Journal of Computers, 2012, 35 (2): 2202- 2209.
9 BAIG M , AWAIS M , EL-ALFY Esm . AdaBoost-based artificial neural network learning[J]. Neurocomputing, 2017, 248 (1): 120- 126.
10 RCHAPIRE R , FREUND Y , BARLETT Y , et al. Boosting the margin: a new explanation for the effectiveness of voting methods[J]. The Annals of Statistics, 1998, 26 (5): 1651- 1686.
doi: 10.1214/aos/1024691352
11 ZHOU Z H , WU J , TANG W . Ensembling neural networks: Many could be better than all[J]. Artificial Intelligence, 2002, 137 (1-2): 239- 263.
doi: 10.1016/S0004-3702(02)00190-X
12 HO T K . The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20 (8): 832- 844.
doi: 10.1109/34.709601
13 GAO Wei , ZHOU Zhihua . On the doubt about margin explanation of boosting[J]. Artificial Intelligence, 2013, 203, 1- 18.
doi: 10.1016/j.artint.2013.07.002
[1] 周荣翔,贾修一. 中文反语识别特征分析[J]. 山东大学学报 (工学版), 2019, 49(1): 41-46.
[2] 张璞,刘畅,王永. 基于特征融合和集成学习的建议语句分类模型[J]. 山东大学学报 (工学版), 2018, 48(5): 47-54.
[3] 沈冬冬,周风余,栗梦媛,王淑倩,郭仁和. 基于集成深度神经网络的室内无线定位[J]. 山东大学学报 (工学版), 2018, 48(5): 95-102.
[4] 王换,周忠眉. 一种基于聚类的过抽样算法[J]. 山东大学学报(工学版), 2018, 48(3): 134-139.
[5] 王立宏,李强. 旅行商问题的一种选择性集成求解方法[J]. 山东大学学报(工学版), 2016, 46(1): 42-48.
[6] 陈大伟,闫昭*,刘昊岩. SVD系列算法在评分预测中的过拟合现象[J]. 山东大学学报(工学版), 2014, 44(3): 15-21.
[7] 鲁淑霞,李黎敏. 加权最大夹角间隔核心集向量机的不平衡数据分类[J]. 山东大学学报(工学版), 2014, 44(3): 1-7.
[8] 江伟坚1,2,郭躬德1,2*,赖智铭1,2. 基于新Haar-like特征的Adaboost人脸检测算法[J]. 山东大学学报(工学版), 2014, 44(2): 43-48.
[9] 李翔1,朱全银1,王尊2. 基于可变基函数和GentleAdaBoost的小波神经网络研究[J]. 山东大学学报(工学版), 2013, 43(5): 31-38.
[10] 房晓南1,2,张化祥1,2*,高爽1,2. 基于SMOTE和随机森林的Web spam检测[J]. 山东大学学报(工学版), 2013, 43(1): 22-27.
[11] 朱洪锦1,范洪辉1,陈兴瑞1,田村安孝2. 基于局部自我相关函数光线照明变化下的人脸检测[J]. 山东大学学报(工学版), 2012, 42(5): 59-64.
[12] 张伶卫,万文强. 基于云计算平台的代价敏感集成学习算法研究[J]. 山东大学学报(工学版), 2012, 42(4): 19-23.
[13] 谢伙生,刘敏. 一种基于主动学习的集成协同训练算法[J]. 山东大学学报(工学版), 2012, 42(3): 1-5.
[14] 孙晓燕1,2,张化祥1,2*,计华1,2. 基于AdaBoost的欠抽样集成学习算法[J]. 山东大学学报(工学版), 2011, 41(4): 91-94.
[15] 李小斌1, 李世银2. 时间序列早期分类的多分类器集成方法[J]. 山东大学学报(工学版), 2011, 41(4): 73-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[2] 刘文亮,朱维红,陈涤,张泓泉. 基于雷达图像的运动目标形态检测及跟踪技术[J]. 山东大学学报(工学版), 2010, 40(3): 31 -36 .
[3] 张英,郎咏梅,赵玉晓,张鉴达,乔鹏,李善评 . 由EGSB厌氧颗粒污泥培养好氧颗粒污泥的工艺探讨[J]. 山东大学学报(工学版), 2006, 36(4): 56 -59 .
[4] Yue Khing Toh1 , XIAO Wendong2 , XIE Lihua1 . 基于无线传感器网络的分散目标跟踪:实际测试平台的开发应用(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 50 -56 .
[5] 赵然杭,陈守煜 . 水资源数量与质量联合评价理论模型研究[J]. 山东大学学报(工学版), 2006, 36(3): 46 -50 .
[6] 刘新1 ,宋思利1 ,王新洪2 . 石墨配比对钨极氩弧熔敷层TiC增强相含量及分布形态的影响[J]. 山东大学学报(工学版), 2009, 39(2): 98 -100 .
[7] 田芳1,张颖欣2,张礼3,侯秀萍3,裘南畹3. 新型金属氧化物薄膜气敏元件基材料的开发[J]. 山东大学学报(工学版), 2009, 39(2): 104 -107 .
[8] 王杉,李田泽 . 一种绕线转子感应电机控制的新方法[J]. 山东大学学报(工学版), 2008, 38(3): 86 -89 .
[9] 赵延风1,2, 王正中1,2 ,芦琴1,祝晗英3 . 梯形明渠水跃共轭水深的直接计算方法[J]. 山东大学学报(工学版), 2009, 39(2): 131 -136 .
[10] 梁京芸,王明刚,柴家前,刘永庆 . 1.6-二-(N5-取代苯基-N1-二胍)己烷盐酸盐的合成和体外抗菌活性[J]. 山东大学学报(工学版), 2008, 38(3): 104 -107 .