您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (2): 96-101.

• 机器学习与数据挖掘 • 上一篇    下一篇

一种用于不平衡数据的分类算法

陈金坦1,2,康恒政3*,杨燕3,周伟雄4   

  1. 1. 华中科技大学管理学院, 湖北 武汉 410000; 2.  广东省公路管理局, 广东 广州 510075;
    3. 西南交通大学信息科学与技术学院, 四川 成都 610031; 4. 佛山市公路局, 广东 佛山 528000
  • 收稿日期:2011-03-12 出版日期:2011-04-16 发布日期:2011-03-12
  • 通讯作者: 康恒政(1984- ),男,山西大同人,硕士研究生,主要研究方向为数据挖掘.Email:southwest08@gmail.com E-mail:southwest08@gmail.com
  • 作者简介:陈金坦(1965- ),男,河南信阳人,博士研究生,主要研究方向为管理科学与信息管理.Email:chenjintan@126.com

A classification method for class-imbalanced data

CHEN Jintan1, 2, KANG Hengzheng3*, YANG Yan3, ZHOU Weixiong 4   

  1. 1. School of Management, Huazhong University of Science and Technology, Wuhan 410000, China;
     2. Guangdong Provincial Highway Administration, Guangzhou 510075, China;
    3. School of Information Science & Technology, Southwest Jiaotong University, Chengdu 610031, China;
    4. Foshan Highway Administration, Foshan 528000, China
  • Received:2011-03-12 Online:2011-04-16 Published:2011-03-12

摘要:

为提高不平衡数据集中少数类的分类性能,本研究提出一种改进的AdaBoost算法(UnAdaBoost算法)来解决数据不平衡问题。该方法首先改进基分类器,使其在损失一定程度的多数类分类性能的情况下提高少数类的分类性能,而多数类分类性能的损失可通过后面的多个分类器集成弥补回来,这样既提高了少数类的分类性能又不会损失多数类的分类精度。本研究把改进的朴素贝叶斯方法作为基分类器,用改进投票权值的AdaBoost算法对基分类器进行融合。实验结果表明,与传统的Adaboost算法相比,该方法可以有效地提高不平衡数据的分类性能。

关键词: 不平衡类, AdaBoost算法, 分类精度

Abstract:

To improve the classification performance for minority class in an unbalanced dataset,  an improved AdaBoost algorithm (UnAdaBoost algorithm) for an unbalanced dataset was proposed. This algorithm could make the base classification better in order to raise the classification efficienly for the minority class, while to a certain extent losing the accuracy for the majority class. This algorithm could also ensemble the base classifications to make up loss of accuracy in majority class. The performance for  the minority class could be improved and the accuracy for majority class would not be lost. In this study, the improved NaiveBayes algorithm was the base classification, and the base classifiers were fused by the AdaBoost algorithm with improved weight for voting. Experimental results showed that the UnAdaBoost algorithm was effective for an unbalanced dataset compared with the AdaBoost algorithm.
 imbalanced class; AdaBoost algorithm; accuracy

Key words:  imbalanced class, AdaBoost algorithm, accuracy

[1] 顾玉磊,马晖,王愚勤,胡卉,刘富鑫. 基于BP-Adaboost与TOPSIS的航空装备供应商评价[J]. 山东大学学报 (工学版), 2024, 54(1): 63-73.
[2] 张宗堂,王森,孙世林. 一种针对不平衡数据分类的集成学习算法[J]. 山东大学学报 (工学版), 2019, 49(4): 8-13.
[3] 江伟坚1,2,郭躬德1,2*,赖智铭1,2. 基于新Haar-like特征的Adaboost人脸检测算法[J]. 山东大学学报(工学版), 2014, 44(2): 43-48.
[4] 李翔1,朱全银1,王尊2. 基于可变基函数和GentleAdaBoost的小波神经网络研究[J]. 山东大学学报(工学版), 2013, 43(5): 31-38.
[5] 朱洪锦1,范洪辉1,陈兴瑞1,田村安孝2. 基于局部自我相关函数光线照明变化下的人脸检测[J]. 山东大学学报(工学版), 2012, 42(5): 59-64.
[6] 孙晓燕1,2,张化祥1,2*,计华1,2. 基于AdaBoost的欠抽样集成学习算法[J]. 山东大学学报(工学版), 2011, 41(4): 91-94.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[2] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[3] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[4] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[5] 王波,王宁生 . 机电装配体拆卸序列的自动生成及组合优化[J]. 山东大学学报(工学版), 2006, 36(2): 52 -57 .
[6] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[7] 张英,郎咏梅,赵玉晓,张鉴达,乔鹏,李善评 . 由EGSB厌氧颗粒污泥培养好氧颗粒污泥的工艺探讨[J]. 山东大学学报(工学版), 2006, 36(4): 56 -59 .
[8] Yue Khing Toh1 , XIAO Wendong2 , XIE Lihua1 . 基于无线传感器网络的分散目标跟踪:实际测试平台的开发应用(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 50 -56 .
[9] 刘忠国,张晓静,刘伯强,刘常春 . 视觉刺激间隔对大脑诱发电位的影响[J]. 山东大学学报(工学版), 2006, 36(3): 34 -38 .
[10] 孙炜伟,王玉振. 考虑饱和的发电机单机无穷大系统有限增益镇定[J]. 山东大学学报(工学版), 2009, 39(1): 69 -76 .