您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (2): 96-101.

• 机器学习与数据挖掘 • 上一篇    下一篇

一种用于不平衡数据的分类算法

陈金坦1,2,康恒政3*,杨燕3,周伟雄4   

  1. 1. 华中科技大学管理学院, 湖北 武汉 410000; 2.  广东省公路管理局, 广东 广州 510075;
    3. 西南交通大学信息科学与技术学院, 四川 成都 610031; 4. 佛山市公路局, 广东 佛山 528000
  • 收稿日期:2011-03-12 出版日期:2011-04-16 发布日期:2011-03-12
  • 通讯作者: 康恒政(1984- ),男,山西大同人,硕士研究生,主要研究方向为数据挖掘.Email:southwest08@gmail.com E-mail:southwest08@gmail.com
  • 作者简介:陈金坦(1965- ),男,河南信阳人,博士研究生,主要研究方向为管理科学与信息管理.Email:chenjintan@126.com

A classification method for class-imbalanced data

CHEN Jintan1, 2, KANG Hengzheng3*, YANG Yan3, ZHOU Weixiong 4   

  1. 1. School of Management, Huazhong University of Science and Technology, Wuhan 410000, China;
     2. Guangdong Provincial Highway Administration, Guangzhou 510075, China;
    3. School of Information Science & Technology, Southwest Jiaotong University, Chengdu 610031, China;
    4. Foshan Highway Administration, Foshan 528000, China
  • Received:2011-03-12 Online:2011-04-16 Published:2011-03-12

摘要:

为提高不平衡数据集中少数类的分类性能,本研究提出一种改进的AdaBoost算法(UnAdaBoost算法)来解决数据不平衡问题。该方法首先改进基分类器,使其在损失一定程度的多数类分类性能的情况下提高少数类的分类性能,而多数类分类性能的损失可通过后面的多个分类器集成弥补回来,这样既提高了少数类的分类性能又不会损失多数类的分类精度。本研究把改进的朴素贝叶斯方法作为基分类器,用改进投票权值的AdaBoost算法对基分类器进行融合。实验结果表明,与传统的Adaboost算法相比,该方法可以有效地提高不平衡数据的分类性能。

关键词: 不平衡类, AdaBoost算法, 分类精度

Abstract:

To improve the classification performance for minority class in an unbalanced dataset,  an improved AdaBoost algorithm (UnAdaBoost algorithm) for an unbalanced dataset was proposed. This algorithm could make the base classification better in order to raise the classification efficienly for the minority class, while to a certain extent losing the accuracy for the majority class. This algorithm could also ensemble the base classifications to make up loss of accuracy in majority class. The performance for  the minority class could be improved and the accuracy for majority class would not be lost. In this study, the improved NaiveBayes algorithm was the base classification, and the base classifiers were fused by the AdaBoost algorithm with improved weight for voting. Experimental results showed that the UnAdaBoost algorithm was effective for an unbalanced dataset compared with the AdaBoost algorithm.
 imbalanced class; AdaBoost algorithm; accuracy

Key words:  imbalanced class, AdaBoost algorithm, accuracy

[1] 江伟坚1,2,郭躬德1,2*,赖智铭1,2. 基于新Haar-like特征的Adaboost人脸检测算法[J]. 山东大学学报(工学版), 2014, 44(2): 43-48.
[2] 李翔1,朱全银1,王尊2. 基于可变基函数和GentleAdaBoost的小波神经网络研究[J]. 山东大学学报(工学版), 2013, 43(5): 31-38.
[3] 朱洪锦1,范洪辉1,陈兴瑞1,田村安孝2. 基于局部自我相关函数光线照明变化下的人脸检测[J]. 山东大学学报(工学版), 2012, 42(5): 59-64.
[4] 孙晓燕1,2,张化祥1,2*,计华1,2. 基于AdaBoost的欠抽样集成学习算法[J]. 山东大学学报(工学版), 2011, 41(4): 91-94.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!