您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (3): 7-11.

• 机器学习与数据挖掘 • 上一篇    下一篇

面向不平衡问题的集成特征选择

李霞1,王连喜2,蒋盛益1   

  1. 1. 广东外语外贸大学信息学院, 广东 广州 510006;
    2. 广东科贸职业学院商贸系, 广东 广州 510640
  • 收稿日期:2011-02-01 出版日期:2011-06-16 发布日期:2011-02-01
  • 作者简介:李霞(1976- ),女,江西乐平人,讲师,硕士,主要研究方向为数据挖掘.Email: shelly-lx@126.com
  • 基金资助:

    国家自然科学基金资助项目(61070061);广东省自然科学基金资助项目(9151026005000002);广东省高层次人才资助项目

Ensemble learning based feature selection for imbalanced problems

LI Xia1, WANG Lian-xi2, JIANG Sheng-yi1   

  1. 1. School of Informatics, Guangdong University of Foreign Studies, Guangzhou 510006, China;
    2. Department of Business and Trade, Guangdong Vocational College of Science and Trade, Guangzhou 510640, China
  • Received:2011-02-01 Online:2011-06-16 Published:2011-02-01

摘要:

传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。

关键词: 不平衡数据集, 特征选择, 集成学习, 抽样

Abstract:

The traditional feature selection methods are basically aimed for getting the optimal accuracy without full consideration of the data distribution, which can not achieve promising results on imbalanced datasets. A new feature selection method was proposed based on the data distribution modification  for imbalanced data sets. This approach could modify data distribution  many times by sampling with replacement. The instances of large classes were equal to the minor class samples in each new dataset. Finally, the final selected features were generated by voting mechanism for ensemble learning, which could combine the selected features by receiving more votes   than half from all the new training datasets. Experimental results on several UCI datasets showed that the proposed method was an effective feature selection approach for imbalance problems.
 

Key words: imbalanced data, feature selection, ensemble learning, sampling

[1] 牟廉明. 自适应特征选择加权k子凸包分类[J]. 山东大学学报(工学版), 2018, 48(5): 32-37.
[2] 沈冬冬,周风余,栗梦媛,王淑倩,郭仁和. 基于集成深度神经网络的室内无线定位[J]. 山东大学学报(工学版), 2018, 48(5): 95-102.
[3] 张璞,刘畅,王永. 基于特征融合和集成学习的建议语句分类模型[J]. 山东大学学报(工学版), 2018, 48(5): 47-54.
[4] 王换,周忠眉. 一种基于聚类的过抽样算法[J]. 山东大学学报(工学版), 2018, 48(3): 134-139.
[5] 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42.
[6] 方昊,李云. 基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 山东大学学报(工学版), 2017, 47(1): 15-21.
[7] 莫小勇,潘志松,邱俊洋,余亚军,蒋铭初. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46(4): 21-27.
[8] 王立宏,李强. 旅行商问题的一种选择性集成求解方法[J]. 山东大学学报(工学版), 2016, 46(1): 42-48.
[9] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18.
[10] 陈大伟,闫昭*,刘昊岩. SVD系列算法在评分预测中的过拟合现象[J]. 山东大学学报(工学版), 2014, 44(3): 15-21.
[11] 魏小敏,徐彬,关佶红. 基于递归特征消除法的蛋白质能量热点预测[J]. 山东大学学报(工学版), 2014, 44(2): 12-20.
[12] 杨秀林1,黄硕2*,邓苗1,张基宏1,3. 基于显著计算与自适应PCNN的图像融合方法[J]. 山东大学学报(工学版), 2014, 44(2): 35-42.
[13] 房晓南1,2,张化祥1,2*,高爽1,2. 基于SMOTE和随机森林的Web spam检测[J]. 山东大学学报(工学版), 2013, 43(1): 22-27.
[14] 张伶卫,万文强. 基于云计算平台的代价敏感集成学习算法研究[J]. 山东大学学报(工学版), 2012, 42(4): 19-23.
[15] 谢伙生,刘敏. 一种基于主动学习的集成协同训练算法[J]. 山东大学学报(工学版), 2012, 42(3): 1-5.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!