您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (5): 123-128.

• 论文 • 上一篇    下一篇

不均衡问题中的特征选择新算法:Im-IG

尤鸣宇,陈燕,李国正   

  1. 同济大学电子与信息工程学院控制科学与工程系, 上海 201804
  • 收稿日期:2010-05-10 出版日期:2010-10-16 发布日期:2010-05-10
  • 作者简介:尤鸣宇(1981-),女,浙江象山人,博士,讲师,主要研究方向是智能中医、模式识别.E-mail:myyou@tongji.edu.cn
  • 基金资助:

    国家自然科学基金资助项目(60873129, 30901897);上海市青年科技启明星计划资助项目(08QA1403200)

Im-IG: A novel feature selection method for imbalanced problems

YOU Ming-yu, CHEN Yan, LI Guo-zheng   

  1. College of Electronic and Information, Tongji University, Shanghai 201804, China
  • Received:2010-05-10 Online:2010-10-16 Published:2010-05-10

摘要:

机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalancedinformation gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。

关键词: Im-IG算法, 不均衡问题, 特征选择

Abstract:

Imbalanced data set is a ubiquitous problem in machine learning field, which attracts much attention from related scientists. Information Gain (IG) method is widely used in feature selection, but it is seldom researched in imbalanced problem. Based on the performance discussion of IG on imbalanced data sets, a new method Im-IG was proposed for imbalanced problem in feature selection. Im-IG increased the weight of minor class in the entropy calculation, in order to select features which were better for minor class. Im-IG focused on improving the classification accuracy of minor class, based on the performance improvement of the whole data set. Experimental results on several imbalanced data sets showed that Im-IG can solve the imbalanced predicament IG met and it was an effective feature selection method for imbalanced problem.

Key words:  Im-IG method, imbalance problem, feature selection

[1] 唐杰烽,张佳,龙锦益. 基于全局冗余最小的快速多标签特征选择方法[J]. 山东大学学报 (工学版), 2025, 55(6): 21-34.
[2] 吴正健,吾尔尼沙·买买提,杨耀威,阿力木江·艾沙,库尔班·吾布力. 基于DRCoALTP的印刷体文档图像多文种识别方法[J]. 山东大学学报 (工学版), 2025, 55(1): 51-57.
[3] 刘财辉,周琪,叶晓文. 一种基于改进ReliefF算法的入侵检测模型[J]. 山东大学学报 (工学版), 2023, 53(2): 1-10.
[4] 许传臻,袭肖明,李维翠,孙仪,杨璐. 基于自适应多分辨率特征学习的CNV分型网络[J]. 山东大学学报 (工学版), 2022, 52(4): 69-75.
[5] 袁高腾,周晓峰,郭宏乐. 基于特征选择算法的ECG信号分类[J]. 山东大学学报 (工学版), 2022, 52(4): 38-44.
[6] 彭岩,冯婷婷,王洁. 基于集成学习的O3的质量浓度预测模型[J]. 山东大学学报 (工学版), 2020, 50(4): 1-7.
[7] 汪嘉晨, 唐向红, 陆见光. 轴承故障诊断中特征选取技术[J]. 山东大学学报 (工学版), 2019, 49(2): 80-87.
[8] 陈红,杨小飞,万青,马盈仓. 基于相关熵和流形学习的多标签特征选择算法[J]. 山东大学学报 (工学版), 2018, 48(6): 27-36.
[9] 牟廉明. 自适应特征选择加权k子凸包分类[J]. 山东大学学报 (工学版), 2018, 48(5): 32-37.
[10] 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42.
[11] 方昊,李云. 基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 山东大学学报(工学版), 2017, 47(1): 15-21.
[12] 莫小勇,潘志松,邱俊洋,余亚军,蒋铭初. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46(4): 21-27.
[13] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18.
[14] 魏小敏,徐彬,关佶红. 基于递归特征消除法的蛋白质能量热点预测[J]. 山东大学学报(工学版), 2014, 44(2): 12-20.
[15] 潘冬寅,朱发,徐昇,业宁*. 结肠癌基因表达谱的特征选取研究[J]. 山东大学学报(工学版), 2012, 42(2): 23-29.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 李梁,罗奇鸣,陈恩红. 对象级搜索中基于图的对象排序模型(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 15 -21 .
[2] 岳远征. 远离平衡态玻璃的弛豫[J]. 山东大学学报(工学版), 2009, 39(5): 1 -20 .
[3] 孙从征,管从胜,秦敬玉,程川 . 铝合金化学镀镍磷合金结构和性能[J]. 山东大学学报(工学版), 2007, 37(5): 108 -112 .
[4] 赵延风1,2, 王正中1,2 ,芦琴1,祝晗英3 . 梯形明渠水跃共轭水深的直接计算方法[J]. 山东大学学报(工学版), 2009, 39(2): 131 -136 .
[5] 蔡晓军1 ,张擎1 ,柴乔林1 ,孔苏丽2 . 基于能量均衡的n分多路径路由算法[J]. 山东大学学报(工学版), 2009, 39(2): 141 -145 .
[6] 薛成骞,董建文,孟宪锋,常虹,曹宁,陈华英,李木森 . C/C+HA骨植入材料对杂交波尔山羊生理生化机能的影响[J]. 山东大学学报(工学版), 2008, 38(3): 73 -76 .
[7] 罗运虎,邢丽冬,王勤,刘海春,翁晓光 . 需求侧2种可中断负荷备用市场报价策略的协调[J]. 山东大学学报(工学版), 2008, 38(3): 77 -80 .
[8] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15 -18 .
[9] 赵勇 田四明 曹哲明. 宜万铁路复杂岩溶隧道施工地质工作方法[J]. 山东大学学报(工学版), 2009, 39(5): 91 -95 .
[10] 孙媛媛 徐衍亮 姚之宁. 旁磁制动单相感应电动机制动力的分析与计算[J]. 山东大学学报(工学版), 2009, 39(5): 120 -123 .