  1.西安邮电大学计算机学院, 陕西 西安 710121;2.陕西省网络数据分析与智能处理重点实验室, 陕西 西安 710121
Boosted equalization ensemble learning algorithm for imbalanced data

BAI Lin1,2, JU Tong1, WAND Hao1, LEI Mingzhu1, PAN Xiaoying1,2   

  1. 1.School of Computer Science and Technology, Xi'an University of Posts and Telecommunications, Xi'an 710121, Shaanxi, China;
    2. Shaanxi Province Key Laboratory of Network Data Analysis and Intelligent Processing, Xi'an 710121, Shaanxi, China
摘要: 为有效解决欠采样技术在处理不平衡数据时的伪平衡问题,提出并设计一种基于欠采样的提升均衡集成学习算法。采用新的均衡采样机制,通过分箱操作协调数据的预测概率,生成高质量的训练子集,以此迭代训练分类器。基于基分类器在原始数据上的假阳性率和假阴性率,在迭代过程中自适应为其分配权重,避免性能较差的分类器影响整体决策,提高集成模型的泛化能力。新的算法能够在消除伪平衡的同时增加多数类样本的识别度,从而降低边界模糊对分类模型的影响。通过18组小型数据集和2组大型数据集的对比试验表明,该算法具有处理不平衡数据分类问题的优势。

关键词: 欠采样, 类不平衡, 不平衡学习, 集成学习, 不平衡数据分类


