您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (4): 19-23.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于云计算平台的代价敏感集成学习算法研究

张伶卫,万文强   

  1. 南京邮电大学计算机学院, 江苏 南京 210003
  • 收稿日期:2012-05-15 出版日期:2012-08-20 发布日期:2012-05-15
  • 作者简介:张伶卫(1989- ),男,江苏南京人,硕士研究生,主要研究方向为数据挖掘与机器学习. E-mail:1010041215@njupt.edu.cn
  • 基金资助:

    国家重点基础研究发展计划(973计划)资助项目(2011CB302903);国家自然科学基金资助项目(61073114);南京邮电大学攀登计划资助项目(NY210010)

Study on the cost-sensitive ensemble learning algorithm based on the cloud computing platform

ZHANG Ling-wei, WAN Wen-qiang   

  1. College of Computer, Nanjing University of Posts and Telecommunications, Nanjing 210003, China
  • Received:2012-05-15 Online:2012-08-20 Published:2012-05-15

摘要:

针对现实生活中大规模不平衡数据的分类问题,设计了一种基于云计算平台的代价敏感集成学习分类算法。Hadoop云计算平台对海量数据进行划分用于并行学习,同时结合代价敏感的思想对学习得到的基分类器进行加权集成,实现了云计算平台上的代价敏感集成学习分类模型。仿真实验表明该模型能够明显提高少数类的查全率,同时Hadoop的并行机制使得云平台坏境下的集成学习时间较集中式环境有大幅度的缩减,进一步提高了大规模不平衡数据分类问题的学习效率。

关键词: 代价敏感, 集成学习, 云计算平台, 不平衡分类;分布式

Abstract:

With respect to the classification of large scale imbalanced data, a distributed cost-sensitive ensemble learning algorithm based on cloud computing platform was proposed. The large scale data was divided on Hadoop cloud computing platform and was used  in parallel learning. Based on the idea of cost-sensitive, a weighted ensemble classifier was achieved, and a distributed cost-sensitive ensemble learning model based on cloud computing platform was developed. Experiment results showed that the recall rate of the minority class was improved significantly and the computational time was shortened by the ensemble learning on cloud computing platform due to the Hadoop parallel mechanism. In additron,  the classification efficiency of the large-scale imbalanced problem was largely improved.

Key words: cost sensitive learning, ensemble learning, cloud computing platform, imbalanced pattern classification, distribution

[1] 沈冬冬,周风余,栗梦媛,王淑倩,郭仁和. 基于集成深度神经网络的室内无线定位[J]. 山东大学学报(工学版), 2018, 48(5): 95-102.
[2] 张璞,刘畅,王永. 基于特征融合和集成学习的建议语句分类模型[J]. 山东大学学报(工学版), 2018, 48(5): 47-54.
[3] 于青民,李晓磊,翟勇. 基于改进EMD和数据分箱的轴承内圈故障特征提取方法[J]. 山东大学学报(工学版), 2017, 47(3): 89-95.
[4] 王立宏,李强. 旅行商问题的一种选择性集成求解方法[J]. 山东大学学报(工学版), 2016, 46(1): 42-48.
[5] 何东之, 张吉沣, 赵鹏飞. 不确定性传播算法的MapReduce并行化实现[J]. 山东大学学报(工学版), 2015, 45(5): 22-28.
[6] 熊冰妍, 王国胤, 邓维斌. 分级式代价敏感决策树及其在手机换机预测中的应用[J]. 山东大学学报(工学版), 2015, 45(5): 36-42.
[7] 陈宏兴, 周风余, 田天, 姜志飞, 陈竹敏. 服务机器人云计算平台SOA接口层模型设计[J]. 山东大学学报(工学版), 2015, 45(4): 31-39.
[8] 陈大伟,闫昭*,刘昊岩. SVD系列算法在评分预测中的过拟合现象[J]. 山东大学学报(工学版), 2014, 44(3): 15-21.
[9] 安春霖1,陆慧娟1,2*,郑恩辉3,王明怡1,陆羿4. 嵌入误分类代价和拒识代价的极限学习机基因表达数据分类[J]. 山东大学学报(工学版), 2013, 43(4): 18-25.
[10] 房晓南1,2,张化祥1,2*,高爽1,2. 基于SMOTE和随机森林的Web spam检测[J]. 山东大学学报(工学版), 2013, 43(1): 22-27.
[11] 谢伙生,刘敏. 一种基于主动学习的集成协同训练算法[J]. 山东大学学报(工学版), 2012, 42(3): 1-5.
[12] 李小斌1, 李世银2. 时间序列早期分类的多分类器集成方法[J]. 山东大学学报(工学版), 2011, 41(4): 73-78.
[13] 李霞1,王连喜2,蒋盛益1. 面向不平衡问题的集成特征选择[J]. 山东大学学报(工学版), 2011, 41(3): 7-11.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!