您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (4): 19-23.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于云计算平台的代价敏感集成学习算法研究

张伶卫,万文强   

  1. 南京邮电大学计算机学院, 江苏 南京 210003
  • 收稿日期:2012-05-15 出版日期:2012-08-20 发布日期:2012-05-15
  • 作者简介:张伶卫(1989- ),男,江苏南京人,硕士研究生,主要研究方向为数据挖掘与机器学习. E-mail:1010041215@njupt.edu.cn
  • 基金资助:

    国家重点基础研究发展计划(973计划)资助项目(2011CB302903);国家自然科学基金资助项目(61073114);南京邮电大学攀登计划资助项目(NY210010)

Study on the cost-sensitive ensemble learning algorithm based on the cloud computing platform

ZHANG Ling-wei, WAN Wen-qiang   

  1. College of Computer, Nanjing University of Posts and Telecommunications, Nanjing 210003, China
  • Received:2012-05-15 Online:2012-08-20 Published:2012-05-15

摘要:

针对现实生活中大规模不平衡数据的分类问题,设计了一种基于云计算平台的代价敏感集成学习分类算法。Hadoop云计算平台对海量数据进行划分用于并行学习,同时结合代价敏感的思想对学习得到的基分类器进行加权集成,实现了云计算平台上的代价敏感集成学习分类模型。仿真实验表明该模型能够明显提高少数类的查全率,同时Hadoop的并行机制使得云平台坏境下的集成学习时间较集中式环境有大幅度的缩减,进一步提高了大规模不平衡数据分类问题的学习效率。

关键词: 代价敏感, 集成学习, 云计算平台, 不平衡分类;分布式

Abstract:

With respect to the classification of large scale imbalanced data, a distributed cost-sensitive ensemble learning algorithm based on cloud computing platform was proposed. The large scale data was divided on Hadoop cloud computing platform and was used  in parallel learning. Based on the idea of cost-sensitive, a weighted ensemble classifier was achieved, and a distributed cost-sensitive ensemble learning model based on cloud computing platform was developed. Experiment results showed that the recall rate of the minority class was improved significantly and the computational time was shortened by the ensemble learning on cloud computing platform due to the Hadoop parallel mechanism. In additron,  the classification efficiency of the large-scale imbalanced problem was largely improved.

Key words: cost sensitive learning, ensemble learning, cloud computing platform, imbalanced pattern classification, distribution

[1] 白琳,俱通,王浩,雷明珠,潘晓英. 面向不平衡数据的提升均衡集成学习算法[J]. 山东大学学报 (工学版), 2024, 54(4): 59-66.
[2] 常新功,苏敏惠,周志刚. 基于进化集成的图神经网络解释方法[J]. 山东大学学报 (工学版), 2024, 54(4): 1-12.
[3] 闵海根,雷小平,李杰,童星,吴霞,方煜坤. 基于双层混合集成的自动驾驶汽车故障检测[J]. 山东大学学报 (工学版), 2022, 52(6): 30-40.
[4] 王丽,于明仟,刘文鹏,周瑜,郑蕊蕊,贺建军. 面向类不平衡数据的K近邻偏标记学习算法[J]. 山东大学学报 (工学版), 2022, 52(3): 18-24.
[5] 张大鹏,刘雅军,张伟,沈芬,杨建盛. 基于异质集成学习的虚假评论检测[J]. 山东大学学报 (工学版), 2020, 50(2): 1-9.
[6] 张宗堂,王森,孙世林. 一种针对不平衡数据分类的集成学习算法[J]. 山东大学学报 (工学版), 2019, 49(4): 8-13.
[7] 张璞,刘畅,王永. 基于特征融合和集成学习的建议语句分类模型[J]. 山东大学学报 (工学版), 2018, 48(5): 47-54.
[8] 沈冬冬,周风余,栗梦媛,王淑倩,郭仁和. 基于集成深度神经网络的室内无线定位[J]. 山东大学学报 (工学版), 2018, 48(5): 95-102.
[9] 于青民,李晓磊,翟勇. 基于改进EMD和数据分箱的轴承内圈故障特征提取方法[J]. 山东大学学报(工学版), 2017, 47(3): 89-95.
[10] 王立宏,李强. 旅行商问题的一种选择性集成求解方法[J]. 山东大学学报(工学版), 2016, 46(1): 42-48.
[11] 熊冰妍,王国胤,邓维斌. 分级式代价敏感决策树及其在手机换机预测中的应用[J]. 山东大学学报 (工学版), 2015, 45(5): 36-42.
[12] 何东之,张吉沣,赵鹏飞. 不确定性传播算法的MapReduce并行化实现[J]. 山东大学学报 (工学版), 2015, 45(5): 22-28.
[13] 陈宏兴, 周风余, 田天, 姜志飞, 陈竹敏. 服务机器人云计算平台SOA接口层模型设计[J]. 山东大学学报(工学版), 2015, 45(4): 31-39.
[14] 陈大伟,闫昭*,刘昊岩. SVD系列算法在评分预测中的过拟合现象[J]. 山东大学学报(工学版), 2014, 44(3): 15-21.
[15] 安春霖1,陆慧娟1,2*,郑恩辉3,王明怡1,陆羿4. 嵌入误分类代价和拒识代价的极限学习机基因表达数据分类[J]. 山东大学学报(工学版), 2013, 43(4): 18-25.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[2] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[3] 王,张艳宁,申家振,刘俊成 . 基于信息测度和支持向量机的图像边缘检测[J]. 山东大学学报(工学版), 2006, 36(3): 95 -99 .
[4] 梁京芸,王明刚,柴家前,刘永庆 . 1.6-二-(N5-取代苯基-N1-二胍)己烷盐酸盐的合成和体外抗菌活性[J]. 山东大学学报(工学版), 2008, 38(3): 104 -107 .
[5] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15 -18 .
[6] 庞志俭 张长桥. 甲基丙烯酸十二酯基二元共聚制备缔合减阻剂的合成与性能研究[J]. 山东大学学报(工学版), 2009, 39(5): 128 -132 .
[7] 穴洪涛,田国会,李晓磊,路飞 . QR Code在多种类物体识别与操作中的应用[J]. 山东大学学报(工学版), 2007, 37(6): 25 -30 .
[8] 孙怀凤 李术才 崔伟 邱道宏 刘钦. 综合地质预报在某隧道明洞探测中的应用[J]. 山东大学学报(工学版), 2009, 39(4): 69 -73 .
[9] 韩雪. 平庄西露天煤矿滑坡灾害远程监测实例分析[J]. 山东大学学报(工学版), 2009, 39(4): 116 -120 .
[10] 邓修成,沈艳军,方胜乐 . 多输入-多输出线性系统有限时间观测器设计方法[J]. 山东大学学报(工学版), 2008, 38(4): 17 -21 .