您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (4): 1-7.

• 机器学习与数据挖掘 •    下一篇

一种适应概念漂移数据流的分类算法

郭躬德1,2,李南1,2,陈黎飞1,2   

  1. 1. 福建师范大学数学与计算机科学学院, 福建 福州 350007;
    2. 福建师范大学网络安全与密码技术重点实验室, 福建 福州 350007
  • 收稿日期:2011-04-05 出版日期:2012-08-20 发布日期:2011-04-05
  • 作者简介:郭躬德(1965- ),男,福建龙岩人,教授,博士,主要研究方向为模式识别与人工智能. E-mail: ggd@fjnu.edu.cn
  • 基金资助:

    福建省省属高校科研专项重点项目(JK2009006);福建省高校产学合作重大项目资助(2010H6007)

A self-adaptive classification method for conceptdrifting data streams

GUO Gong-de1,2, LI Nan1,2, CHEN Li-fei1,2   

  1. 1. School of Mathematics and Computer Science, Fujian Normal University, Fuzhou 350007, China;
    2. Key Laboratory of Network Security and Cryptography, Fujian Normal University, Fuzhou 350007, China
  • Received:2011-04-05 Online:2012-08-20 Published:2011-04-05

摘要:

针对带有概念漂移的数据流的分类问题,提出一种新颖的能够识别并且适应概念漂移数据流的分类算法。该算法将原始数据流沿着时间轴划分为若干数据块后,选择第一块中有代表性的数据作为样本训练模型,从而减轻了噪声和边界对分类精度的影响,使得漂移检测能较为全面且对离群点不过于敏感;此后对随后的数据块进行分类,并依据分类结果动态修正当前分类模型。实验结果表明:该方法能够根据数据流的当前状况自动调整分类模型,快速适应数据流概念漂移的情况,并得到较好的分类效果。

关键词: 概念漂移, 数据流, 分类;离群点;时间轴

Abstract:

A novel method was proposed for classifiying the concept-drifting data streams, which could track concept-drifting of data streams and quickly adapt to this change. After dividing a given data stream into several data blocks, it could choose the representative data from the first one for training model. The proposed method could alleviate the effects from noise and bordering data better, and be insensitive to outlier. Moreover, it used the created model for classifying each of the following data blocks, and used the classification results to dynamically adjust the current classification model. The experimental results showed that the proposed method could not only adjust classification model automatically according to the current status of data streams and quickly adapt to the situation of the concept drift, but also improve the classification performance.

Key words: concept drift, data stream, classification, outlier, time axis

[1] 周彦冰,马士伦,文益民. 基于图结构的概念漂移检测[J]. 山东大学学报 (工学版), 2025, 55(2): 88-96.
[2] 张喜龙,韩萌,陈志强,武红鑫,李慕航. 动态集成选择的不平衡漂移数据流Boosting分类算法[J]. 山东大学学报 (工学版), 2023, 53(4): 83-92.
[3] 李尧, 王志海, 孙艳歌, 张伟. 一种基于深度属性加权的数据流自适应集成分类算法[J]. 山东大学学报 (工学版), 2018, 48(6): 44-55.
[4] 琚春华1,2,陈之奇1*. 一种挖掘概念漂移数据流的模糊积分集成分类方法[J]. 山东大学学报(工学版), 2011, 41(4): 44-48.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 李辉平, 赵国群, 张雷, 贺连芳. 超高强度钢板热冲压及模内淬火工艺的发展现状[J]. 山东大学学报(工学版), 2010, 40(3): 69 -74 .
[2] 徐丽丽,季忠,夏继梅 . 同规格货物装箱问题的优化计算[J]. 山东大学学报(工学版), 2008, 38(3): 14 -17 .
[3] 王杉,李田泽 . 一种绕线转子感应电机控制的新方法[J]. 山东大学学报(工学版), 2008, 38(3): 86 -89 .
[4] 赵延风1,2, 王正中1,2 ,芦琴1,祝晗英3 . 梯形明渠水跃共轭水深的直接计算方法[J]. 山东大学学报(工学版), 2009, 39(2): 131 -136 .
[5] 赵科军 王新军 刘洋 仇一泓. 基于结构化覆盖网的连续 top-k 联接查询算法[J]. 山东大学学报(工学版), 2009, 39(5): 32 -37 .
[6] 王伟,毛华永,李国祥,潘世艳,巩厅房,晋世强,郝胜兵 . 一种车用燃油加热器燃烧器的流场数值分析[J]. 山东大学学报(工学版), 2008, 38(3): 64 -68 .
[7] 姚占勇,商庆森,赵之仲,贾朝霞 . 界面条件对半刚性沥青路面结构应力分布的影响[J]. 山东大学学报(工学版), 2007, 37(3): 93 -99 .
[8] 邓斌,王江 . 基于混沌同步与自适应控制的神经元模型参数估计[J]. 山东大学学报(工学版), 2007, 37(5): 19 -23 .
[9] 世文学 刘卫东 孙永福. 基于DEM的堰塞湖1/3溃决模拟及人员撤离方案研究[J]. 山东大学学报(工学版), 2009, 39(5): 144 -148 .
[10] 曹刚 董朝阳 黄洁宝 薛禹胜. 应用FACTS装置实现电力系统区间震荡阻尼控制[J]. 山东大学学报(工学版), 2009, 39(3): 31 -36 .