您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (3): 12-16.

• 机器学习与数据挖掘 • 上一篇    下一篇

一种基于相似度概率的不确定分类数据聚类算法

张新猛,蒋盛益   

  1. 广东外语外贸大学思科信息学院, 广东 广州 510006
  • 收稿日期:2011-02-14 出版日期:2011-06-16 发布日期:2011-02-14
  • 作者简介:张新猛(1974-),男,山东东明人,讲师,硕士,主要研究方向为聚类,Web挖掘.Email:xmzhang@mail.gdufs.edu.cn
  • 基金资助:

    国家自然科学基金资助项目(61070061)

An algorithm for clustering uncertain categorical data
based on similarity probability

ZHANG Xinmeng, JIANG Shengyi   

  1. Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou 510006, China
  • Received:2011-02-14 Online:2011-06-16 Published:2011-02-14

摘要:

针对不确定分类数据,基于Squeezer算法提出一种有效的不确定数据聚类算法:USqueezer算法。该算法先计算一个不确定分类数据与每个簇的相似度概率和,选取最大的相似度和给定的阈值相比较,若大于阈值,将不确定数据划分到该簇中,否则创建一个新簇。实验表明,USqueezer算法能够有效地进行不确定分类数据的聚类,并且占用较少的运行内存空间和运行时间。

关键词: 分类数据, 数据挖掘, 聚类, 不确定数据

Abstract:

Aimed at processing the uncertain categorical data, an efficient uncertain data clustering algorithm, the USqueezer algorithm, was proposed based on the squeezer algorithm. First, this algorithm computed the sum of similarity probability between  uncertain categorical data and each existing cluster. Comparing the largest similarity with a given threshold, it was found that if the largest similarity was greater than the threshold value, the uncertain data would be assigned to this cluster, otherwise the uncertain categorical data was created as a new cluster. Experimental results showed that this algorithm could be effectively used in clustering the uncertain categorical data with a small amount of memory and time.

Key words: uncertain data, categorical data, data mining, clustering

[1] 王换,周忠眉. 一种基于聚类的过抽样算法[J]. 山东大学学报(工学版), 2018, 48(3): 134-139.
[2] 张佩瑞,杨燕,邢焕来,喻琇瑛. 基于核K-means的增量多视图聚类算法[J]. 山东大学学报(工学版), 2018, 48(3): 48-53.
[3] 读习习,刘华锋,景丽萍. 一种融合社交网络的叠加联合聚类推荐模型[J]. 山东大学学报(工学版), 2018, 48(3): 96-102.
[4] 杨天鹏,徐鲲鹏,陈黎飞. 非均匀数据的变异系数聚类算法[J]. 山东大学学报(工学版), 2018, 48(3): 140-145.
[5] 庞人铭,王波,叶昊,张海峰,李明亮. 基于PCA相似度和谱聚类相结合的高炉历史数据聚类[J]. 山东大学学报(工学版), 2017, 47(5): 143-149.
[6] 周旺,张晨麟,吴建鑫. 一种基于Hartigan-Wong和Lloyd的定性平衡聚类算法[J]. 山东大学学报(工学版), 2016, 46(5): 37-44.
[7] 吉兴全,韩国正,李可军,傅荣荣,朱仰贺. 基于密度的改进K均值聚类算法在配网区块划分中的应用[J]. 山东大学学报(工学版), 2016, 46(4): 41-46.
[8] 李朔,石宇良. 基于位置社交网络中地点聚类推荐方法[J]. 山东大学学报(工学版), 2016, 46(3): 44-50.
[9] 江峰,杜军威,刘国柱,眭跃飞. 基于加权的K-modes聚类初始中心选择算法[J]. 山东大学学报(工学版), 2016, 46(2): 29-34.
[10] 樊淑炎, 丁世飞. 基于多尺度的改进Graph cut算法[J]. 山东大学学报(工学版), 2016, 46(1): 28-33.
[11] 徐平安,唐雁,石教开,张辉荣. 基于薛定谔方程的K-Means聚类算法[J]. 山东大学学报(工学版), 2016, 46(1): 34-41.
[12] 马相明, 孙霞, 张强. 轮式装载机典型作业工况构建与分析[J]. 山东大学学报(工学版), 2015, 45(5): 82-87.
[13] 朱红, 丁世飞. 变粒度二次聚类方法[J]. 山东大学学报(工学版), 2015, 45(3): 1-6.
[14] 董红斌, 张广江, 逄锦伟, 韩启龙. 一种基于协同进化方法的聚类集成算法[J]. 山东大学学报(工学版), 2015, 45(2): 1-9.
[15] 周哲, 商琳. 一种基于动态词典和三支决策的情感分析方法[J]. 山东大学学报(工学版), 2015, 45(1): 19-23.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!