山东大学学报(工学版) 2011, 41(3) 12-16 DOI:     ISSN: 0412-1961 CN: 21-1139

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
机器学习与数据挖掘
扩展功能
本文信息
Supporting info
PDF(382KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
文章反馈
浏览反馈信息
本文关键词相关文章
不确定数据
分类数据
数据挖掘
聚类
本文作者相关文章
PubMed
一种基于相似度概率的不确定分类数据聚类算法
张新猛,蒋盛益
广东外语外贸大学思科信息学院, 广东 广州 510006
摘要

针对不确定分类数据,基于Squeezer算法提出一种有效的不确定数据聚类算法:USqueezer算法。该算法先计算一个不确定分类数据与每个簇的相似度概率和,选取最大的相似度和给定的阈值相比较,若大于阈值,将不确定数据划分到该簇中,否则创建一个新簇。实验表明,USqueezer算法能够有效地进行不确定分类数据的聚类,并且占用较少的运行内存空间和运行时间。

关键词不确定数据   分类数据   数据挖掘   聚类  
An algorithm for clustering uncertain categorical data
based on similarity probability
ZHANG Xinmeng, JIANG Shengyi
Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou 510006, China
Abstract:

Aimed at processing the uncertain categorical data, an efficient uncertain data clustering algorithm, the USqueezer algorithm, was proposed based on the squeezer algorithm. First, this algorithm computed the sum of similarity probability between  uncertain categorical data and each existing cluster. Comparing the largest similarity with a given threshold, it was found that if the largest similarity was greater than the threshold value, the uncertain data would be assigned to this cluster, otherwise the uncertain categorical data was created as a new cluster. Experimental results showed that this algorithm could be effectively used in clustering the uncertain categorical data with a small amount of memory and time.

Keywords: uncertain data   categorical data   data mining   clustering  
收稿日期 2011-02-14 修回日期  网络版发布日期  
DOI:
基金项目:

国家自然科学基金资助项目(61070061)

通讯作者:
作者简介: 张新猛(1974-),男,山东东明人,讲师,硕士,主要研究方向为聚类,Web挖掘.Email:xmzhang@mail.gdufs.edu.cn
作者Email:
PDF Preview


参考文献:
本刊中的类似文章
1.杨金伟,王丽珍*,陈红梅,赵丽红.基于距离的不确定数据异常点检测研究[J]. 山东大学学报(工学版), 2011,41(4): 34-37

Copyright by 山东大学学报(工学版)