您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (4): 49-55.

• 论文 • 上一篇    下一篇

基于动态裁剪频繁模式树的频繁项集并发挖掘算法

宋威,刘文博,李晋宏   

  1. 北方工业大学信息工程学院, 北京 100144
  • 收稿日期:2011-04-15 出版日期:2011-08-16 发布日期:2011-04-15
  • 作者简介:宋威(1980- ),男,辽宁抚顺人,副教授,博士,主要研究方向为数据挖掘. E-mail: songwei@ncut.edu.cn
  • 基金资助:

    国家自然科学基金资助项目(51075423);北京市属市管高等学校人才强教计划资助项目(PHR20100509, PHR201108057);北京市优秀人才培养资助项目(2009D005002000009)

Concurrent frequent itemsets mining algorithm based on dynamic prune of FP-tree

SONG Wei, LIU Wen-bo, LI Jin-hong   

  1. College of Information Engineering, North China University of Technology, Beijing 100144, China
  • Received:2011-04-15 Online:2011-08-16 Published:2011-04-15

摘要:

为解决FP(frequent pattern)-growth算法中构造频繁模式树(FP-树)所带来的存储和遍历开销较大的问题,提出了一种基于动态裁剪FP-树的频繁项集并发算法Dynamicprune。一方面,通过记录FP树构造过程中频繁项目计数的变化,实现了FP树的动态剪枝;另一方面,使用并发策略达到了边构造FP-树,边挖掘频繁项集的效果。与FPgrowth算法相比,Dynamic-prune无需先构造整棵FP-树再挖掘频繁项集,节省了FP-树的存储开销。实验结果表明Dynamic-prune在运行效率和可扩展性上均优于FPgrowth算法。

关键词: 数据挖掘, 频繁模式树, 频繁项集, 动态剪枝, 并发

Abstract:

To solve the problem of huge memory usage of FP-tree construction and traversal in FP-growth, the dynamic-prune algorithm, a concurrent frequent itemsets mining algorithm based on dynamic pruning FP-tree, was proposed. First, by recording the support counts of frequent items during the process of FP-tree construction, the dynamic pruning algorithm of FP-tree was implemented. Sencond, the construction of FP-tree and the discovery of frequent itemsets could be realized simultaneously by using the concurrency strategy. Compared with FP-growth algorithm, it was not necessary to mine frequent itemsets after the construction of FP-tree in dynamic-prune algorithm, and the memory cost reduced. Experimental results showed that the dynamic-prune algorithm outperformed the FP-growth algorithm both in efficiency and scalability.

Key words:  data mining, FP-Tree, frequent itemset, dynamic prune, concurrency

[1] 庞人铭,王波,叶昊,张海峰,李明亮. 基于PCA相似度和谱聚类相结合的高炉历史数据聚类[J]. 山东大学学报(工学版), 2017, 47(5): 143-149.
[2] 周哲, 商琳. 一种基于动态词典和三支决策的情感分析方法[J]. 山东大学学报(工学版), 2015, 45(1): 19-23.
[3] 朱全银1,严云洋1,周培1,谷天峰2. 一种线性插补与自适应滑动窗口价格预测模型[J]. 山东大学学报(工学版), 2012, 42(5): 53-58.
[4] 琚春华1,2,陈之奇1*. 一种挖掘概念漂移数据流的模糊积分集成分类方法[J]. 山东大学学报(工学版), 2011, 41(4): 44-48.
[5] 王爱国,李廉*,杨静,陈桂林. 一种基于Bayesian网络的网页推荐算法[J]. 山东大学学报(工学版), 2011, 41(4): 137-142.
[6] 张新猛,蒋盛益. 一种基于相似度概率的不确定分类数据聚类算法[J]. 山东大学学报(工学版), 2011, 41(3): 12-16.
[7] 孙静宇,余雪丽,陈俊杰, 李鲜花. 采样特异性因子及异常检测[J]. 山东大学学报(工学版), 2010, 40(5): 56-59.
[8] 董乃鹏 赵合计 SCHOMMER Christoph. 作者写作特征提取引擎[J]. 山东大学学报(工学版), 2009, 39(5): 27-31.
[9] 孙宇清,赵锐,姚青,史斌,刘佳 . 一种基于网格的障碍约束下空间聚类算法[J]. 山东大学学报(工学版), 2006, 36(3): 86-90 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!