您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (4): 49-55.

• 论文 • 上一篇    下一篇

基于动态裁剪频繁模式树的频繁项集并发挖掘算法

宋威,刘文博,李晋宏   

  1. 北方工业大学信息工程学院, 北京 100144
  • 收稿日期:2011-04-15 出版日期:2011-08-16 发布日期:2011-04-15
  • 作者简介:宋威(1980- ),男,辽宁抚顺人,副教授,博士,主要研究方向为数据挖掘. E-mail: songwei@ncut.edu.cn
  • 基金资助:

    国家自然科学基金资助项目(51075423);北京市属市管高等学校人才强教计划资助项目(PHR20100509, PHR201108057);北京市优秀人才培养资助项目(2009D005002000009)

Concurrent frequent itemsets mining algorithm based on dynamic prune of FP-tree

SONG Wei, LIU Wen-bo, LI Jin-hong   

  1. College of Information Engineering, North China University of Technology, Beijing 100144, China
  • Received:2011-04-15 Online:2011-08-16 Published:2011-04-15

摘要:

为解决FP(frequent pattern)-growth算法中构造频繁模式树(FP-树)所带来的存储和遍历开销较大的问题,提出了一种基于动态裁剪FP-树的频繁项集并发算法Dynamicprune。一方面,通过记录FP树构造过程中频繁项目计数的变化,实现了FP树的动态剪枝;另一方面,使用并发策略达到了边构造FP-树,边挖掘频繁项集的效果。与FPgrowth算法相比,Dynamic-prune无需先构造整棵FP-树再挖掘频繁项集,节省了FP-树的存储开销。实验结果表明Dynamic-prune在运行效率和可扩展性上均优于FPgrowth算法。

关键词: 数据挖掘, 频繁模式树, 频繁项集, 动态剪枝, 并发

Abstract:

To solve the problem of huge memory usage of FP-tree construction and traversal in FP-growth, the dynamic-prune algorithm, a concurrent frequent itemsets mining algorithm based on dynamic pruning FP-tree, was proposed. First, by recording the support counts of frequent items during the process of FP-tree construction, the dynamic pruning algorithm of FP-tree was implemented. Sencond, the construction of FP-tree and the discovery of frequent itemsets could be realized simultaneously by using the concurrency strategy. Compared with FP-growth algorithm, it was not necessary to mine frequent itemsets after the construction of FP-tree in dynamic-prune algorithm, and the memory cost reduced. Experimental results showed that the dynamic-prune algorithm outperformed the FP-growth algorithm both in efficiency and scalability.

Key words:  data mining, FP-Tree, frequent itemset, dynamic prune, concurrency

[1] 周彦冰,马士伦,文益民. 基于图结构的概念漂移检测[J]. 山东大学学报 (工学版), 2025, 55(2): 88-96.
[2] 王梅,宋凯文,刘勇,王志宝,万达. DMKK-means——一种深度多核K-means聚类算法[J]. 山东大学学报 (工学版), 2024, 54(6): 1-7.
[3] 张妮,韩萌,王乐,李小娟,程浩东. 基于索引列表的增量高效用模式挖掘算法[J]. 山东大学学报 (工学版), 2022, 52(2): 107-117.
[4] 聂秀山,马玉玲,乔慧妍,郭杰,崔超然,于志云,刘兴波,尹义龙. 任务粒度视角下的学生成绩预测研究综述[J]. 山东大学学报 (工学版), 2022, 52(2): 1-14.
[5] 杨思, 李思童, 张进东, 白羽. 高速光通信激光器带宽模型改进与并行计算优化[J]. 山东大学学报 (工学版), 2019, 49(1): 17-22.
[6] 刘芳,吴广潮. 一种基于压缩矩阵的改进Apriori算法[J]. 山东大学学报 (工学版), 2018, 48(6): 82-88.
[7] 庞人铭,王波,叶昊,张海峰,李明亮. 基于PCA相似度和谱聚类相结合的高炉历史数据聚类[J]. 山东大学学报(工学版), 2017, 47(5): 143-149.
[8] 周哲, 商琳. 一种基于动态词典和三支决策的情感分析方法[J]. 山东大学学报(工学版), 2015, 45(1): 19-23.
[9] 朱全银1,严云洋1,周培1,谷天峰2. 一种线性插补与自适应滑动窗口价格预测模型[J]. 山东大学学报(工学版), 2012, 42(5): 53-58.
[10] 王爱国,李廉*,杨静,陈桂林. 一种基于Bayesian网络的网页推荐算法[J]. 山东大学学报(工学版), 2011, 41(4): 137-142.
[11] 琚春华1,2,陈之奇1*. 一种挖掘概念漂移数据流的模糊积分集成分类方法[J]. 山东大学学报(工学版), 2011, 41(4): 44-48.
[12] 张新猛,蒋盛益. 一种基于相似度概率的不确定分类数据聚类算法[J]. 山东大学学报(工学版), 2011, 41(3): 12-16.
[13] 孙静宇,余雪丽,陈俊杰, 李鲜花. 采样特异性因子及异常检测[J]. 山东大学学报(工学版), 2010, 40(5): 56-59.
[14] 董乃鹏 赵合计 SCHOMMER Christoph. 作者写作特征提取引擎[J]. 山东大学学报(工学版), 2009, 39(5): 27-31.
[15] 孙宇清,赵锐,姚青,史斌,刘佳 . 一种基于网格的障碍约束下空间聚类算法[J]. 山东大学学报(工学版), 2006, 36(3): 86-90 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 张永花,王安玲,刘福平 . 低频非均匀电磁波在导电界面的反射相角[J]. 山东大学学报(工学版), 2006, 36(2): 22 -25 .
[2] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[3] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[4] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[5] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[6] 王波,王宁生 . 机电装配体拆卸序列的自动生成及组合优化[J]. 山东大学学报(工学版), 2006, 36(2): 52 -57 .
[7] 张英,郎咏梅,赵玉晓,张鉴达,乔鹏,李善评 . 由EGSB厌氧颗粒污泥培养好氧颗粒污泥的工艺探讨[J]. 山东大学学报(工学版), 2006, 36(4): 56 -59 .
[8] Yue Khing Toh1 , XIAO Wendong2 , XIE Lihua1 . 基于无线传感器网络的分散目标跟踪:实际测试平台的开发应用(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 50 -56 .
[9] 孙炜伟,王玉振. 考虑饱和的发电机单机无穷大系统有限增益镇定[J]. 山东大学学报(工学版), 2009, 39(1): 69 -76 .
[10] 关小军,韩振强,申孝民,麻晓飞,刘运腾 . 09CuPTiRE钢动态再结晶的热模拟实验与有限元模拟[J]. 山东大学学报(工学版), 2006, 36(5): 17 -20 .