您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2013, Vol. 43 ›› Issue (5): 13-18.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于GraphLab的分布式近邻传播聚类算法

陈文强1,林琛1,2,陈珂3,陈锦秀1,邹权1,2*   

  1. 1.厦门大学信息科学与技术学院, 福建 厦门 361005; 2.厦门大学深圳研究院, 广东 深圳 518057;
    3.广东石油化工学院计算机科学与技术系, 广东 茂名 525000
  • 收稿日期:2013-05-14 出版日期:2013-10-20 发布日期:2013-05-14
  • 作者简介:陈文强(1988- ),男,福建厦门人,硕士研究生,主要研究方向为可信信息系统研究. E-mail:chenwq@stu.xmu.edu.cn
  • 基金资助:

    国家自然科学基金资助项目(61102136,61001013);福建省自然科学基金资助项目(2011J05158,2010J01351);深圳市科技创新基础研究资助项目(JCYJ20120618155655087)

Distributed affinity propagation clustering algorithm based on GraphLab

CHEN Wen-qiang1, LIN Chen1,2, CHEN Ke3, CHEN Jin-xiu1, ZOU Quan1,2*   

  1. 1. School of Information Science and Technology, Xiamen University, Xiamen 361005, China;
    2. Shenzhen Research Institute,  Xiamen University, Shenzhen 518057, China;
    3. Department of Computer Science and Technology, Guangdong University of
    Petrochemical Technology, Maoming 525000, China
  • Received:2013-05-14 Online:2013-10-20 Published:2013-05-14

摘要:

为有效实现海量数据的非线性聚类,提出基于GraphLab的分布式流式近邻传播算法——GStrAP(GraphLab based stream affinity propagation)。该算法将数据抽象为有向无环图模型,采用“Gather-Apply-Scatter”的模式完成数据同步和算法迭代。在人工合成流形数据3D Clusters、Aggregation、Flame和Pathbased数据集上分别采用不同数据规模以及与传统K-means的聚类性能做对比,实验表明:基于GraphLab的近邻传播算法对数据规模具有良好的拓展性,在保持算法聚类效果的同时,有效降低时间复杂度。

关键词: 分布式计算, GraphLab, 近邻传播聚类算法, 聚类融合

Abstract:

A distributed affinity propagation algorithm based on GraphLab was proposed, which was named GStrAP (Graphlab based stream affinity propagation). In GraphLab′s DAG abstraction, the parallel computation was represented as a directed acyclic graph with data flowing along edges between vertices, and the “Gather-Apply-Scatter” paradigm was applied to complete data synchronization and algorithm′s iteration. The experimental results on 3D Clusters, Aggregation, Flame and Pathbased datasets with different scale and the clustering performance were compared with Kmeans, which demonstrated that the proposed GStrAP could achieve high performance on both scalability and accuracy.

Key words: distributed computation, affinity propagation clustering algorithm, GraphLab, clustering ensemble

中图分类号: 

  • TP301
[1] 李新玉, 徐桂云, 任世锦, 杨茂云. 基于鉴别流形的不相关稀疏投影非负矩阵分解[J]. 山东大学学报(工学版), 2015, 45(5): 1-12.
[2] 梁泽华,崔耀东,张雨. 有顺序依赖损耗的一维下料问题[J]. 山东大学学报(工学版), 2018, 48(3): 75-80.
[3] 吴红岩,冀俊忠. 基于花授粉算法的蛋白质网络功能模块检测方法[J]. 山东大学学报(工学版), 2018, 48(1): 21-30.
[4] 周志杰,赵福均,胡昌华,王力,冯志超,刘涛源. 基于证据推理的航天继电器故障预测方法[J]. 山东大学学报(工学版), 2017, 47(5): 22-29.
[5] 裴小兵,陈慧芬,张百栈,陈孟辉. 改善式BVEDA求解多目标调度问题[J]. 山东大学学报(工学版), 2017, 47(4): 25-30.
[6] 任永峰,董学育. 基于自适应流形相似性的图像显著性区域提取算法[J]. 山东大学学报(工学版), 2017, 47(3): 56-62.
[7] 翟继友,周静波,任永峰,王志坚. 基于背景和前景交互传播的图像显著性检测[J]. 山东大学学报(工学版), 2017, 47(2): 80-85.
[8] 邬慧敏,吴璟莉. 重建二倍体个体单体型的改进环基算法[J]. 山东大学学报(工学版), 2016, 46(4): 9-14.
[9] 朱杰,王晶,刘菲,高冠东,段庆. 基于成分金字塔匹配的对象分类方法[J]. 山东大学学报(工学版), 2016, 46(2): 14-21.
[10] 景运革,李天瑞. 基于知识粒度的增量约简算法[J]. 山东大学学报(工学版), 2016, 46(1): 1-9.
[11] 王立宏,李强. 旅行商问题的一种选择性集成求解方法[J]. 山东大学学报(工学版), 2016, 46(1): 42-48.
[12] 任永峰, 周静波. 基于信息弥散机制的图像显著性区域提取算法[J]. 山东大学学报(工学版), 2015, 45(6): 1-6.
[13] 高艳普, 王向东, 王冬青. 多变量受控自回归滑动平均系统的极大似然辨识方法[J]. 山东大学学报(工学版), 2015, 45(2): 49-55.
[14] 卢文羊, 徐佳一, 杨育彬. 基于LDA主题模型的社会网络链接预测[J]. 山东大学学报(工学版), 2014, 44(6): 26-31.
[15] 江伟坚1,2,郭躬德1,2*,赖智铭1,2. 基于新Haar-like特征的Adaboost人脸检测算法[J]. 山东大学学报(工学版), 2014, 44(2): 43-48.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!