您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2013, Vol. 43 ›› Issue (5): 13-18.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于GraphLab的分布式近邻传播聚类算法

陈文强1,林琛1,2,陈珂3,陈锦秀1,邹权1,2*   

  1. 1.厦门大学信息科学与技术学院, 福建 厦门 361005; 2.厦门大学深圳研究院, 广东 深圳 518057;
    3.广东石油化工学院计算机科学与技术系, 广东 茂名 525000
  • 收稿日期:2013-05-14 出版日期:2013-10-20 发布日期:2013-05-14
  • 作者简介:陈文强(1988- ),男,福建厦门人,硕士研究生,主要研究方向为可信信息系统研究. E-mail:chenwq@stu.xmu.edu.cn
  • 基金资助:

    国家自然科学基金资助项目(61102136,61001013);福建省自然科学基金资助项目(2011J05158,2010J01351);深圳市科技创新基础研究资助项目(JCYJ20120618155655087)

Distributed affinity propagation clustering algorithm based on GraphLab

CHEN Wen-qiang1, LIN Chen1,2, CHEN Ke3, CHEN Jin-xiu1, ZOU Quan1,2*   

  1. 1. School of Information Science and Technology, Xiamen University, Xiamen 361005, China;
    2. Shenzhen Research Institute,  Xiamen University, Shenzhen 518057, China;
    3. Department of Computer Science and Technology, Guangdong University of
    Petrochemical Technology, Maoming 525000, China
  • Received:2013-05-14 Online:2013-10-20 Published:2013-05-14

摘要:

为有效实现海量数据的非线性聚类,提出基于GraphLab的分布式流式近邻传播算法——GStrAP(GraphLab based stream affinity propagation)。该算法将数据抽象为有向无环图模型,采用“Gather-Apply-Scatter”的模式完成数据同步和算法迭代。在人工合成流形数据3D Clusters、Aggregation、Flame和Pathbased数据集上分别采用不同数据规模以及与传统K-means的聚类性能做对比,实验表明:基于GraphLab的近邻传播算法对数据规模具有良好的拓展性,在保持算法聚类效果的同时,有效降低时间复杂度。

关键词: 分布式计算, GraphLab, 近邻传播聚类算法, 聚类融合

Abstract:

A distributed affinity propagation algorithm based on GraphLab was proposed, which was named GStrAP (Graphlab based stream affinity propagation). In GraphLab′s DAG abstraction, the parallel computation was represented as a directed acyclic graph with data flowing along edges between vertices, and the “Gather-Apply-Scatter” paradigm was applied to complete data synchronization and algorithm′s iteration. The experimental results on 3D Clusters, Aggregation, Flame and Pathbased datasets with different scale and the clustering performance were compared with Kmeans, which demonstrated that the proposed GStrAP could achieve high performance on both scalability and accuracy.

Key words: distributed computation, affinity propagation clustering algorithm, GraphLab, clustering ensemble

中图分类号: 

  • TP301
[1] 宋佳芮,陈艳平,王凯,黄瑞章,秦永彬. 基于Affix-Attention的命名实体识别语义补充方法[J]. 山东大学学报 (工学版), 2023, 53(2): 70-76.
[2] 杨巨成,韩书杰,毛磊,代翔子,陈亚瑞. 胶囊网络模型综述[J]. 山东大学学报 (工学版), 2019, 49(6): 1-10.
[3] 方波,陈红梅. 一种新的双策略进化果蝇优化算法[J]. 山东大学学报 (工学版), 2019, 49(3): 22-31.
[4] 梁泽华,崔耀东,张雨. 有顺序依赖损耗的一维下料问题[J]. 山东大学学报(工学版), 2018, 48(3): 75-80.
[5] 吴红岩,冀俊忠. 基于花授粉算法的蛋白质网络功能模块检测方法[J]. 山东大学学报(工学版), 2018, 48(1): 21-30.
[6] 周志杰,赵福均,胡昌华,王力,冯志超,刘涛源. 基于证据推理的航天继电器故障预测方法[J]. 山东大学学报(工学版), 2017, 47(5): 22-29.
[7] 裴小兵,陈慧芬,张百栈,陈孟辉. 改善式BVEDA求解多目标调度问题[J]. 山东大学学报(工学版), 2017, 47(4): 25-30.
[8] 任永峰,董学育. 基于自适应流形相似性的图像显著性区域提取算法[J]. 山东大学学报(工学版), 2017, 47(3): 56-62.
[9] 翟继友,周静波,任永峰,王志坚. 基于背景和前景交互传播的图像显著性检测[J]. 山东大学学报(工学版), 2017, 47(2): 80-85.
[10] 邬慧敏,吴璟莉. 重建二倍体个体单体型的改进环基算法[J]. 山东大学学报(工学版), 2016, 46(4): 9-14.
[11] 朱杰,王晶,刘菲,高冠东,段庆. 基于成分金字塔匹配的对象分类方法[J]. 山东大学学报(工学版), 2016, 46(2): 14-21.
[12] 景运革,李天瑞. 基于知识粒度的增量约简算法[J]. 山东大学学报(工学版), 2016, 46(1): 1-9.
[13] 王立宏,李强. 旅行商问题的一种选择性集成求解方法[J]. 山东大学学报(工学版), 2016, 46(1): 42-48.
[14] 任永峰, 周静波. 基于信息弥散机制的图像显著性区域提取算法[J]. 山东大学学报(工学版), 2015, 45(6): 1-6.
[15] 高艳普, 王向东, 王冬青. 多变量受控自回归滑动平均系统的极大似然辨识方法[J]. 山东大学学报(工学版), 2015, 45(2): 49-55.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[3] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[4] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[5] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[6] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[7] 王波,王宁生 . 机电装配体拆卸序列的自动生成及组合优化[J]. 山东大学学报(工学版), 2006, 36(2): 52 -57 .
[8] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[9] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[10] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .