您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2014, Vol. 44 ›› Issue (6): 26-31.doi: 10.6040/j.issn.1672-3961.1.2014.116

• 机器学习与数据挖掘 • 上一篇    下一篇

基于LDA主题模型的社会网络链接预测

卢文羊, 徐佳一, 杨育彬   

  1. 南京大学计算机软件新技术国家重点实验室, 江苏 南京 210023
  • 收稿日期:2014-03-31 修回日期:2014-11-14 出版日期:2014-12-20 发布日期:2014-03-31
  • 通讯作者: 杨育彬(1977-),男,江西赣州人,教授,博士(后),主要研究方向为数字媒体理解与智能处理技术及其应用,基于云计算的海量数据挖掘算法及应用系统,社会网络分析及其可视化.E-mail:yangyubin@nju.edu.cn E-mail:yangyubin@nju.edu.cn
  • 作者简介:卢文羊(1992-),男,江苏宿迁人,硕士研究生,主要研究方向为数据挖掘与社会网络分析.E-mail:luwy007@gmail.com
  • 基金资助:
    教育部新世纪优秀人才计划资助项目(NCET-11-0213);国家自然科学基金资助项目(61273257,61035003, 61021062);江苏省六大人才高峰计划资助项目(2013-XXRJ-018)

LDA-based link prediction in social network

LU Wenyang, XU Jiayi, YANG Yubin   

  1. State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, Jiangsu, China
  • Received:2014-03-31 Revised:2014-11-14 Online:2014-12-20 Published:2014-03-31

摘要: 针对传统社会网络链接预测方法忽视节点文本内容的问题,提出一种基于潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型的协作演化链接预测算法。算法利用LDA模型,对节点的文本内容进行分析,提取出每个节点的主题分布向量,利用分布向量的点积来衡量节点文本的相似性;然后将节点文本内容相似性矩阵与节点邻接矩阵相加,在此基础上计算节点之间的相似性;最后选取相似性最高的k个节点作为预测结果。实验结果表明该算法在网络图稀疏的情况下有较好的效果。

关键词: 链接预测, 网络演化, 主题模型, 潜在狄利克雷分配, 社会网络

Abstract: To address the problem of ignoring the text contents of nodes in social network link prediction methods, a Latent Dirichlet Allocation(LDA)-based collaborative evolutionary link prediction algorithm was proposed. The algorithm used LDA model to analyze the text content and abstracted a topic distribution vector for each node; The product of the topic distribution vectors was adopted to measure the similarity between the nodes' contents; Afterwards, the content similarity matrix was added to the adjacency matrix and the similarities between the nodes were computed consequently; At last, k most similar nodes were selected as the prediction result. The experimental results showed that the proposed algorithm achieved good prediction performance in sparse networks.

Key words: network evolution, social network, link prediction, topic model, Latent Dirichlet Allocation

中图分类号: 

  • TP301
[1] NEWMAN M E J. Clustering and preferential attachment in growing networks[J].Physical Review E, 2001, 64(2):251021-251024.
[2] CARMI S, HAVLIN S, KIRKPATRICK S, et al. A model of Internet topology using k-shell decomposition[J]. Proceedings of the National Academy of Sciences, 2007, 104(27):11150-11154.
[3] MURATA T, MORIYASU S. Link prediction of social networks based on weighted proximity measures[C]//Web Intelligence, IEEE/WIC/ACM International Conference on. Fremont:IEEE, 2007:85-88.
[4] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003, 3:993-1022.
[5] SRENSEN T. A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on danish commons[J]. Biol Skr, 1948, 5:1-34.
[6] LEICHT E A, HOLME P, NEWMAN M E J. Vertex similarity in networks[J]. Physical Review E, 2006, 73(2):26120.
[7] CHOWDHURY G. Introduction to modern information retrieval[M]. London:Facet publishing, 2010.
[8] ADAMIC L A, ADAR E. Friends and neighbors on the web[J]. Social Networks, 2003, 25(3):211-230.
[9] LU L, ZHOU T. Link prediction in complex networks:a survey[J].Physica A:Statistical Mechanics and its Applications, 2011, 390(6):1150-1170.
[10] CHAKRABARTI S, DOM B, INDYK P. Enhanced hypertext categorization using hyperlinks[C]//Proceedings of the 4th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle, Washington:ACM, 1998, 27(2):307-318.
[11] ZHANG T, PROPESCUL A, DOM B. Linear prediction models with graph regularization for web-page categorization[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia, USA:ACM, 2006:821-826.
[12] CARVALHO V R, COHEN W W. On the collective classification of email speech acts[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Salvador, Brazil:ACM, 2005:345-352.
[13] HEINRICH G. Parameter estimation for text analysis[R]. Darmstadt, Germany:Fraunhofer IGD, 2005.
[14] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Salvador, Brazil:ACM, 1999:50-57.
[15] KUMAR R, NOVAK J, TOMKINS A. Structure and evolution of online social networks[M].New York:Springer, 2010:337-357.
[16] GUHA S, MEYERSON A, MISHRAN, et al. Clustering data streams:Theory and practice[J]. Knowledge and Data Engineering, 2003, 15(3):515-528.
[1] 马坤,刘筱云,李乐平,纪科,陈贞翔,杨波. 用于意图识别的自适应多标签信息学习模型[J]. 山东大学学报 (工学版), 2024, 54(1): 45-51.
[2] 吴艳丽,刘淑薇,何东晓,王晓宝,金弟. 刻画多种潜在关系的泊松-伽马主题模型[J]. 山东大学学报 (工学版), 2023, 53(2): 51-60.
[3] 孙志巍,宋明阳,潘泽华,景丽萍. 上下文感知的判别式主题模型[J]. 山东大学学报 (工学版), 2022, 52(4): 131-138.
[4] 覃俊,李蔚栋,易金莉,刘晶,马懋德. 基于双重启发式信息求解影响最大化问题的蚁群算法[J]. 山东大学学报 (工学版), 2020, 50(3): 45-50.
[5] 胡云,张舒,李慧,佘侃侃,施珺. 基于信任网络重构的推荐算法[J]. 山东大学学报 (工学版), 2019, 49(2): 42-46.
[6] 朱映雪,黄瑞章,马灿. 一种具有新主题偏向性的短文本动态聚类方法[J]. 山东大学学报 (工学版), 2018, 48(6): 8-18.
[7] 闫盈盈,黄瑞章,王瑞,马灿,刘博伟,黄庭. 一种长文本辅助短文本的文本理解方法[J]. 山东大学学报(工学版), 2018, 48(3): 67-74.
[8] 韩忠明, 吴杨, 谭旭升, 刘雯, 杨伟杰. 社会网络结构洞节点度量指标比较与分析[J]. 山东大学学报(工学版), 2015, 45(1): 1-8.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 施来顺,万忠义 . 新型甜菜碱型沥青乳化剂的合成与性能测试[J]. 山东大学学报(工学版), 2008, 38(4): 112 -115 .
[2] 李梁,罗奇鸣,陈恩红. 对象级搜索中基于图的对象排序模型(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 15 -21 .
[3] 孙国华,吴耀华,黎伟. 消费税控制策略对供应链系统绩效的影响[J]. 山东大学学报(工学版), 2009, 39(1): 63 -68 .
[4] 孙从征,管从胜,秦敬玉,程川 . 铝合金化学镀镍磷合金结构和性能[J]. 山东大学学报(工学版), 2007, 37(5): 108 -112 .
[5] 胡天亮,李鹏,张承瑞,左毅 . 基于VHDL的正交编码脉冲电路解码计数器设计[J]. 山东大学学报(工学版), 2008, 38(3): 10 -13 .
[6] 田芳1,张颖欣2,张礼3,侯秀萍3,裘南畹3. 新型金属氧化物薄膜气敏元件基材料的开发[J]. 山东大学学报(工学版), 2009, 39(2): 104 -107 .
[7] 许延生,刘兴芳 . 模糊聚类迭代模型在水资源承载能力评价中的应用[J]. 山东大学学报(工学版), 2007, 37(3): 100 -104 .
[8] 高阳 张庆松 原小帅 许振浩 刘斌. 地质雷达在岩溶隧道超前预报中的应用[J]. 山东大学学报(工学版), 2009, 39(4): 82 -86 .
[9] 景运革,李天瑞. 基于知识粒度的增量约简算法[J]. 山东大学学报(工学版), 2016, 46(1): 1 -9 .
[10] 刘佃瑞,赵辉宏,钟麦英 . 一类线性离散时变系统的H∞故障估计[J]. 山东大学学报(工学版), 2008, 38(4): 11 -16 .