您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2013, Vol. 43 ›› Issue (03): 7-12.

• 机器学习与数据挖掘 •    

基于短信文本信息流的多热点事件挖掘

刘金岭1, 王新功2, 周泓1   

  1. 1. 淮阴工学院计算机工程学院,  江苏 淮安 223003; 2. 沧州师范学院计算机系, 河北 沧州 061000
  • 收稿日期:2012-07-11 发布日期:2012-07-11
  • 作者简介:刘金岭(1958- ),男,河北沧州人,教授,硕士生导师,主要研究方向为数据库与数据挖掘.E-mail:liujinlingg@126.com
  • 基金资助:

    河北省科技计划资助项目(10213581);淮安市社会支撑资助项目(HASZ2012046)

The mining of hot events based on information flow of short message texts

LIU Jinling1, WANG Xingong2, ZHOU Hong1   

  1. 1. Faculty of Computer Engineering, Huaiyin Institute of Technology, Huai’an 223003, China;
    2. Department of Computer, Cangzhou Teachers College, Cangzhou 061000, China
  • Received:2012-07-11 Published:2012-07-11

摘要:

短信文本信息流携带了丰富的信息资源,为了在其中挖掘出多热点事件,给出了短信文本信息流在线分检算法,该方法采用特征词共现频度定义了特征词相关度,综合前导信息集合及信息产生频率定义了短信文本相似度。并且每聚类到一个时间段后,就对已聚类的短信文本进行周期分类。该算法对大数量短文本信息流的多热点事件检索效率较高,同时减少了信息的误检和漏检的可能性。在真实数据集上与SinglePass算法进行比较实验,其结果表明了各项指标都有不同程度的提高。

关键词: 短信文本, 信息流, 热点事件, SinglePass, 聚类

Abstract:

The text information flow of SMS had carried abundant information resources. In order to find out the hot events behind it, an online sorting algorithm was  given for the text information flow of SMS. This method  used the cooccurrence frequency of feature words to define its relevance. And the similarity of message texts was  defined on the basis of preamble information collection and information frequency. Furthermore, after each time period of clustering,  the clustered SMS texts were classified periodically. This algorithm had higher efficiency to find hot events for a large number of short text information retrieval. Moreover, this algorithin  reduced the possibility of false detection and missed detection. Based on the comparison of experiments on algorithms between real data sets and SinglePass, the  results  showed that  each index was improved to some degree.

Key words: short message text, information flow, hot event, SinglePass, clustering

中图分类号: 

  • TP311
[1] 王换,周忠眉. 一种基于聚类的过抽样算法[J]. 山东大学学报(工学版), 2018, 48(3): 134-139.
[2] 张佩瑞,杨燕,邢焕来,喻琇瑛. 基于核K-means的增量多视图聚类算法[J]. 山东大学学报(工学版), 2018, 48(3): 48-53.
[3] 读习习,刘华锋,景丽萍. 一种融合社交网络的叠加联合聚类推荐模型[J]. 山东大学学报(工学版), 2018, 48(3): 96-102.
[4] 杨天鹏,徐鲲鹏,陈黎飞. 非均匀数据的变异系数聚类算法[J]. 山东大学学报(工学版), 2018, 48(3): 140-145.
[5] 庞人铭,王波,叶昊,张海峰,李明亮. 基于PCA相似度和谱聚类相结合的高炉历史数据聚类[J]. 山东大学学报(工学版), 2017, 47(5): 143-149.
[6] 周旺,张晨麟,吴建鑫. 一种基于Hartigan-Wong和Lloyd的定性平衡聚类算法[J]. 山东大学学报(工学版), 2016, 46(5): 37-44.
[7] 吉兴全,韩国正,李可军,傅荣荣,朱仰贺. 基于密度的改进K均值聚类算法在配网区块划分中的应用[J]. 山东大学学报(工学版), 2016, 46(4): 41-46.
[8] 李朔,石宇良. 基于位置社交网络中地点聚类推荐方法[J]. 山东大学学报(工学版), 2016, 46(3): 44-50.
[9] 江峰,杜军威,刘国柱,眭跃飞. 基于加权的K-modes聚类初始中心选择算法[J]. 山东大学学报(工学版), 2016, 46(2): 29-34.
[10] 樊淑炎, 丁世飞. 基于多尺度的改进Graph cut算法[J]. 山东大学学报(工学版), 2016, 46(1): 28-33.
[11] 徐平安,唐雁,石教开,张辉荣. 基于薛定谔方程的K-Means聚类算法[J]. 山东大学学报(工学版), 2016, 46(1): 34-41.
[12] 马相明, 孙霞, 张强. 轮式装载机典型作业工况构建与分析[J]. 山东大学学报(工学版), 2015, 45(5): 82-87.
[13] 朱红, 丁世飞. 变粒度二次聚类方法[J]. 山东大学学报(工学版), 2015, 45(3): 1-6.
[14] 董红斌, 张广江, 逄锦伟, 韩启龙. 一种基于协同进化方法的聚类集成算法[J]. 山东大学学报(工学版), 2015, 45(2): 1-9.
[15] 浩庆波, 牟少敏, 尹传环, 昌腾腾, 崔文斌. 一种基于聚类的快速局部支持向量机算法[J]. 山东大学学报(工学版), 2015, 45(1): 13-18.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!