您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (5): 87-90.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于词贡献度的垃圾短信分类方法

张永军1,刘金岭2,于长辉3   

  1. 淮阴工学院计算机工程学院, 江苏 淮安 223003
  • 收稿日期:2012-05-20 出版日期:2012-10-20 发布日期:2012-05-20
  • 作者简介:张永军(1978- ),男,江苏扬州人,讲师,硕士,主要研究方向为文本数据挖掘. E-mail:13511543380@139.com
  • 基金资助:
    江苏省教育厅高校哲学社会研究资助项目(2012SJD87001)

A spam short message classification method based on word contribution

ZHANG Yong-jun1, LIU Jin-ling2, YU Chang-hui3   

  1. Faculty of Computer Engineering, Huaiyin Institute of Technology, Huai′an 223003, China
  • Received:2012-05-20 Online:2012-10-20 Published:2012-05-20

摘要: 针对垃圾短信分类问题, 提出了一种以词贡献度为基础的分类方法。该方法引入词贡献度的概念表达词在不同短信分类中的权重差别,通过构建词贡献度——分类矩阵和计算矩阵行均方差来实现降维,以词贡献度为基础计算短信隶属于短信分类的隶属度,并通过比较隶属度密度的方法解决分类冲突问题。实验结果表明,该方法在分类效果和实时性方面优于其他常用垃圾短信分类方法。

关键词: 垃圾短信, 文本分类, 词贡献度, 方差, 降维

Abstract: A classification method based on word contribution was proposed to classify spam short messages. The concept of word contribution was introduced for representing weight difference of a word in different categories, the word contributionclassification matrix was constructed, then the mean square deviation of each row in the matrix was computed to reduce dimensionalities. To determine the classification a short message belongs to, short messagecategory membership degrees were calculated based on word contribution. Furthermore if category candidates were more than one, the classification conflict problem could be resolved by comparing the densities of short messagecategory membership degree. The experimental results showed that the proposed method was superior to other classification methods in the classification result and realtime.

Key words: spam short message, text classification, word contribution, variance, dimensionality reduction

中图分类号: 

  • TP311
[1] 谢志峰,吴佳萍,马利庄. 基于卷积神经网络的中文财经新闻分类方法[J]. 山东大学学报(工学版), 2018, 48(3): 34-39.
[2] 钱文光,李会民. 一种相似子空间嵌入算法[J]. 山东大学学报(工学版), 2018, 48(1): 8-14.
[3] 张玉玲,尹传环. 基于SVM的安卓恶意软件检测[J]. 山东大学学报(工学版), 2017, 47(1): 42-47.
[4] 梅清琳,张化祥. 基于全局距离和类别信息的邻域保持嵌入算法[J]. 山东大学学报(工学版), 2016, 46(1): 10-14.
[5] 任捷怡, 吴小俊. 一种改进的协方差鉴别学习方法[J]. 山东大学学报(工学版), 2015, 45(1): 9-12.
[6] 文志强,朱文球,胡永祥. 半调图像的分类方法[J]. 山东大学学报(工学版), 2013, 43(4): 7-12.
[7] 郭慧玲,王士同*,闫晓波. 基于广义旋转不变性核函数的人脸识别[J]. 山东大学学报(工学版), 2012, 42(5): 71-79.
[8] 王洪元,封磊,冯燕,程起才. 流形学习算法在中文文本分类中的应用[J]. 山东大学学报(工学版), 2012, 42(4): 8-12.
[9] 林旭峰,胡永健,刘琲贝. 利用颜色通道间关系的源相机分类方法[J]. 山东大学学报(工学版), 2012, 42(3): 18-24.
[10] 王熙照,白丽杰*,花强,刘玉超. null[J]. 山东大学学报(工学版), 2011, 41(4): 1-6.
[11] 崔燕,范丽亚. 高维数据正定核与不定核的KPCA变换阵比较[J]. 山东大学学报(工学版), 2011, 41(1): 17-23.
[12] 贺广南,杨育彬*. 基于流形学习的图像检索算法研究[J]. 山东大学学报(工学版), 2010, 40(5): 129-136.
[13] 曾雪强1,李国正2. 基于偏最小二乘降维的分类模型比较[J]. 山东大学学报(工学版), 2010, 40(5): 41-47.
[14] 王法波,许信顺. 文本分类中一种新的特征选择方法[J]. 山东大学学报(工学版), 2010, 40(4): 8-11.
[15] 张道强. 知识保持的嵌入方法[J]. 山东大学学报(工学版), 2010, 40(2): 1-10.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!