您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (5): 87-90.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于词贡献度的垃圾短信分类方法

张永军1,刘金岭2,于长辉3   

  1. 淮阴工学院计算机工程学院, 江苏 淮安 223003
  • 收稿日期:2012-05-20 出版日期:2012-10-20 发布日期:2012-05-20
  • 作者简介:张永军(1978- ),男,江苏扬州人,讲师,硕士,主要研究方向为文本数据挖掘. E-mail:13511543380@139.com
  • 基金资助:
    江苏省教育厅高校哲学社会研究资助项目(2012SJD87001)

A spam short message classification method based on word contribution

ZHANG Yong-jun1, LIU Jin-ling2, YU Chang-hui3   

  1. Faculty of Computer Engineering, Huaiyin Institute of Technology, Huai′an 223003, China
  • Received:2012-05-20 Online:2012-10-20 Published:2012-05-20

摘要: 针对垃圾短信分类问题, 提出了一种以词贡献度为基础的分类方法。该方法引入词贡献度的概念表达词在不同短信分类中的权重差别,通过构建词贡献度——分类矩阵和计算矩阵行均方差来实现降维,以词贡献度为基础计算短信隶属于短信分类的隶属度,并通过比较隶属度密度的方法解决分类冲突问题。实验结果表明,该方法在分类效果和实时性方面优于其他常用垃圾短信分类方法。

关键词: 垃圾短信, 文本分类, 词贡献度, 方差, 降维

Abstract: A classification method based on word contribution was proposed to classify spam short messages. The concept of word contribution was introduced for representing weight difference of a word in different categories, the word contributionclassification matrix was constructed, then the mean square deviation of each row in the matrix was computed to reduce dimensionalities. To determine the classification a short message belongs to, short messagecategory membership degrees were calculated based on word contribution. Furthermore if category candidates were more than one, the classification conflict problem could be resolved by comparing the densities of short messagecategory membership degree. The experimental results showed that the proposed method was superior to other classification methods in the classification result and realtime.

Key words: spam short message, text classification, word contribution, variance, dimensionality reduction

中图分类号: 

  • TP311
[1] 陈晓江,杨晓奇,陈广豪,刘伍颖. 混合BERT和宽度学习的低时间复杂度短文本分类[J]. 山东大学学报 (工学版), 2024, 54(4): 51-58.
[2] 马坤,刘筱云,李乐平,纪科,陈贞翔,杨波. 用于意图识别的自适应多标签信息学习模型[J]. 山东大学学报 (工学版), 2024, 54(1): 45-51.
[3] 孙志巍,宋明阳,潘泽华,景丽萍. 上下文感知的判别式主题模型[J]. 山东大学学报 (工学版), 2022, 52(4): 131-138.
[4] 尹晓敏,孟祥剑,侯昆明,陈亚潇,高峰. 一种计及空间相关性的光伏电站历史出力数据的修正方法[J]. 山东大学学报 (工学版), 2021, 51(4): 118-123.
[5] 孙东磊,王艳,于一潇,韩学山,杨明,闫芳晴. 基于BP神经网络的短期光伏集群功率区间预测[J]. 山东大学学报 (工学版), 2020, 50(5): 70-76.
[6] 高明霞,李经纬. 基于word2vec词模型的中文短文本分类方法[J]. 山东大学学报 (工学版), 2019, 49(2): 34-41.
[7] 谢志峰,吴佳萍,马利庄. 基于卷积神经网络的中文财经新闻分类方法[J]. 山东大学学报(工学版), 2018, 48(3): 34-39.
[8] 钱文光,李会民. 一种相似子空间嵌入算法[J]. 山东大学学报(工学版), 2018, 48(1): 8-14.
[9] 张玉玲,尹传环. 基于SVM的安卓恶意软件检测[J]. 山东大学学报(工学版), 2017, 47(1): 42-47.
[10] 梅清琳,张化祥. 基于全局距离和类别信息的邻域保持嵌入算法[J]. 山东大学学报(工学版), 2016, 46(1): 10-14.
[11] 任捷怡, 吴小俊. 一种改进的协方差鉴别学习方法[J]. 山东大学学报(工学版), 2015, 45(1): 9-12.
[12] 文志强,朱文球,胡永祥. 半调图像的分类方法[J]. 山东大学学报(工学版), 2013, 43(4): 7-12.
[13] 郭慧玲,王士同*,闫晓波. 基于广义旋转不变性核函数的人脸识别[J]. 山东大学学报(工学版), 2012, 42(5): 71-79.
[14] 王洪元,封磊,冯燕,程起才. 流形学习算法在中文文本分类中的应用[J]. 山东大学学报(工学版), 2012, 42(4): 8-12.
[15] 林旭峰,胡永健,刘琲贝. 利用颜色通道间关系的源相机分类方法[J]. 山东大学学报(工学版), 2012, 42(3): 18-24.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[3] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[4] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[5] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[6] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[7] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .
[8] 王丽君,黄奇成,王兆旭 . 敏感性问题中的均方误差与模型比较[J]. 山东大学学报(工学版), 2006, 36(6): 51 -56 .
[9] 孙殿柱,朱昌志,李延瑞 . 散乱点云边界特征快速提取算法[J]. 山东大学学报(工学版), 2009, 39(1): 84 -86 .
[10] 赵然杭,陈守煜 . 水资源数量与质量联合评价理论模型研究[J]. 山东大学学报(工学版), 2006, 36(3): 46 -50 .