您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (4): 8-11.

• 机器学习与数据挖掘 • 上一篇    下一篇

文本分类中一种新的特征选择方法

王法波,许信顺   

  1. 山东大学计算机科学与技术学院, 山东 济南 250101
  • 收稿日期:2009-11-11 出版日期:2010-08-16 发布日期:2009-11-11
  • 作者简介:王法波(1986-),男,山东济南人,硕士研究生,主要研究方向为文本分类、机器学习.E-mail: wfbshiwo@yahoo.com.cn
  • 基金资助:

    山东省自然科学基金资助项目(Q2008G06);教育部留学归国人员科研启动基金资助项目;山东大学自主创新基金资助项目(2009TS033)

A new feature selection method for text categorization

WANG Fa-bo, XU Xin-shun   

  1. School of Computer Science and Technology, Shandong University, Jinan 250101, China
  • Received:2009-11-11 Online:2010-08-16 Published:2009-11-11

摘要:

文本分类面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。针对该问题,提出了一种基于信息论的特征再提取方法,旨在删除稀疏分布的特征、保留有利于分类的特征。使用该方法时配合特征选择方法,可进一步降低特征维数。实验结果表明,该方法能将特征维数降低到几百维,而且能提高分类器的性能。

关键词: 文本分类, 特征选择, 熵, 互信息, 信息增益, 卡方统计

Abstract:

How to reduce feature dimension while maintaining categorization accuracy is a key issue of text categorization.  A new method based on information theory was proposed to solve this problem. This approach aims to eliminate sparsely distributed features and find features  useful for categorization. Working with these feature reduction methods, it could  further reduce the feature dimension. The performance of  this  proposed method was tested on benchmark text classification problems. The results showed that it could not only reduce the feature dimension to hundreds but also improve the performance.

Key words: text categorization, feature selection, entropy, mutual information, information gain, CHI square statistics

[1] 牟廉明. 自适应特征选择加权k子凸包分类[J]. 山东大学学报(工学版), 2018, 48(5): 32-37.
[2] 谢志峰,吴佳萍,马利庄. 基于卷积神经网络的中文财经新闻分类方法[J]. 山东大学学报(工学版), 2018, 48(3): 34-39.
[3] 邱路,叶银忠,姜春娣. 基于小波奇异熵和SOM神经网络的微电网系统故障诊断[J]. 山东大学学报(工学版), 2017, 47(5): 118-122.
[4] 吴建萍,姜斌,刘剑慰. 基于小波包信息熵和小波神经网络的异步电机故障诊断[J]. 山东大学学报(工学版), 2017, 47(5): 223-228.
[5] 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42.
[6] 方昊,李云. 基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 山东大学学报(工学版), 2017, 47(1): 15-21.
[7] 林耀进,张佳,林梦雷,王娟. 一种基于模糊信息熵的协同过滤推荐方法[J]. 山东大学学报(工学版), 2016, 46(5): 13-20.
[8] 莫小勇,潘志松,邱俊洋,余亚军,蒋铭初. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46(4): 21-27.
[9] 张佳,林耀进,林梦雷,刘景华,李慧宗. 基于信息熵的协同过滤算法[J]. 山东大学学报(工学版), 2016, 46(2): 43-50.
[10] 郭逾,张二华,刘驰. 一种基于频域特征和过渡段判决的端点检测算法[J]. 山东大学学报(工学版), 2016, 46(2): 57-63.
[11] 宋冬梅, 刘春晓, 沈晨, 石学法, 臧琳, 冯文强. 基于主客观赋权法的多目标多属性决策方法[J]. 山东大学学报(工学版), 2015, 45(4): 1-9.
[12] 辛丽玲, 何威, 于剑, 贾彩燕. 一种基于密度差异的离群点检测算法[J]. 山东大学学报(工学版), 2015, 45(3): 7-14.
[13] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18.
[14] 周咏梅1,阳爱民1,林江豪2. 中文微博情感词典构建方法[J]. 山东大学学报(工学版), 2014, 44(3): 36-40.
[15] 魏小敏,徐彬,关佶红. 基于递归特征消除法的蛋白质能量热点预测[J]. 山东大学学报(工学版), 2014, 44(2): 12-20.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!