您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (4): 8-11.

• 机器学习与数据挖掘 • 上一篇    下一篇

文本分类中一种新的特征选择方法

王法波,许信顺   

  1. 山东大学计算机科学与技术学院, 山东 济南 250101
  • 收稿日期:2009-11-11 出版日期:2010-08-16 发布日期:2009-11-11
  • 作者简介:王法波(1986-),男,山东济南人,硕士研究生,主要研究方向为文本分类、机器学习.E-mail: wfbshiwo@yahoo.com.cn
  • 基金资助:

    山东省自然科学基金资助项目(Q2008G06);教育部留学归国人员科研启动基金资助项目;山东大学自主创新基金资助项目(2009TS033)

A new feature selection method for text categorization

WANG Fa-bo, XU Xin-shun   

  1. School of Computer Science and Technology, Shandong University, Jinan 250101, China
  • Received:2009-11-11 Online:2010-08-16 Published:2009-11-11

摘要:

文本分类面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。针对该问题,提出了一种基于信息论的特征再提取方法,旨在删除稀疏分布的特征、保留有利于分类的特征。使用该方法时配合特征选择方法,可进一步降低特征维数。实验结果表明,该方法能将特征维数降低到几百维,而且能提高分类器的性能。

关键词: 文本分类, 特征选择, 熵, 互信息, 信息增益, 卡方统计

Abstract:

How to reduce feature dimension while maintaining categorization accuracy is a key issue of text categorization.  A new method based on information theory was proposed to solve this problem. This approach aims to eliminate sparsely distributed features and find features  useful for categorization. Working with these feature reduction methods, it could  further reduce the feature dimension. The performance of  this  proposed method was tested on benchmark text classification problems. The results showed that it could not only reduce the feature dimension to hundreds but also improve the performance.

Key words: text categorization, feature selection, entropy, mutual information, information gain, CHI square statistics

[1] 唐杰烽,张佳,龙锦益. 基于全局冗余最小的快速多标签特征选择方法[J]. 山东大学学报 (工学版), 2025, 55(6): 21-34.
[2] 曹芙波,肖胜先,王晨霞,郜德龙,李敦,苏天,秦士杰,王宇飞. 基于熵权TOPSIS的再生砖混水稳材料多指标综合性能评价[J]. 山东大学学报 (工学版), 2025, 55(6): 151-162.
[3] 李长城,罗燕婷,王东宏,康海鹏,潘松. 考虑初始故障状态和继发故障风险的关键线路辨识方法[J]. 山东大学学报 (工学版), 2025, 55(5): 40-50.
[4] 吴正健,吾尔尼沙·买买提,杨耀威,阿力木江·艾沙,库尔班·吾布力. 基于DRCoALTP的印刷体文档图像多文种识别方法[J]. 山东大学学报 (工学版), 2025, 55(1): 51-57.
[5] 陈晓江,杨晓奇,陈广豪,刘伍颖. 混合BERT和宽度学习的低时间复杂度短文本分类[J]. 山东大学学报 (工学版), 2024, 54(4): 51-58.
[6] 梁涛,刘亚祥,杨硕,徐越,王庆松. 山东省综合能源系统可持续发展能力评价[J]. 山东大学学报 (工学版), 2024, 54(4): 159-168.
[7] 宋辉,张轶哲,张功萱,孟元. 基于类权重和最小化预测熵的测试时集成方法[J]. 山东大学学报 (工学版), 2024, 54(3): 36-43.
[8] 陈宝国,邓明,陈金林. 基于权重邻域熵的数值型信息系统属性约简算法[J]. 山东大学学报 (工学版), 2024, 54(1): 33-44.
[9] 马坤,刘筱云,李乐平,纪科,陈贞翔,杨波. 用于意图识别的自适应多标签信息学习模型[J]. 山东大学学报 (工学版), 2024, 54(1): 45-51.
[10] 庄绪彩,孙希滕,张宁,田源,殷敬敬,宋修广. 基于主客观组合赋权评价技术的雷视一体机安装方案优选[J]. 山东大学学报 (工学版), 2023, 53(4): 37-47.
[11] 刘财辉,周琪,叶晓文. 一种基于改进ReliefF算法的入侵检测模型[J]. 山东大学学报 (工学版), 2023, 53(2): 1-10.
[12] 许传臻,袭肖明,李维翠,孙仪,杨璐. 基于自适应多分辨率特征学习的CNV分型网络[J]. 山东大学学报 (工学版), 2022, 52(4): 69-75.
[13] 袁高腾,周晓峰,郭宏乐. 基于特征选择算法的ECG信号分类[J]. 山东大学学报 (工学版), 2022, 52(4): 38-44.
[14] 孙志巍,宋明阳,潘泽华,景丽萍. 上下文感知的判别式主题模型[J]. 山东大学学报 (工学版), 2022, 52(4): 131-138.
[15] 郭茂林,包崇明,周丽华,丁涛,孔兵. 基于TOPSIS的异质网络影响力最大化[J]. 山东大学学报 (工学版), 2022, 52(2): 31-40.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 曲延鹏,陈颂英,李春峰,王小鹏,滕书格 . 低压大流量自激脉冲清洗喷嘴内部气液两相流数值模拟[J]. 山东大学学报(工学版), 2006, 36(4): 16 -20 .
[2] 关小军,韩振强,申孝民,麻晓飞,刘运腾 . 09CuPTiRE钢动态再结晶的热模拟实验与有限元模拟[J]. 山东大学学报(工学版), 2006, 36(5): 17 -20 .
[3] 王勇, 谢玉东.

大流量管道煤气的控制技术研究

[J]. 山东大学学报(工学版), 2009, 39(2): 70 -74 .
[4] 李辉平, 赵国群, 张雷, 贺连芳. 超高强度钢板热冲压及模内淬火工艺的发展现状[J]. 山东大学学报(工学版), 2010, 40(3): 69 -74 .
[5] 夏 斌,张连俊 . DS-CDMA UWB系统中基于能量比较的TOA估计算法[J]. 山东大学学报(工学版), 2007, 37(1): 70 -73 .
[6] 刘新1 ,宋思利1 ,王新洪2 . 石墨配比对钨极氩弧熔敷层TiC增强相含量及分布形态的影响[J]. 山东大学学报(工学版), 2009, 39(2): 98 -100 .
[7] 薛翊国,李术才,赵岩,苏茂鑫,李为腾,丁志海. 青岛胶州湾海底隧道F44含水断层注浆前后TSP探测分析[J]. 山东大学学报(工学版), 2009, 39(2): 108 -112 .
[8] 田芳1,张颖欣2,张礼3,侯秀萍3,裘南畹3. 新型金属氧化物薄膜气敏元件基材料的开发[J]. 山东大学学报(工学版), 2009, 39(2): 104 -107 .
[9] 陈华鑫, 陈拴发, 王秉纲. 基质沥青老化行为与老化机理[J]. 山东大学学报(工学版), 2009, 39(2): 125 -130 .
[10] 薛强,艾兴,赵军,周咏辉,袁训亮 . 纳米TiC对Si3N4基复合陶瓷材料性能和微观结构的影响[J]. 山东大学学报(工学版), 2008, 38(3): 69 -72 .