您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2013, Vol. 43 ›› Issue (1): 28-33.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于非线性流形学习和k-NN的文本分类算法

张国栋1,2,张化祥1,2*   

  1. 1. 山东师范大学信息科学与工程学院,山东 济南 250014;
    2. 山东省分布式计算机软件新技术重点实验室, 山东 济南 250014
  • 收稿日期:2012-12-05 出版日期:2013-02-20 发布日期:2012-12-05
  • 通讯作者: 张化祥(1966- ),男,山东济宁人,教授,博士生导师,主要研究方向为机器学习与模式识别及Web挖掘等. E-mail: huaxzhang@163.com
  • 作者简介:张国栋(1988- ),男,山东泰安人,硕士研究生,主要研究方向为机器学习与数据挖掘.E-mail:guodongZ-1988@163.com
  • 基金资助:

    国家自然科学基金资助项目(61170145);教育部高等学校博士点专项基金资助项目(20113704110001);山东省自然科学基金资助项目(ZR2010FM021)

Text categorization algorithm based on non-linear manifold learning and k-NN

ZHANG Guo-dong1,2, ZHANG Hua-xiang1,2*   

  1. 1. School of Information Science & Engineering, Shandong Normal University, Jinan 250014, China;
    2. Shandong Provincial Key Laboratory for Novel Distributed Computer Software Technology, Jinan 250014, China
  • Received:2012-12-05 Online:2013-02-20 Published:2012-12-05

摘要:

为解决文本分类中存在的维数灾难、数据集噪声等问题,本研究提出一种利用非线性维数约简算法结合k-最邻近结点算法(k-nearest neighbor algorithm, k-NN)的文本分类算法。该算法首先对数据集进行去噪处理,再采用非线性流形学习中的局部线性嵌入算法恢复高维数据中的中低维流形结构,以实现数据约简,利用经过上述处理的文本数据学习k-NN分类器。实验结果表明,该算法能够有效提高文本分类精度。

关键词: k-最邻近结点算法, 非线性维数约简算法, 分类, 数据约简

Abstract:

In order to save the problems of dimensionality curse, noise data in text categorization, the text categorization algorithm was presented based on the non-linear dimensionality reduction algorithm and combined with kNN(knearest neighbor algorithm). The algorithm first removed the noise data, and then used the locally linear embedding algorithm of non-linear manifold learning to recover low-dimensional manifold structure in high-dimensional data to implement dimensionality reduction. The processed data was used to construct k-NN classifiers. Experimental results showed that this  algorithm could  effectively improve the accuracy of text classification.

Key words: data reduction, categorization, non-linear dimensionality reduction algorithm, k-NN

中图分类号: 

  • TP391
[1] 张璞,刘畅,王永. 基于特征融合和集成学习的建议语句分类模型[J]. 山东大学学报(工学版), 2018, 48(5): 47-54.
[2] 曹雅,邓赵红,王士同. 基于单调约束的径向基函数神经网络模型[J]. 山东大学学报(工学版), 2018, 48(3): 127-133.
[3] 龙柏,曾宪宇,李徵,刘淇. 电商商品嵌入表示分类方法[J]. 山东大学学报(工学版), 2018, 48(3): 17-24.
[4] 谢志峰,吴佳萍,马利庄. 基于卷积神经网络的中文财经新闻分类方法[J]. 山东大学学报(工学版), 2018, 48(3): 34-39.
[5] 王婷婷,翟俊海,张明阳,郝璞. 基于HBase和SimHash的大数据K-近邻算法[J]. 山东大学学报(工学版), 2018, 48(3): 54-59.
[6] 陈嘉杰,王金凤. 基于蚁群算法求解Choquet模糊积分模型[J]. 山东大学学报(工学版), 2018, 48(3): 81-87.
[7] 王换,周忠眉. 一种基于聚类的过抽样算法[J]. 山东大学学报(工学版), 2018, 48(3): 134-139.
[8] 叶明全,高凌云,万春圆. 基于人工蜂群和SVM的基因表达数据分类[J]. 山东大学学报(工学版), 2018, 48(3): 10-16.
[9] 王磊,邓晓刚,曹玉苹,田学民. 基于MLFDA的化工过程故障模式分类方法[J]. 山东大学学报(工学版), 2017, 47(5): 179-186.
[10] 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42.
[11] 何其佳,刘振丙,徐涛,蒋淑洁. 基于LBP和极限学习机的脑部MR图像分类[J]. 山东大学学报(工学版), 2017, 47(2): 86-93.
[12] 郭超,杨燕,江永全,宋祎. 基于多视图分类集成的高铁工况识别[J]. 山东大学学报(工学版), 2017, 47(1): 7-14.
[13] 陈泽华,尚晓慧,柴晶. 基于混合Hausdorff距离的多示例学习近邻分类器[J]. 山东大学学报(工学版), 2016, 46(6): 15-22.
[14] 王斌,常发亮,刘春生. 基于多特征融合的交通标志分类[J]. 山东大学学报(工学版), 2016, 46(4): 34-40.
[15] 朱杰,王晶,刘菲,高冠东,段庆. 基于成分金字塔匹配的对象分类方法[J]. 山东大学学报(工学版), 2016, 46(2): 14-21.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!