您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2013, Vol. 43 ›› Issue (1): 28-33.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于非线性流形学习和k-NN的文本分类算法

张国栋1,2,张化祥1,2*   

  1. 1. 山东师范大学信息科学与工程学院,山东 济南 250014;
    2. 山东省分布式计算机软件新技术重点实验室, 山东 济南 250014
  • 收稿日期:2012-12-05 出版日期:2013-02-20 发布日期:2012-12-05
  • 通讯作者: 张化祥(1966- ),男,山东济宁人,教授,博士生导师,主要研究方向为机器学习与模式识别及Web挖掘等. E-mail: huaxzhang@163.com
  • 作者简介:张国栋(1988- ),男,山东泰安人,硕士研究生,主要研究方向为机器学习与数据挖掘.E-mail:guodongZ-1988@163.com
  • 基金资助:

    国家自然科学基金资助项目(61170145);教育部高等学校博士点专项基金资助项目(20113704110001);山东省自然科学基金资助项目(ZR2010FM021)

Text categorization algorithm based on non-linear manifold learning and k-NN

ZHANG Guo-dong1,2, ZHANG Hua-xiang1,2*   

  1. 1. School of Information Science & Engineering, Shandong Normal University, Jinan 250014, China;
    2. Shandong Provincial Key Laboratory for Novel Distributed Computer Software Technology, Jinan 250014, China
  • Received:2012-12-05 Online:2013-02-20 Published:2012-12-05

摘要:

为解决文本分类中存在的维数灾难、数据集噪声等问题,本研究提出一种利用非线性维数约简算法结合k-最邻近结点算法(k-nearest neighbor algorithm, k-NN)的文本分类算法。该算法首先对数据集进行去噪处理,再采用非线性流形学习中的局部线性嵌入算法恢复高维数据中的中低维流形结构,以实现数据约简,利用经过上述处理的文本数据学习k-NN分类器。实验结果表明,该算法能够有效提高文本分类精度。

关键词: k-最邻近结点算法, 非线性维数约简算法, 分类, 数据约简

Abstract:

In order to save the problems of dimensionality curse, noise data in text categorization, the text categorization algorithm was presented based on the non-linear dimensionality reduction algorithm and combined with kNN(knearest neighbor algorithm). The algorithm first removed the noise data, and then used the locally linear embedding algorithm of non-linear manifold learning to recover low-dimensional manifold structure in high-dimensional data to implement dimensionality reduction. The processed data was used to construct k-NN classifiers. Experimental results showed that this  algorithm could  effectively improve the accuracy of text classification.

Key words: data reduction, categorization, non-linear dimensionality reduction algorithm, k-NN

中图分类号: 

  • TP391
[1] 白琳,俱通,王浩,雷明珠,潘晓英. 面向不平衡数据的提升均衡集成学习算法[J]. 山东大学学报 (工学版), 2024, 54(4): 59-66.
[2] 陈晓江,杨晓奇,陈广豪,刘伍颖. 混合BERT和宽度学习的低时间复杂度短文本分类[J]. 山东大学学报 (工学版), 2024, 54(4): 51-58.
[3] 宋辉,张轶哲,张功萱,孟元. 基于类权重和最小化预测熵的测试时集成方法[J]. 山东大学学报 (工学版), 2024, 54(3): 36-43.
[4] 聂秀山,巩蕊,董飞,郭杰,马玉玲. 短视频场景分类方法综述[J]. 山东大学学报 (工学版), 2024, 54(3): 1-11.
[5] 徐金华,罗义凯,李昱燃,李岩. 基于时频分解与深度学习的轨道客流预测[J]. 山东大学学报 (工学版), 2024, 54(2): 60-68.
[6] 马坤,刘筱云,李乐平,纪科,陈贞翔,杨波. 用于意图识别的自适应多标签信息学习模型[J]. 山东大学学报 (工学版), 2024, 54(1): 45-51.
[7] 于泓,杜娟,魏琳,张利. 计及行为特征的市场化用户电量数据拟合方法[J]. 山东大学学报 (工学版), 2023, 53(4): 113-119.
[8] 李颖,王建坤. 基于监督图正则化和信息融合的轻度认知障碍分类方法[J]. 山东大学学报 (工学版), 2023, 53(4): 65-73.
[9] 张喜龙,韩萌,陈志强,武红鑫,李慕航. 动态集成选择的不平衡漂移数据流Boosting分类算法[J]. 山东大学学报 (工学版), 2023, 53(4): 83-92.
[10] 刘财辉,周琪,叶晓文. 一种基于改进ReliefF算法的入侵检测模型[J]. 山东大学学报 (工学版), 2023, 53(2): 1-10.
[11] 孟令灿,聂秀山,张雪. 基于遮挡目标去除的公交车拥挤度分类算法[J]. 山东大学学报 (工学版), 2022, 52(4): 83-88.
[12] 孙志巍,宋明阳,潘泽华,景丽萍. 上下文感知的判别式主题模型[J]. 山东大学学报 (工学版), 2022, 52(4): 131-138.
[13] 王丽,于明仟,刘文鹏,周瑜,郑蕊蕊,贺建军. 面向类不平衡数据的K近邻偏标记学习算法[J]. 山东大学学报 (工学版), 2022, 52(3): 18-24.
[14] 龚楷伦,翟婷婷,唐鸿成. 一种面向多标签分类的在线主动学习算法[J]. 山东大学学报 (工学版), 2022, 52(2): 80-88.
[15] 张沁洋,李旭,姚春龙,李长吾. 结合句法依存信息的方面级情感分类[J]. 山东大学学报 (工学版), 2021, 51(2): 83-89.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 王静,李玉江,张晓瑾, 毕研俊,陈位锁 . 粉煤灰去除水中活性紫KN-B[J]. 山东大学学报(工学版), 2006, 36(6): 100 -103 .
[3] 赵延风1,2, 王正中1,2 ,芦琴1,祝晗英3 . 梯形明渠水跃共轭水深的直接计算方法[J]. 山东大学学报(工学版), 2009, 39(2): 131 -136 .
[4] 潘多涛,刘桂萍,刘长风 . 生物絮凝剂产生菌的筛选及培养条件优化[J]. 山东大学学报(工学版), 2008, 38(3): 99 -103 .
[5] 孔宪明 鞠培军. 一类中立型不确定变时滞系统的稳定性新判据[J]. 山东大学学报(工学版), 2009, 39(5): 48 -51 .
[6] 赵勇 田四明 曹哲明. 宜万铁路复杂岩溶隧道施工地质工作方法[J]. 山东大学学报(工学版), 2009, 39(5): 91 -95 .
[7] 孟健, 李贻斌, 李彬. 四足机器人跳跃步态控制方法[J]. 山东大学学报(工学版), 2015, 45(3): 28 -34 .
[8] 马士伟 梅志荣 张军伟 杜俊. 岩溶隧道涌突水灾害预警与防治技术[J]. 山东大学学报(工学版), 2009, 39(4): 12 -16 .
[9] 刘斌 李术才 张庆松 李树忱 薛翊国. 隧道地质灾害预警体系中岩溶裂隙水综合预报技术研究[J]. 山东大学学报(工学版), 2009, 39(3): 115 -121 .
[10] 高明 史月涛 王妮妮 孙奉仲 平亚明. 侧风环境下自然通风湿式冷却塔周向进风变化规律[J]. 山东大学学报(工学版), 2009, 39(3): 154 -158 .