您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (4): 8-12.

• 机器学习与数据挖掘 • 上一篇    下一篇

流形学习算法在中文文本分类中的应用

王洪元,封磊,冯燕,程起才   

  1. 常州大学信息科学与工程学院,常州市过程感知与互联技术重点实验室, 江苏 常州 213164
  • 收稿日期:2012-05-06 出版日期:2012-08-20 发布日期:2012-05-06
  • 作者简介:王洪元(1960- ),男,江苏常州人,教授,博士研究生,主要研究方向为模式识别与智能系统. E-mail:hywang@cczu.edu.cn
  • 基金资助:

    国家自然科学基金资助项目(61070121)

The manifold learning algorithm′s application in the  Chinese text clustering

WANG Hong-yuan, FENG Lei, FENG Yan, CHENG Qi-cai   

  1. Changzhou Key Laboratory for Process Perception and Interconnected Technology, School of Information Science and
    Engineering, Changzhou University, Changzhou 213164, China
  • Received:2012-05-06 Online:2012-08-20 Published:2012-05-06

摘要:

传统的流形学习局部线性嵌入 (locally linear embedding, LLE) 算法通过欧氏距离来选择邻域,如果数据集选自多个类别,这种距离度量方法无法得到正确的邻域关系。本研究提出一种改进的局部线性嵌入 (modified LLE,MLLE) 算法,该算法通过改进距离矩阵,使得类间的距离大、类内的距离小,从而使得邻域的选择尽量在一个类中。将MLLE算法应用到中文文本分类中,结果表明:与传统的算法比较,MLLE在分类结果可视化效果和识别率等方面都有显著提高。

关键词: 流形学习, LLE算法, MLLE算法, 中文文本分类

Abstract:

 According to the euclidean distance, the original LLE (locally linear embedding) algorithm chooses the neighborhood. If the data was originated from multiple classes,  the correct neighborhood relationship could not be obtained. In order to solve this problem, an improved MLLE(modified LLE) was proposed. In MLLE algorithm, the distance matrix was modified, which could make the distance longger between classes and smaller within classes, and so could make the neighborhood in one class as far as possible. The test of Chinese text clustering showed that the MLLE algorithm could improve the clustering visualization and the recognition rate.

Key words: manifold learning, LLE algorithm, MLLE algorithm, Chinese text clustering

[1] 张振月,李斐,江铭炎. 基于低秩表示投影的无监督人脸特征提取[J]. 山东大学学报(工学版), 2018, 48(1): 15-20.
[2] 包塔拉,马剑,甘祖旺. 基于几何特征与流形距离的锂电池健康评估[J]. 山东大学学报(工学版), 2017, 47(5): 157-165.
[3] 谭台哲,梁应毅,刘富春. 一种ReliefF特征估计方法在无监督流形学习中的应用[J]. 山东大学学报(工学版), 2010, 40(5): 66-71.
[4] 贺广南,杨育彬*. 基于流形学习的图像检索算法研究[J]. 山东大学学报(工学版), 2010, 40(5): 129-136.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!