您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2018, Vol. 48 ›› Issue (6): 27-36.doi: 10.6040/j.issn.1672-3961.0.2018.264

• 机器学习与数据挖掘 • 上一篇    下一篇

基于相关熵和流形学习的多标签特征选择算法

陈红(),杨小飞*(),万青,马盈仓   

  1. 西安工程大学理学院, 陕西 西安 710048
  • 收稿日期:2018-07-03 出版日期:2018-12-20 发布日期:2018-12-26
  • 通讯作者: 杨小飞 E-mail:13572959949@163.com;yangxiaofei2002@163.com
  • 作者简介:陈红(1992—),女,河北衡水人,硕士研究生,主要研究方向为机器学习与多标签学习.E-mail:13572959949@163.com
  • 基金资助:
    国家自然科学基金资助项目(11501435);中国纺织工业联合会科技指导性项目(2016073);陕西省教育厅科研计划项目(18JK0360)

Multi-label feature selection algorithm based on correntropy andmanifold learning

Hong CHEN(),Xiaofei YANG*(),Qing WAN,Yingcang MA   

  1. School of Science, Xi′an Polytechnic University, Xi′an 710048, Shaanxi, China
  • Received:2018-07-03 Online:2018-12-20 Published:2018-12-26
  • Contact: Xiaofei YANG E-mail:13572959949@163.com;yangxiaofei2002@163.com
  • Supported by:
    国家自然科学基金资助项目(11501435);中国纺织工业联合会科技指导性项目(2016073);陕西省教育厅科研计划项目(18JK0360)

摘要:

从相关熵的角度出发,提出一种基于相关熵和特征流形学习的稀疏正则化方法,用于解决多标签特征选择问题。在相关熵定义的基础上给出多标签特征选择的回归模型;结合?2, 1范数的性质和特征流形学习的定义建立基于相关熵和特征流形学习的稀疏正则化多标签特征选择模型及算法;证明该算法的收敛性并且通过试验验证所给算法的有效性。

关键词: 相关熵, 稀疏正则化, 特征流形学习, 多标签, 特征选择

Abstract:

A sparse regularization method based on correntropy and feature manifold learning was proposed to solve the problem of multi-label feature selection. A regression model of multi-label feature selection was presented by means of correntropy. The sparse regularized multi-label feature selection model, combing ?2, 1 norm and feature manifold learning, was established. An iterative algorithm was proposed for the above model. The convergence of the algorithm was proved and the effectiveness of the given algorithm was verified through experiments.

Key words: correntropy, sparse regularization, feature manifold learning, multi label, feature selection

中图分类号: 

  • TP18

表1

数据集的详细信息"

数据集 特征数 标签数 训练集样本数 测试集样本数
Image 294 5 400 200
Scene 294 6 1 211 1 196
Emotion 72 6 391 202
Yeast 103 14 1 500 917
Enron 1 001 53 1 123 579

表2

不同算法在不同数据集上的运行时间"

s
数据集 CMLS PMU MDMR FIMF
Image 2.099 285 22.728 828 28.008 186 1.278 762
Scene 23.808 170 78.261 445 89.529 816 10.112 000
Emotion 1.834 695 4.801 576 4.902 648 1.368 992
Yeast 25.201 876 68.878 388 70.245 280 17.266 886
Enron 17.149 738 2 648.267 084 2 564.446 634 6.799 612

表3

不同算法在不同数据集上的平均精度"

算法 CMLS PMU MDMR FIMF Baseline
Image 0.750 8 0.659 2 0.693 4 0.679 1 0.721 4
Scene 0.831 7 0.803 4 0.763 3 0.690 6 0.851 2
Emotion 0.769 1 0.712 6 0.755 1 0.751 0 0.693 8
Yeast 0.766 3 0.756 3 0.758 0 0.755 2 0.758 5
Enron 0.671 3 0.648 3 0.656 6 0.654 8 0.623 2

表4

不同算法在不同数据集上的汉明损失"

算法 CMLS PMU MDMR FIMF Baseline
Image 0.203 0 0.230 0 0.224 0 0.234 0 0.213 0
Scene 0.108 6 0.113 7 0.134 8 0.158 7 0.098 9
Emotion 0.234 3 0.267 3 0.240 9 0.225 2 0.293 7
Yeast 0.195 6 0.200 6 0.199 9 0.202 1 0.198 0
Enron 0.048 7 0.050 5 0.050 5 0.050 1 0.052 0

表5

不同算法在不同数据集上的排序损失"

算法 CMLS PMU MDMR FIMF Baseline
Image 0.213 3 0.297 5 0.271 3 0.266 3 0.233 3
Scene 0.101 0 0.129 0 0.144 4 0.199 4 0.093 1
Emotion 0.176 4 0.258 4 0.199 4 0.201 2 0.282 9
Yeast 0.169 3 0.172 3 0.171 0 0.174 7 0.171 5
Enron 0.088 6 0.094 9 0.094 4 0.093 5 0.093 8

表6

不同算法在不同数据集上的1-错误率"

算法 CMLS PMU MDMR FIMF Baseline
Image 0.390 0 0.525 0 0.460 0 0.500 0 0.435 0
Scene 0.275 9 0.309 4 0.390 5 0.498 3 0.242 5
Emotion 0.331 7 0.361 4 0.356 4 0.351 5 0.405 9
Yeast 0.231 2 0.236 6 0.236 6 0.236 6 0.234 5
Enron 0.231 4 0.274 6 0.243 5 0.245 3 0.304 0

表7

不同算法在不同数据集上的覆盖率"

算法 CMLS PMU MDMR FIMF Baseline
Image 1.125 0 1.460 0 1.365 0 1.355 0 1.215 0
Scene 0.607 0 0.749 2 0.825 3 1.095 3 0.568 6
Emotion 2.024 8 2.405 9 2.089 1 2.054 5 2.490 1
Yeast 6.347 9 6.370 8 6.364 2 6.374 0 6.414 4
Enron 12.753 0 13.412 8 13.160 6 13.203 8 13.205 5

图1

几种不同的特征选择算法的平均精度"

图2

几种不同的特征选择算法的汉明损失"

图3

几种不同的特征选择算法的1-错误率"

图4

几种不同的特征选择算法的覆盖率"

图5

几种不同的特征选择算法的排序损失"

1 KONG X N , YU P S . GMLC: a multi-label feature selection framework for graph classification[J]. Knowledge & Information Systems, 2012, 31 (2): 281- 305.
2 OZONAT K, YOUNG D. Towards a universal marketplace over the web: statistical multi-label classification of service provider forms with simulated annealing[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2009: 1295-1304.
3 LIU W , POKHAREL P P , PRINCIPE J C . Correntropy: properties and applications in non-gaussian signal processing[J]. IEEE Transactions on Signal Processing, 2007, 55 (11): 5286- 5298.
doi: 10.1109/TSP.2007.896065
4 李素姝, 王士同, 李滔, 等. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47 (3): 34- 42.
LI Sushu , WANG Shitong , LI Tao , et al. Feature selection method based on LS-SVM and fuzzy complement criterion[J]. Journal of Shandong University(Engineering Edition), 2017, 47 (3): 34- 42.
5 HE R , ZHENG W S , HU B G . Maximum correntropy criterion for robust face recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011, 33 (8): 1561- 1576.
6 HE R , HU B G , ZHENG W S , et al. Robust principal component analysis based on maximum correntropy criterion[J]. IEEE Transactions on Image Processing, 2011, 20 (6): 1485- 1494.
doi: 10.1109/TIP.2010.2103949
7 CHEN X B , YANG J , LIANG J , et al. Recursive robust least squares support vector regression based on maximum correntropy criterion[J]. Neurocomputing, 2012, 97 (1): 63- 73.
8 LEE J , LIM H , KIM D W . Approximating mutual information for multi-label feature selection[J]. Electronics Letters, 2012, 48 (15): 929- 930.
doi: 10.1049/el.2012.1600
9 ZHENG W S, WANG L, TAN T, et al. L2, 1 regularized correntropy for robust feature selection[J]. 2012, 157(10): 2504-2511.
10 莫小勇, 潘志松, 邱俊洋, 等. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46 (4): 21- 27.
MO Xiaoyong , PAN Zhisong , QIU Junyang , et al. Network flow anomaly detection based on online feature selection[J]. Journal of Shandong University(Engineering Edition), 2017, 47 (3): 34- 42.
11 NIE F P, HUANG H, CAI X, et al. Efficient and robust feature selection via joint L2, 1-norms minimization[C]//International Conference on Neural Information Processing Systems. Sydney, Australia: Curran Associates Inc, 2010: 1813-1821.
12 YANG Y, SHEN H T, MA Z, et al. L2, 1-norm regularized discriminative feature selection for unsupervised learning[C]//International Joint Conference on Artificial Intelligence. Menlo Park, USA: AAAI Press, 2011: 1589-1594.
13 BELKIN M , NIYOGI P . Laplacian eigenmaps and spectral techniques for embedding and clustering[J]. Advances in Neural Information Processing Systems, 2001, 14 (6): 585- 591.
14 GU Q Q, ZHOU J. Co-clustering on manifolds[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2009: 359-368.
15 CHEN B D , XING L , WANG X , et al. Robust learning with kernel mean p-power error loss[J]. IEEE Transactions on Cybernetics, 2018, 48 (7): 2101- 2113.
doi: 10.1109/TCYB.2017.2727278
16 ZHANG M L , ZHOU Z H . ML-KNN: A lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40 (7): 2038- 2048.
doi: 10.1016/j.patcog.2006.12.019
17 BOUTELL M R , LUO J , SHEN X , et al. Learning multi-label scene classification[J]. Pattern Recognition, 2004, 37 (9): 1757- 1771.
doi: 10.1016/j.patcog.2004.03.009
18 TROHIDIS K , TSOUMAKAS G , KALLIRIS G , et al. Multilabel classification of music into emotions[J]. Blood, 2008, 90 (9): 3438- 3443.
19 ELISSEEFF A, WESTON J. A kernel method for multi-labelled classification[C]//International Conference on Neural Information Processing Systems: Natural and Synthetic. Cambridge, USA: MIT Press, 2001: 681-687.
20 KLIMT B, YANG Y. The enron corpus: a new dataset for email classification research[C]//European Conference on Machine Learning. Berlin, Germany: Springer-Verlag, 2004: 217-226.
21 LEE J , KIM D W . Feature selection for multi-label classification using multivariate mutual information[J]. Pattern Recognition Letters, 2013, 34 (3): 349- 357.
doi: 10.1016/j.patrec.2012.10.005
22 LIN Y J , HU Q H , LIU J H , et al. Multi-label feature selection based on max-dependency and min-redundancy[J]. Neurocomputing, 2015, 168 (C): 92- 103.
23 LEE J , KIM D W . Fast multi-label feature selection based on information-theoretic feature ranking[J]. Pattern Recognition, 2015, 48 (9): 2761- 2771.
doi: 10.1016/j.patcog.2015.04.009
24 DUDA J. Supervised and unsupervised discretization of continuous features[C]//Twelfth International Conference on Machine Learning. Sydney, Australia: ICML, 1995: 194-202.
[1] 唐杰烽,张佳,龙锦益. 基于全局冗余最小的快速多标签特征选择方法[J]. 山东大学学报 (工学版), 2025, 55(6): 21-34.
[2] 吴正健,吾尔尼沙·买买提,杨耀威,阿力木江·艾沙,库尔班·吾布力. 基于DRCoALTP的印刷体文档图像多文种识别方法[J]. 山东大学学报 (工学版), 2025, 55(1): 51-57.
[3] 马坤,刘筱云,李乐平,纪科,陈贞翔,杨波. 用于意图识别的自适应多标签信息学习模型[J]. 山东大学学报 (工学版), 2024, 54(1): 45-51.
[4] 刘财辉,周琪,叶晓文. 一种基于改进ReliefF算法的入侵检测模型[J]. 山东大学学报 (工学版), 2023, 53(2): 1-10.
[5] 许传臻,袭肖明,李维翠,孙仪,杨璐. 基于自适应多分辨率特征学习的CNV分型网络[J]. 山东大学学报 (工学版), 2022, 52(4): 69-75.
[6] 袁高腾,周晓峰,郭宏乐. 基于特征选择算法的ECG信号分类[J]. 山东大学学报 (工学版), 2022, 52(4): 38-44.
[7] 龚楷伦,翟婷婷,唐鸿成. 一种面向多标签分类的在线主动学习算法[J]. 山东大学学报 (工学版), 2022, 52(2): 80-88.
[8] 朱昌明,岳闻,王盼红,沈震宇,周日贵. 主动三支聚类下的全局和局部多视角多标签学习算法[J]. 山东大学学报 (工学版), 2021, 51(2): 34-46.
[9] 彭岩,冯婷婷,王洁. 基于集成学习的O3的质量浓度预测模型[J]. 山东大学学报 (工学版), 2020, 50(4): 1-7.
[10] 汪嘉晨, 唐向红, 陆见光. 轴承故障诊断中特征选取技术[J]. 山东大学学报 (工学版), 2019, 49(2): 80-87.
[11] 牟廉明. 自适应特征选择加权k子凸包分类[J]. 山东大学学报 (工学版), 2018, 48(5): 32-37.
[12] 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42.
[13] 方昊,李云. 基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 山东大学学报(工学版), 2017, 47(1): 15-21.
[14] 莫小勇,潘志松,邱俊洋,余亚军,蒋铭初. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46(4): 21-27.
[15] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘忠国,张晓静,刘伯强,刘常春 . 视觉刺激间隔对大脑诱发电位的影响[J]. 山东大学学报(工学版), 2006, 36(3): 34 -38 .
[2] 杨发展1 ,艾兴1 ,赵军1 ,侯建锋2 . ZrO2含量对WC基复合材料的力学性能和微观结构的影响[J]. 山东大学学报(工学版), 2009, 39(1): 92 -95 .
[3] 关小军,韩振强,申孝民,麻晓飞,刘运腾 . 09CuPTiRE钢动态再结晶的热模拟实验与有限元模拟[J]. 山东大学学报(工学版), 2006, 36(5): 17 -20 .
[4] 赵延风1,2, 王正中1,2 ,芦琴1,祝晗英3 . 梯形明渠水跃共轭水深的直接计算方法[J]. 山东大学学报(工学版), 2009, 39(2): 131 -136 .
[5] 薛成骞,董建文,孟宪锋,常虹,曹宁,陈华英,李木森 . C/C+HA骨植入材料对杂交波尔山羊生理生化机能的影响[J]. 山东大学学报(工学版), 2008, 38(3): 73 -76 .
[6] 罗运虎,邢丽冬,王勤,刘海春,翁晓光 . 需求侧2种可中断负荷备用市场报价策略的协调[J]. 山东大学学报(工学版), 2008, 38(3): 77 -80 .
[7] 庞志俭 张长桥. 甲基丙烯酸十二酯基二元共聚制备缔合减阻剂的合成与性能研究[J]. 山东大学学报(工学版), 2009, 39(5): 128 -132 .
[8] 何东之, 张吉沣, 赵鹏飞. 不确定性传播算法的MapReduce并行化实现[J]. 山东大学学报(工学版), 0, (): 22 -28 .
[9] 郑洪亮,孔凡利, , 田学雷 . Al-Cu合金成分变化对其凝固潜热影响的研究[J]. 山东大学学报(工学版), 2008, 38(2): 10 -12 .
[10] 孙亮. 瞬变电磁对含水层的超前探测效果分析[J]. 山东大学学报(工学版), 2009, 39(4): 50 -52 .