您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (3): 1-5.

• 机器学习与数据挖掘 •    下一篇

一种基于主动学习的集成协同训练算法

谢伙生,刘敏   

  1. 福州大学数学与计算机科学学院, 福建 福州 350108
  • 收稿日期:2011-04-15 出版日期:2012-06-20 发布日期:2011-04-15
  • 作者简介:谢伙生 (1964- ),男,福建宁化人,副教授,硕士,主要研究方向为数据挖掘与机器学习. E-mail:xiehs@sina.com
  • 基金资助:

    国家自然科学基金资助项目(61075022);福建省教育厅基金资助项目(JB07023))

An ensemble co-training algorithm based on active learning

XIE Huo-sheng, LIU Min   

  1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350108, China
  • Received:2011-04-15 Online:2012-06-20 Published:2011-04-15

摘要:

为了更好地发挥主动学习、半监督学习和集成学习这3种机器学习方法的优势,研究了1个不需要2个充分冗余视图、泛化能力强的高效学习算法。从聚类假设出发,给出每轮协同训练过程中添加自动标记样本的置信度度量方法,降低误标记率;提出作为主动选择未标记样本依据的贡献度的概念,贡献度越高的样本,越具有人工标记的价值,在协同训练迭代结束后,选择贡献度高的样本标记,就能增强反馈的效果,提升学习性能,提出一种基于主动学习的集成协同训练算法。应用于图像检索的实验结果表明,提出的算法是高效可行的。

关键词: 协同训练算法, 半监督学习, 集成学习, 主动学习, 图像检索

Abstract:

Taking full advantage of  three machine learning methods,  active learning, semi-supervised learning and ensemble learning, an efficient learning algorithm was proposed. The algorithm did  not require two sufficient and redundant views, which had  high generalization abilities. To reduce the error rate, based on the clustering assumption, a new approach was presented to estimate the degree of confidence of the labeled samples in each iteration of the co-training process. Also, a new measure of samples,  the degree of contribution, was given as a clue for selecting the unlabeled samples. Since a high degree of contribution implies a great value of the sample to be selected, selecting the samples with high degrees of contribution after each iteration could  enhance the  feedback effect and the  learning performance. All these could lead to a new ensemble co-training algorithm based on active learning. The feasibility and the performance of the algorithm  were verified by image retrieval experiment.

Key words: co-training, semi-supervised learning, ensemble learning, active learning, image retrieval

[1] 沈冬冬,周风余,栗梦媛,王淑倩,郭仁和. 基于集成深度神经网络的室内无线定位[J]. 山东大学学报(工学版), 2018, 48(5): 95-102.
[2] 张璞,刘畅,王永. 基于特征融合和集成学习的建议语句分类模型[J]. 山东大学学报(工学版), 2018, 48(5): 47-54.
[3] 王立宏,李强. 旅行商问题的一种选择性集成求解方法[J]. 山东大学学报(工学版), 2016, 46(1): 42-48.
[4] 陈大伟,闫昭*,刘昊岩. SVD系列算法在评分预测中的过拟合现象[J]. 山东大学学报(工学版), 2014, 44(3): 15-21.
[5] 孔超1,2,张化祥1,2*,刘丽1,2. 基于兴趣区域特征融合的半监督图像检索算法[J]. 山东大学学报(工学版), 2014, 44(3): 22-28.
[6] 李雅林1,2,张化祥1,2*,冯新营1,2. 一种新的基于半监督的多标记学习算法[J]. 山东大学学报(工学版), 2013, 43(2): 18-22.
[7] 房晓南1,2,张化祥1,2*,高爽1,2. 基于SMOTE和随机森林的Web spam检测[J]. 山东大学学报(工学版), 2013, 43(1): 22-27.
[8] 夏战国,万玲,蔡世玉,孙鹏辉. 一种面向入侵检测的半监督聚类算法[J]. 山东大学学报(工学版), 2012, 42(6): 1-7.
[9] 张伶卫,万文强. 基于云计算平台的代价敏感集成学习算法研究[J]. 山东大学学报(工学版), 2012, 42(4): 19-23.
[10] 李小斌1, 李世银2. 时间序列早期分类的多分类器集成方法[J]. 山东大学学报(工学版), 2011, 41(4): 73-78.
[11] 李霞1,王连喜2,蒋盛益1. 面向不平衡问题的集成特征选择[J]. 山东大学学报(工学版), 2011, 41(3): 7-11.
[12] 魏巍,张艳宁. 基于半监督隐含狄利克雷分配的人脸姿态判别方法[J]. 山东大学学报(工学版), 2011, 41(3): 17-22.
[13] 蔡念, 张国宏, 楼朋旭, 戴青云. 基于形状和纹理的外观设计专利图像检索方法[J]. 山东大学学报(工学版), 2011, 41(2): 1-4.
[14] 贺广南,杨育彬*. 基于流形学习的图像检索算法研究[J]. 山东大学学报(工学版), 2010, 40(5): 129-136.
[15] 宿洪禄,李凡长*. 基于相异性和不变特征的半监督图像检索[J]. 山东大学学报(工学版), 2010, 40(5): 150-153.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!