您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2013, Vol. 43 ›› Issue (2): 29-34.

• 机器学习与数据挖掘 • 上一篇    下一篇

基于独立成分分析和协同训练的垃圾网页检测

高爽1,2,张化祥1,2*,房晓南1,2   

  1. 1. 山东师范大学信息科学与工程学院,山东 济南 250014;
    2.山东省分布式计算机软件新技术重点实验室, 山东 济南 250014
  • 收稿日期:2012-12-05 出版日期:2013-04-20 发布日期:2012-12-05
  • 通讯作者: 张化祥(1966- ),男,山东济宁人, 教授, 博士生导师, 主要研究方向为机器学习,模式识别及Web挖掘等. E-mail: huaxzhang@163.com
  • 作者简介:高爽(1988- ),女,山东济南人,硕士研究生,主要研究方向为机器学习与模式识别.E-mail: 824223485@163.com
  • 基金资助:

    国家自然科学基金资助项目(61170145);教育部高等学校博士点专项基金资助项目(20113704110001);山东省自然科学基金资助项目(ZR2010FM021)

Independent component analysis and co-training based Web spam detection

GAO Shuang1,2, ZHANG Hua-xiang1,2*, FANG Xiao-nan1,2   

  1. 1. Department of Information Science and Engineering, Shandong Normal University, Jinan 250014, China;
    2. Shandong Provincial Key Laboratory for Novel Distributed Computer Software Technology, Jinan 250014, China
  • Received:2012-12-05 Online:2013-04-20 Published:2012-12-05

摘要:

垃圾网页检测具有重要意义,由于只有少量标记网页,所以可使用半监督协同训练方法检测垃圾网页。将网页特征分为两个视图,即内容视图与链接视图。首先使用独立成分分析分别提取两视图特征的独立成分,然后进行协同训练。实验结果表明,该方法可有效提高垃圾网页检测精度,同时验证了对两个视图分别进行独立成分分析相比于其他方法更为有效。

关键词: 协同训练, 垃圾网页检测, 独立成分分析, 多视图分类

Abstract:

Web spam detection is of great significance, and there only exists a small number of labeled pages. Thus, the semi-supervised co-training was used to detect the Web spam pages. The page features were divided into two views, the content view and the link view. First, the independent components of each view were extracted by  the independent component analysis, and then the co-training was used to detect the label of each Web page. Experimental results showed that this method could effectively improve the recognition accuracy of Web spam. The results also verified that two respective independent component analyses of each view were more effective than the other methods.

Key words: independent component analysis, co-training, multi-view classification, Web spam detection

中图分类号: 

  • TP391
[1] 王丽,周以齐,于刚,米永振. 基于EEMD和ICA方法的驾驶室内噪声源时频分析[J]. 山东大学学报(工学版), 2014, 44(2): 80-88.
[2] 谢伙生,刘敏. 一种基于主动学习的集成协同训练算法[J]. 山东大学学报(工学版), 2012, 42(3): 1-5.
[3] 崔宝今 林鸿飞 张霄. 基于半监督学习的蛋白质关系抽取研究[J]. 山东大学学报(工学版), 2009, 39(3): 16-21.
[4] 周广通,尹义龙,郭文鹃,任春晓. 基于协同训练的指纹图像分割算法[J]. 山东大学学报(工学版), 2009, 39(1): 22-26.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[3] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[4] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[5] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[6] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[7] 王波,王宁生 . 机电装配体拆卸序列的自动生成及组合优化[J]. 山东大学学报(工学版), 2006, 36(2): 52 -57 .
[8] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[9] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[10] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .