您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2020, Vol. 50 ›› Issue (2): 1-9.doi: 10.6040/j.issn.1672-3961.0.2019.402

• 机器学习与数据挖掘 •    下一篇

基于异质集成学习的虚假评论检测

张大鹏1(),刘雅军2,*(),张伟1,沈芬1,杨建盛2   

  1. 1. 燕山大学信息科学与工程学院,河北 秦皇岛 066004
    2. 河北建筑工程学院信息工程学院,河北 张家口 075000
  • 收稿日期:2019-07-24 出版日期:2020-04-20 发布日期:2020-04-16
  • 通讯作者: 刘雅军 E-mail:daniao@ysu.edu.cn;liuyajun@stumail.ysu.edu.cn
  • 作者简介:张大鹏(1979—),男,河北秦皇岛人,副教授,硕士生导师,主要研究方向为机器学习和推荐系统. E-mail:daniao@ysu.edu.cn
  • 基金资助:
    张家口市科学技术研究与发展指令计划项目(1711007B);张家口市科学技术研究与发展指令计划项目(1711045H);张家口市科学技术研究与发展指令计划项目(1811009B-04)

Fake comment detection based on heterogeneous ensemble learning

Dapeng ZHANG1(),Yajun LIU2,*(),Wei ZHANG1,Fen SHEN1,Jiansheng YANG2   

  1. 1. School of Information Science and Engineering, Yanshan University, Qinhuangdao 066004, Hebei, China
    2. College of Information Engineering, Hebei Institute of Architecture and Civil Engineering, Zhangjiakou 075000, Hebei, China
  • Received:2019-07-24 Online:2020-04-20 Published:2020-04-16
  • Contact: Yajun LIU E-mail:daniao@ysu.edu.cn;liuyajun@stumail.ysu.edu.cn
  • Supported by:
    张家口市科学技术研究与发展指令计划项目(1711007B);张家口市科学技术研究与发展指令计划项目(1711045H);张家口市科学技术研究与发展指令计划项目(1811009B-04)

摘要:

为了防止卖家的恶性竞争、保证电商平台能够公平交易、保护消费者的权益不受侵犯,针对虚假评论检测领域中数据集小、标注不准确等问题,基于亚马逊最新发布的虚假评论数据集对相关算法进行改进。考虑到Word2vec模型无法识别英语中的词对,提出了Bigram-Word2vec模型;提出“二分类加权硬投票法”以解决异质集成学习中分类器投票数相等的情况;针对异质集成学习中分类器权重设置问题提出“加权软投票法”。试验结果表明,文中对相关算法的改进取得了较为理想的结果。

关键词: 机器学习, 异质集成学习, 投票法, 虚假评论检测, Word2vec

Abstract:

In view of the problem of small data set and inaccurate labeling in the field of fake comment detection, in order to prevent the vicious competition of sellers, ensure the fair trading of e-commerce platform, and protect the rights of consumers, the latest fake comment data set released by Amazon was used. The research was carried out and the related algorithms were improved. The Word2vec model could not recognize the word pairs in English. The Bigram-Word2vec model was proposed. The "two-class weighted hard voting" was proposed to solve the heterogeneous integration learning's case where the number of votes of the classifier was equal. The "weighted soft voting" was studied for how to set the weight of the classifier in heterogeneous integration learning. The experimental results showed that the improvement of related algorithms in this paper had achieved more ideal results.

Key words: machine learning, heterogeneous ensemble learning, voting, fake comment detection, Word2vec

中图分类号: 

  • TP312

图1

研究内容与研究方向对应关系图"

图2

CBOW和Skip-gram模型示意图"

图3

集成学习示意图"

表1

集成性能提升表"

分类器 测试例1 测试例2 测试例3
分类器1 ×
分类器2 ×
分类器3 ×
集成

表2

集成未能提升性能表"

分类器 测试例1 测试例2 测试例3
分类器1 ×
分类器2 ×
分类器3 ×
集成 ×

表3

集成起副作用表"

分类器 测试例1 测试例2 测试例3
分类器1 × ×
分类器2 × ×
分类器3 × ×
集成 × × ×

图4

二分类加权硬投票法"

表4

软投票计算过程"

分类器 分类器1 分类器2 分类器3 结果
类别1 Wei1×0.2 Wei2×0.6 Wei3×0.3 0.37
类别2 Wei1×0.5 Wei2×0.3 Wei3×0.4 0.40
类别3 Wei1×0.3 Wei2×0.1 Wei3×0.3 0.23

表5

加权软投票法计算过程"

分类器 分类器1 分类器2 分类器3 结果
类别1 A1×0.2 A2×0.6 A3×0.3 0.391/3
类别2 A1×0.5 A2×0.3 A3×0.4 0.389/3
类别3 A1×0.3 A2×0.1 A3×0.3 0.221/3

图5

评分与真实、虚假评论统计图"

表6

Word2vec和Bigram-Word2vec中mark的近义词表"

单词 Word2vec模型的相似度 Bigram-Word2vec模型的相似度 差值
1 0.730 117 678 642 273 000 0.773 957 729 339 599 600 0.043 8
2 0.724 927 425 384 521 500 0.769 369 959 831 237 800 0.044 4
2 0.703 679 680 824 279 800 0.763 955 950 736 999 500 0.060 3
4 0.695 606 172 084 808 300 0.762 220 799 922 943 100 0.066 6
5 0.693 261 742 591 857 900 0.760 901 212 692 260 700 0.066 7
5 0.690 877 795 219 421 400 0.750 092 387 199 401 900 0.059 2
7 0.688 343 644 142 150 900 0.746 123 850 345 611 600 0.057 8
8 0.685 064 375 400 543 200 0.739 520 072 937 011 700 0.054 5
9 0.679 870 009 422 302 200 0.739 287 137 985 229 500 0.059 4
10 0.678 099 155 426 025 400 0.738 687 157 630 920 400 0.060 6

表7

Word2vec和BiWordvec中simply的近义词表"

单词 Word2vec模型的相似度 Bigram-Word2vec模型的相似度 差值
1 0.513 332 486 152 648 900 0.599 793 553 352 356 000 0.086 5
2 0.506 101 250 648 498 500 0.570 188 283 920 288 100 0.064 1
3 0.492 439 687 252 044 700 0.564 021 468 162 536 600 0.071 6
4 0.479 794 591 665 267 940 0.518 532 931 804 657 000 0.038 7
5 0.474 006 831 645 965 600 0.517 969 369 888 305 700 0.044 0
6 0.473 198 235 034 942 600 0.517 845 869 064 331 000 0.044 6
7 0.472 356 975 078 582 760 0.515 905 439 853 668 200 0.043 5
8 0.468 731 433 153 152 470 0.507 999 360 561 370 800 0.039 3
9 0.468 069 523 572 921 750 0.504 582 762 718 200 700 0.036 5
10 0.467 946 290 969 848 630 0.502 337 872 982 025 100 0.034 4

图6

Word2vec和Bigram-Word2vec试验对比图"

图7

传统文本特征的准确率实验结果图"

表8

集成学习实验结果"

集成方法 Hard 2Hard Soft WeiSoft
准确率 0.769 7 0.812 7 0.771 0 0.808 8
1 JINDAL N, LIU B. Review spam detection[C]//Proceedings of the 16th International Conference on World Wide Web. Alberta, Canada: ACM, 2007.
2 OTT M, CHOI Y, CARDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technolo-gies: Volume 1. Portland, USA : Association for Computational Linguistics, 2011.
3 MUKHERJEE A, VENKATARAMAN V, LIU B, et al. What yelp fake review filter might be doing?[C]//Seventh international AAAI Conference on Weblogs and Social Media. Boston, USA: AAAI, 2013.
4 LIM E P, NGUYEN V A, JINDAL N, et al. Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management. Toronto, Canada: ACM, 2010.
5 MUKHERJEE A, LIU B, GLANCE N. Spotting fake reviewer groups in consumer reviews[C]//Proceedings of the 21st International Conference on World Wide Web. Lyon, France: ACM, 2012.
6 CHOWDHARY N S , PANDIT A A . Fake review detection using classification[J]. International Journal of Computer Applications, 2018, 180 (50): 16- 21.
doi: 10.5120/ijca2018917316
7 BARBADO R , ARAQUE O , IGLESIAS C A . A framework for fake review detection in online consumer electronics retailers[J]. Information Processing & Management, 2019, 56 (4): 1234- 1244.
doi: 10.1016/j.ipm.2019.03.002
8 KHALIFA M B, ELOUEDI Z, LEFEVRE E. Spammers detection based on reviewers' behaviors under belief function theory[C]//International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. Graz, Austria: Springer, 2019: 642-653.
9 BENGIO Y , DUCHARME R , VINCENT P . A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3 (6): 932- 938.
10 MIKOLOV T , CHEN K . Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 132 (43): 59- 63.
[1] 祝明,石承龙,吕潘,刘现荣,孙驰,陈建城,范宏运. 基于优化长短时记忆网络的深基坑变形预测方法及其工程应用[J]. 山东大学学报 (工学版), 2025, 55(3): 141-148.
[2] 常新功,苏敏惠,周志刚. 基于进化集成的图神经网络解释方法[J]. 山东大学学报 (工学版), 2024, 54(4): 1-12.
[3] 乔慧妍,段学龙,解驰皓,赵冬慧,马玉玲. 基于异常点检测的心理健康辅助诊断方法[J]. 山东大学学报 (工学版), 2024, 54(4): 76-85.
[4] 刘新,刘冬兰,付婷,王勇,常英贤,姚洪磊,罗昕,王睿,张昊. 基于联邦学习的时间序列预测算法[J]. 山东大学学报 (工学版), 2024, 54(3): 55-63.
[5] 岳仁峰,张嘉琦,刘勇,范学忠,李琮琮,孔令鑫. 基于颜色和纹理特征的立体车库锈蚀检测技术[J]. 山东大学学报 (工学版), 2024, 54(3): 64-69.
[6] 陈成,董永权,贾瑞,刘源. 基于交互序列特征相关性的可解释知识追踪[J]. 山东大学学报 (工学版), 2024, 54(1): 100-108.
[7] 卞小曼,王小琴,蓝如师,刘振丙,罗笑南. 基于相似性保持和判别性分析的快速视频哈希算法[J]. 山东大学学报 (工学版), 2023, 53(6): 63-69.
[8] 李鸿钊,张庆松,刘人太,陈新,辛勤,石乐乐. 浅埋地铁车站施工期地表变形风险预警[J]. 山东大学学报 (工学版), 2023, 53(6): 82-91.
[9] 袁高腾,周晓峰,郭宏乐. 基于特征选择算法的ECG信号分类[J]. 山东大学学报 (工学版), 2022, 52(4): 38-44.
[10] 聂秀山,马玉玲,乔慧妍,郭杰,崔超然,于志云,刘兴波,尹义龙. 任务粒度视角下的学生成绩预测研究综述[J]. 山东大学学报 (工学版), 2022, 52(2): 1-14.
[11] 孙鸿昌,周风余,单明珠,翟文文,牛兰强. 基于模式划分的空调能耗混合填补方法[J]. 山东大学学报 (工学版), 2022, 52(1): 9-18.
[12] 袁高腾,刘毅慧,黄伟,胡兵. 基于Gabor特征的乳腺肿瘤MR图像分类识别模型[J]. 山东大学学报 (工学版), 2020, 50(3): 15-23.
[13] 高铭壑,张莹,张蓉蓉,黄子豪,黄琳焱,李繁菀,张昕,王彦浩. 基于预测数据特征的空气质量预测方法[J]. 山东大学学报 (工学版), 2020, 50(2): 91-99.
[14] 刘玉田, 孙润稼, 王洪涛, 顾雪平. 人工智能在电力系统恢复中的应用综述[J]. 山东大学学报 (工学版), 2019, 49(5): 1-8.
[15] 李童,马然,郑鸿鹤,安平,胡翔宇. 基于视频统计特征的差错敏感度模型[J]. 山东大学学报 (工学版), 2019, 49(2): 116-121.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[2] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[3] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[4] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[5] 王波,王宁生 . 机电装配体拆卸序列的自动生成及组合优化[J]. 山东大学学报(工学版), 2006, 36(2): 52 -57 .
[6] 张英,郎咏梅,赵玉晓,张鉴达,乔鹏,李善评 . 由EGSB厌氧颗粒污泥培养好氧颗粒污泥的工艺探讨[J]. 山东大学学报(工学版), 2006, 36(4): 56 -59 .
[7] Yue Khing Toh1 , XIAO Wendong2 , XIE Lihua1 . 基于无线传感器网络的分散目标跟踪:实际测试平台的开发应用(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 50 -56 .
[8] 孙炜伟,王玉振. 考虑饱和的发电机单机无穷大系统有限增益镇定[J]. 山东大学学报(工学版), 2009, 39(1): 69 -76 .
[9] 李芳佳, 高尚策, 唐政, 石井雅博, 山下和也. 基于元胞自动化模型的三维雪花晶体近似模式的产生(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 102 -105 .
[10] 孙玉利,李法德,左敦稳,戚美 . 直立分室式流体连续通电加热系统的升温特性[J]. 山东大学学报(工学版), 2006, 36(6): 19 -23 .