您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2020, Vol. 50 ›› Issue (2): 1-9.doi: 10.6040/j.issn.1672-3961.0.2019.402

• 机器学习与数据挖掘 •    下一篇

基于异质集成学习的虚假评论检测

张大鹏1(),刘雅军2,*(),张伟1,沈芬1,杨建盛2   

  1. 1. 燕山大学信息科学与工程学院,河北 秦皇岛 066004
    2. 河北建筑工程学院信息工程学院,河北 张家口 075000
  • 收稿日期:2019-07-24 出版日期:2020-04-20 发布日期:2020-04-16
  • 通讯作者: 刘雅军 E-mail:daniao@ysu.edu.cn;liuyajun@stumail.ysu.edu.cn
  • 作者简介:张大鹏(1979—),男,河北秦皇岛人,副教授,硕士生导师,主要研究方向为机器学习和推荐系统. E-mail:daniao@ysu.edu.cn
  • 基金资助:
    张家口市科学技术研究与发展指令计划项目(1711007B);张家口市科学技术研究与发展指令计划项目(1711045H);张家口市科学技术研究与发展指令计划项目(1811009B-04)

Fake comment detection based on heterogeneous ensemble learning

Dapeng ZHANG1(),Yajun LIU2,*(),Wei ZHANG1,Fen SHEN1,Jiansheng YANG2   

  1. 1. School of Information Science and Engineering, Yanshan University, Qinhuangdao 066004, Hebei, China
    2. College of Information Engineering, Hebei Institute of Architecture and Civil Engineering, Zhangjiakou 075000, Hebei, China
  • Received:2019-07-24 Online:2020-04-20 Published:2020-04-16
  • Contact: Yajun LIU E-mail:daniao@ysu.edu.cn;liuyajun@stumail.ysu.edu.cn
  • Supported by:
    张家口市科学技术研究与发展指令计划项目(1711007B);张家口市科学技术研究与发展指令计划项目(1711045H);张家口市科学技术研究与发展指令计划项目(1811009B-04)

摘要:

为了防止卖家的恶性竞争、保证电商平台能够公平交易、保护消费者的权益不受侵犯,针对虚假评论检测领域中数据集小、标注不准确等问题,基于亚马逊最新发布的虚假评论数据集对相关算法进行改进。考虑到Word2vec模型无法识别英语中的词对,提出了Bigram-Word2vec模型;提出“二分类加权硬投票法”以解决异质集成学习中分类器投票数相等的情况;针对异质集成学习中分类器权重设置问题提出“加权软投票法”。试验结果表明,文中对相关算法的改进取得了较为理想的结果。

关键词: 机器学习, 异质集成学习, 投票法, 虚假评论检测, Word2vec

Abstract:

In view of the problem of small data set and inaccurate labeling in the field of fake comment detection, in order to prevent the vicious competition of sellers, ensure the fair trading of e-commerce platform, and protect the rights of consumers, the latest fake comment data set released by Amazon was used. The research was carried out and the related algorithms were improved. The Word2vec model could not recognize the word pairs in English. The Bigram-Word2vec model was proposed. The "two-class weighted hard voting" was proposed to solve the heterogeneous integration learning's case where the number of votes of the classifier was equal. The "weighted soft voting" was studied for how to set the weight of the classifier in heterogeneous integration learning. The experimental results showed that the improvement of related algorithms in this paper had achieved more ideal results.

Key words: machine learning, heterogeneous ensemble learning, voting, fake comment detection, Word2vec

中图分类号: 

  • TP312

图1

研究内容与研究方向对应关系图"

图2

CBOW和Skip-gram模型示意图"

图3

集成学习示意图"

表1

集成性能提升表"

分类器 测试例1 测试例2 测试例3
分类器1 ×
分类器2 ×
分类器3 ×
集成

表2

集成未能提升性能表"

分类器 测试例1 测试例2 测试例3
分类器1 ×
分类器2 ×
分类器3 ×
集成 ×

表3

集成起副作用表"

分类器 测试例1 测试例2 测试例3
分类器1 × ×
分类器2 × ×
分类器3 × ×
集成 × × ×

图4

二分类加权硬投票法"

表4

软投票计算过程"

分类器 分类器1 分类器2 分类器3 结果
类别1 Wei1×0.2 Wei2×0.6 Wei3×0.3 0.37
类别2 Wei1×0.5 Wei2×0.3 Wei3×0.4 0.40
类别3 Wei1×0.3 Wei2×0.1 Wei3×0.3 0.23

表5

加权软投票法计算过程"

分类器 分类器1 分类器2 分类器3 结果
类别1 A1×0.2 A2×0.6 A3×0.3 0.391/3
类别2 A1×0.5 A2×0.3 A3×0.4 0.389/3
类别3 A1×0.3 A2×0.1 A3×0.3 0.221/3

图5

评分与真实、虚假评论统计图"

表6

Word2vec和Bigram-Word2vec中mark的近义词表"

单词 Word2vec模型的相似度 Bigram-Word2vec模型的相似度 差值
1 0.730 117 678 642 273 000 0.773 957 729 339 599 600 0.043 8
2 0.724 927 425 384 521 500 0.769 369 959 831 237 800 0.044 4
2 0.703 679 680 824 279 800 0.763 955 950 736 999 500 0.060 3
4 0.695 606 172 084 808 300 0.762 220 799 922 943 100 0.066 6
5 0.693 261 742 591 857 900 0.760 901 212 692 260 700 0.066 7
5 0.690 877 795 219 421 400 0.750 092 387 199 401 900 0.059 2
7 0.688 343 644 142 150 900 0.746 123 850 345 611 600 0.057 8
8 0.685 064 375 400 543 200 0.739 520 072 937 011 700 0.054 5
9 0.679 870 009 422 302 200 0.739 287 137 985 229 500 0.059 4
10 0.678 099 155 426 025 400 0.738 687 157 630 920 400 0.060 6

表7

Word2vec和BiWordvec中simply的近义词表"

单词 Word2vec模型的相似度 Bigram-Word2vec模型的相似度 差值
1 0.513 332 486 152 648 900 0.599 793 553 352 356 000 0.086 5
2 0.506 101 250 648 498 500 0.570 188 283 920 288 100 0.064 1
3 0.492 439 687 252 044 700 0.564 021 468 162 536 600 0.071 6
4 0.479 794 591 665 267 940 0.518 532 931 804 657 000 0.038 7
5 0.474 006 831 645 965 600 0.517 969 369 888 305 700 0.044 0
6 0.473 198 235 034 942 600 0.517 845 869 064 331 000 0.044 6
7 0.472 356 975 078 582 760 0.515 905 439 853 668 200 0.043 5
8 0.468 731 433 153 152 470 0.507 999 360 561 370 800 0.039 3
9 0.468 069 523 572 921 750 0.504 582 762 718 200 700 0.036 5
10 0.467 946 290 969 848 630 0.502 337 872 982 025 100 0.034 4

图6

Word2vec和Bigram-Word2vec试验对比图"

图7

传统文本特征的准确率实验结果图"

表8

集成学习实验结果"

集成方法 Hard 2Hard Soft WeiSoft
准确率 0.769 7 0.812 7 0.771 0 0.808 8
1 JINDAL N, LIU B. Review spam detection[C]//Proceedings of the 16th International Conference on World Wide Web. Alberta, Canada: ACM, 2007.
2 OTT M, CHOI Y, CARDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technolo-gies: Volume 1. Portland, USA : Association for Computational Linguistics, 2011.
3 MUKHERJEE A, VENKATARAMAN V, LIU B, et al. What yelp fake review filter might be doing?[C]//Seventh international AAAI Conference on Weblogs and Social Media. Boston, USA: AAAI, 2013.
4 LIM E P, NGUYEN V A, JINDAL N, et al. Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management. Toronto, Canada: ACM, 2010.
5 MUKHERJEE A, LIU B, GLANCE N. Spotting fake reviewer groups in consumer reviews[C]//Proceedings of the 21st International Conference on World Wide Web. Lyon, France: ACM, 2012.
6 CHOWDHARY N S , PANDIT A A . Fake review detection using classification[J]. International Journal of Computer Applications, 2018, 180 (50): 16- 21.
doi: 10.5120/ijca2018917316
7 BARBADO R , ARAQUE O , IGLESIAS C A . A framework for fake review detection in online consumer electronics retailers[J]. Information Processing & Management, 2019, 56 (4): 1234- 1244.
doi: 10.1016/j.ipm.2019.03.002
8 KHALIFA M B, ELOUEDI Z, LEFEVRE E. Spammers detection based on reviewers' behaviors under belief function theory[C]//International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. Graz, Austria: Springer, 2019: 642-653.
9 BENGIO Y , DUCHARME R , VINCENT P . A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3 (6): 932- 938.
10 MIKOLOV T , CHEN K . Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 132 (43): 59- 63.
[1] 高铭壑,张莹,张蓉蓉,黄子豪,黄琳焱,李繁菀,张昕,王彦浩. 基于预测数据特征的空气质量预测方法[J]. 山东大学学报 (工学版), 2020, 50(2): 91-99.
[2] 刘玉田, 孙润稼, 王洪涛, 顾雪平. 人工智能在电力系统恢复中的应用综述[J]. 山东大学学报 (工学版), 2019, 49(5): 1-8.
[3] 李童,马然,郑鸿鹤,安平,胡翔宇. 基于视频统计特征的差错敏感度模型[J]. 山东大学学报 (工学版), 2019, 49(2): 116-121.
[4] 高明霞,李经纬. 基于word2vec词模型的中文短文本分类方法[J]. 山东大学学报 (工学版), 2019, 49(2): 34-41.
[5] 邹启杰,李昊宇,张汝波,裴腾达,刘艳. 自主驾驶的人机交互控制[J]. 山东大学学报 (工学版), 2019, 49(2): 23-33.
[6] 张冕,黄颖,梅海艺,郭毓. 基于Kinect的配电作业机器人智能人机交互方法[J]. 山东大学学报 (工学版), 2018, 48(5): 103-108.
[7] 林江豪,周咏梅,阳爱民,陈锦. 基于词向量的领域情感词典构建[J]. 山东大学学报(工学版), 2018, 48(3): 40-47.
[8] 刘洋,刘博,王峰. 基于Parameter Server框架的大数据挖掘优化算法[J]. 山东大学学报(工学版), 2017, 47(4): 1-6.
[9] 魏波,张文生,李元香,夏学文,吕敬钦. 一种选择特征的稀疏在线学习算法[J]. 山东大学学报(工学版), 2017, 47(1): 22-27.
[10] 周旺,张晨麟,吴建鑫. 一种基于Hartigan-Wong和Lloyd的定性平衡聚类算法[J]. 山东大学学报(工学版), 2016, 46(5): 37-44.
[11] 孟令恒,丁世飞. 基于单静态图像的深度感知模型[J]. 山东大学学报(工学版), 2016, 46(3): 37-43.
[12] 刘杰, 杨鹏, 吕文生, 刘阿古达木, 刘俊秀. 基于气象因素的PM2.5质量浓度预测模型[J]. 山东大学学报(工学版), 2015, 45(6): 76-83.
[13] 郑毅, 朱成璋. 基于深度信念网络的PM2.5预测[J]. 山东大学学报(工学版), 2014, 44(6): 19-25.
[14] 谢琳1,殷熙尧2,李凡长3,吴佳3. 一种逆归结学习表示[J]. 山东大学学报(工学版), 2013, 43(4): 46-50.
[15] 何雪英1,2, 秦伟1, 尹义龙1*, 赵联征1,乔昊3. 基于机器学习的视频指纹识别[J]. 山东大学学报(工学版), 2011, 41(4): 29-33.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 秦通,孙丰荣*,王丽梅,王庆浩,李新彩. 基于极大圆盘引导的形状插值实现三维表面重建[J]. 山东大学学报(工学版), 2010, 40(3): 1 -5 .
[2] 王勇, 谢玉东.

大流量管道煤气的控制技术研究

[J]. 山东大学学报(工学版), 2009, 39(2): 70 -74 .
[3] 李士进,王声特,黄乐平. 基于正反向异质性的遥感图像变化检测[J]. 山东大学学报(工学版), 2018, 48(3): 1 -9 .
[4] 李新平 代翼飞 胡静. 某岩溶隧道围岩稳定性及涌水量预测的流固耦合分析[J]. 山东大学学报(工学版), 2009, 39(4): 1 -6 .
[5] 孙亮. 瞬变电磁对含水层的超前探测效果分析[J]. 山东大学学报(工学版), 2009, 39(4): 50 -52 .
[6] 孙怀凤 李术才 崔伟 邱道宏 刘钦. 综合地质预报在某隧道明洞探测中的应用[J]. 山东大学学报(工学版), 2009, 39(4): 69 -73 .
[7] 罗运虎, 吴旭文,潘双来,董尔令,孙秀娟,王传江,吴娜 . 需求侧两种可中断负荷与发电侧备用容量的协调[J]. 山东大学学报(工学版), 2007, 37(6): 66 -70 .
[8] 高阳 张庆松 原小帅 许振浩 刘斌. 地质雷达在岩溶隧道超前预报中的应用[J]. 山东大学学报(工学版), 2009, 39(4): 82 -86 .
[9] 董彤 袁淑娟 葛军饴 洪芳 郁黎明 曹世勋 张金仓. 磁制冷材料Gd5Ge4中的磁玻璃态[J]. 山东大学学报(工学版), 2009, 39(3): 67 -70 .
[10] 蒋鹏飞,王震 . 制造商与不同质供应商博弈分析[J]. 山东大学学报(工学版), 2008, 38(2): 117 -119 .