您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2018, Vol. 48 ›› Issue (5): 47-54.doi: 10.6040/j.issn.1672-3961.0.2018.207

• 机器学习与数据挖掘 • 上一篇    下一篇

基于特征融合和集成学习的建议语句分类模型

张璞1(),刘畅1,王永2   

  1. 1. 重庆邮电大学计算机科学与技术学院, 重庆 400065
    2. 重庆邮电大学电子商务与现代物流重点试验室, 重庆 400065
  • 收稿日期:2018-05-31 出版日期:2018-10-01 发布日期:2018-05-31
  • 作者简介:张璞(1977—),男,云南昭通人,副教授,博士,主要研究方向为文本挖掘. E-mail:zhangpu@cqupt.edu.cn
  • 基金资助:
    教育部人文社会科学研究青年基金资助项目(17YJCZH247);重庆市教委人文社会科学研究资助项目(17SKG055);国家自然科学基金资助项目(61472464);重庆邮电大学博士启动基金资助项目(A2016-02)

Suggestion sentence classification model based on feature fusion and ensemble learning

Pu ZHANG1(),Chang LIU1,Yong WANG2   

  1. 1. College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
    2. Key Laboratory of Electronic Commerce and Logistics, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
  • Received:2018-05-31 Online:2018-10-01 Published:2018-05-31
  • Supported by:
    教育部人文社会科学研究青年基金资助项目(17YJCZH247);重庆市教委人文社会科学研究资助项目(17SKG055);国家自然科学基金资助项目(61472464);重庆邮电大学博士启动基金资助项目(A2016-02)

摘要:

建议挖掘作为一项新兴研究任务近年来逐渐受到了研究者的关注。与英文相比,中文的建议表达形式更为丰富,呈现出许多不同特点,因此有必要在中文环境下开展建议挖掘研究。针对建议挖掘中的建议语句检测这一核心任务,提出一种综合应用Stacking和Bagging方法的集成学习模型来进行建议语句分类。使用Stacking组合分类器来构建概率特征空间,分别使用卷积神经网络(convolutional neural network, CNN)和段落向量模型(paragraph vector, PV)构建评论文本的CNN特征空间和段落向量特征空间,对上述特征进行融合,并训练Bagging分类器来对建议语句分类。在中文数据集上的试验结果验证了本研究模型的有效性。

关键词: 建议挖掘, 建议语句分类, 卷积神经网络, 集成学习, 特征融合

Abstract:

As an emerging research task, suggestion mining has gradually attracted attention of researchers in recent years. Compared with English language suggestion expression forms, those of Chinese were more abundant, and many different characteristics were present. It was necessary to carry out the research on suggestion mining in the Chinese environment. As suggestion sentence detection was the core task of suggestion mining, this research proposed an ensemble learning model that integrated the Stacking and Bagging methods to classify the reviews for the detection of suggestion sentence. The model firstly used Stacking to combine classifiers and constructed probabilistic feature space. Then, the convolution neural network (CNN) and paragraph vector (PV) model were used to construct the CNN feature space and paragraph vector feature space of the reviews respectively. Finally, the above features were fused and the Bagging classifier was trained to classify suggestion sentences. Experimental results on Chinese dataset verified the effectiveness of the model.

Key words: suggestion mining, suggestion sentence classification, convolutional neural network, ensemble learning, feature fusion

中图分类号: 

  • TP391.1

图1

模型的整体框架"

图2

构建概率特征空间"

图3

Pos-TextCNN模型结构"

表1

试验结果表"

%
模型 精确率 召回率 F 准确率
NB 83.42 81.11 82.25 82.17
FM 87.03 81.17 84.00 84.23
LR 88.58 82.05 85.19 85.20
RF 87.36 82.55 84.89 85.01
ET 86.71 83.02 84.82 84.87
TextCNN 88.14 72.10 79.32 79.70
Pos-TextCNN 84.37 79.62 81.93 81.49
Stacking+Bagging 87.48 85.20 86.32 86.25
Stacking+Bagging+CNN 87.92 84.90 86.38 86.47
Stacking+Bagging+PV 88.27 85.14 86.68 86.66
CNN+PV+Bagging 86.86 82.97 84.87 84.87
Stacking+Bagging+CNN+PV 88.63 86.06 87.33 87.28

表2

易混淆语句分类情况"

序号 评论文本 NB FM LR RF ET S-B P T
1 我的9350手机升级后2天,屏幕右有条红线怎么处理,希望大神回复。 0 0 0 1 1 0 0 0
2 小小国家sx公司太欺负中国人了,我以后永远都不买他们任何一件产品,我建议全中国人都别再买,爱我中华,支持国产 0 0 1 1 1 0 0 0
3 三星c7系统更新后变成砖头了,一个月前买的三星c7当时续航能力还不错,最近系统更新后让他名不副实,原来充电一小时能充满现在充两小时都充不满而且耗电非常快,问客服说建议恢复出厂设置或者关机充电。 0 0 1 1 1 0 0 0
4 三星都有那几款,准备花4 000~5 500之间买个三星,求建议! 1 1 1 0 0 1 0 0

表3

模型分类效果表"

序号 评论文本 NB FM LR RF ET S-B P T
1 关于指纹解锁不灵敏问题,指纹解锁实在太不灵敏了,平常都不敢开启双击启动相机。和ip6s差几个档次,和n5机皇定位严重不符。 1 1 1 0 0 1 0 0
2 三星下一代手机应该具有的特性(一个都不要少), 1.手写笔, 2.红外线遥控, 3.防水(可以游泳级别), 4.高清屏(4K,不玩VR没感受,玩了就知道了) 1 1 0 0 0 0 1 1
3 给C7更新Grace UX系统吧,很喜欢这个新的定制系统,简洁易用, C7出的时间也不长,不能不管C7。 0 0 0 0 0 0 1 1
1 赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21 (8): 1834- 1848.
ZHAO Yanyan , QIN Bing , LIU Ting . Sentiment analysis[J]. Journal of Software, 2010, 21 (8): 1834- 1848.
2 李然, 林政, 林海伦, 等. 文本情绪分析综述[J]. Journal of Computer Research and Development, 2018, (55): 30- 52.
LI Ran , LIN Zheng , LIN Hailun , et al. Text emotion analysis: a survey[J]. Journal of Computer Research and Development, 2018, (55): 30- 52.
3 刘兵.情感分析:挖掘观点、情感和情绪[M].北京:机械工业出版社, 2017.07.
4 NEGI S. Suggestion mining from opinionated text[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics—Student Research Workshop. Association for Computational Linguistics. Stroudsburg, USA: ACL, 2016: 7-12.
5 RAMANAND J, BHAVSAR K, PEDANEKAR N. Wishful thinking: finding suggestions and 'buy' wishes from product reviews[C]//Proceedings of the NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text. Stroudsburg, USA: ACL, 2010: 54-61.
6 BRUN C , HAGEGE C . Suggestion mining: detecting suggestions for improvement in users' comments[J]. Research in Computing Science, 2013, (70): 199- 209.
7 NEGI S, BUITELAAR P. Curse or boon? presence of subjunctive mood in opinionated text[C]//Proceedings of the 11th International Conference on Computational Semantics. Stroudsburg, USA: ACL, 2015: 101-106.
8 WICAKSONO A F, MYAENG S H. Automatic extraction of advice-revealing sentences for advice mining from online forums[C]//International Conference on Knowledge Capture. New York, USA: ACM, 2013: 97-104.
9 DONG Li, WEI Furu, DUAN Yajuan, et al. The automated acquisition of suggestions from tweets[C]//Proceedings of the Twenty-Seventh American Association for Artificial Intelligence. Menlo Park, Canada: AAAI, 2013: 239-245.
10 LAI Siwei, XU Liheng, LIU Kang, et al. Recurrent convolutional neural networks for text classification[C]//Twenty-Ninth AAAI Conference on Artificial Intelligence. Texas Austin, USA: AAAI, 2015: 2267-2273.
11 YANG Zichao, YANG Diyi, DYER C, et al. Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. SAN Diego, USA: NAACL, 2016: 1480-1489.
12 NEGI S, ASOOJA K, MEHROTRA S, et al. A study of suggestions in opinionated texts and their automatic detection[C]//Proceedings of the Fifth Joint Conference on Lexical and Computational Semantics. Stroudsburg, USA: ACL, 2016: 170-178.
13 孙松涛, 何炎祥. 基于CNN特征空间的微博多标签情感分类[J]. 工程科学与技术, 2017, 49 (3): 162- 169.
SUN Songtao , HE Yanxiang . Multi-label emotion classification for microblog based on CNN feature space[J]. Advanced Engineering Sciences, 2017, 49 (3): 162- 169.
14 LE Q, MKOLOV T. Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China: ICML, 2014: 1188-1196.
15 李寿山, 黄居仁. 基于Stacking组合分类方法的中文情感分类研究[J]. 中文信息学报, 2010, 24 (5): 56- 61.
doi: 10.3969/j.issn.1003-0077.2010.05.010
LI Shoushan , HUANG Juren . Chinese sentiment classification based on stacking combination method[J]. Journal of Chinese Information Processing, 2010, 24 (5): 56- 61.
doi: 10.3969/j.issn.1003-0077.2010.05.010
16 李恒超, 林鸿飞, 杨亮, 等. 一种用于构建用户画像的二级融合算法框架[J]. 计算机科学, 2018, 45 (1): 157- 161.
LI Hengchao , LIN Hongfei , YANG Liang , et al. Two-level stacking algorithm framework for building user portrait[J]. Computer Science, 2018, 45 (1): 157- 161.
17 KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2014: 1746-1751.
18 NGUYEN T H, GRISHMAN R. Relation extraction: perspective from convolutional neural networks[C]//Proceedings of the NAACL Workshop on Vector Space Modeling for NLP. Denver Colorado, Canada: NAACL, 2015: 39-48.
19 CHENG T, GUESTRIN C. Xgboost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD Inernational Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2016: 785-794.
20 三星电子.三星盖乐世社区产品建议论坛[EB/OL]. [2018-07-23]. http://www.galaxyclub.cn/bbs/productadvicearea/productadvice.
[1] 王禹鸥,苑迎春,何振学,何晨. 融合多特征和多头自注意力机制的高校学业命名实体识别[J]. 山东大学学报 (工学版), 2025, 55(6): 35-44.
[2] 周遵富,张乾,石计亮,岳诗琴. 基于纹理和结构交互的人脸图像修复[J]. 山东大学学报 (工学版), 2025, 55(4): 18-28.
[3] 吴秋兰,尚素雅,张家辉,孙守鑫,张峰,周波,高峥,史文宠. 基于多尺度特征融合的马铃薯疮痂病图像语义分割方法[J]. 山东大学学报 (工学版), 2025, 55(4): 1-8.
[4] 董明书,陈俐企,马川义,张珠皓,孙仁娟,管延华,庄培芝. 沥青路面内部裂缝雷达图像智能判识算法研究[J]. 山东大学学报 (工学版), 2025, 55(3): 72-79.
[5] 李伟豪,王苹苹,许万博,魏本征. 结构先验引导的多模态腰椎MRI图像分割算法[J]. 山东大学学报 (工学版), 2025, 55(1): 66-76.
[6] 刘全金,嵇文,胡浪涛,黄汇磊,杨瑞,李翔,高泽文,魏本征. 基于双解码器的医学图像分割模型[J]. 山东大学学报 (工学版), 2024, 54(6): 8-18.
[7] 白琳,俱通,王浩,雷明珠,潘晓英. 面向不平衡数据的提升均衡集成学习算法[J]. 山东大学学报 (工学版), 2024, 54(4): 59-66.
[8] 常新功,苏敏惠,周志刚. 基于进化集成的图神经网络解释方法[J]. 山东大学学报 (工学版), 2024, 54(4): 1-12.
[9] 马翔悦,徐金东,倪梦莹. 基于多尺度特征模糊卷积神经网络的遥感图像分割[J]. 山东大学学报 (工学版), 2024, 54(3): 44-54.
[10] 杨巨成, 魏峰, 林亮, 贾庆祥, 刘建征. 驾驶员疲劳驾驶检测研究综述[J]. 山东大学学报 (工学版), 2024, 54(2): 1-12.
[11] 李明键,李卫军,王海荣. 融合词汇信息与GlobalPointer的实体识别[J]. 山东大学学报 (工学版), 2024, 54(1): 91-99.
[12] 迟云浩,杨璐,郭杰,郝凡昌,聂秀山. 基于注意力特征融合网络的手指静脉图像质量评价方法[J]. 山东大学学报 (工学版), 2023, 53(6): 56-62.
[13] 那绪博,张莹,李沐阳,陈元畅,华云鹏. 基于ODCG的网约车需求预测模型[J]. 山东大学学报 (工学版), 2023, 53(5): 48-56.
[14] 范海雯,郝旭东,赵康,邢法财,蒋哲,李常刚. 基于卷积神经网络的含分布式光伏配电网静态等值[J]. 山东大学学报 (工学版), 2023, 53(4): 140-148.
[15] 宋佳芮,陈艳平,王凯,黄瑞章,秦永彬. 基于Affix-Attention的命名实体识别语义补充方法[J]. 山东大学学报 (工学版), 2023, 53(2): 70-76.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 张永花,王安玲,刘福平 . 低频非均匀电磁波在导电界面的反射相角[J]. 山东大学学报(工学版), 2006, 36(2): 22 -25 .
[3] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[4] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[5] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[6] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[7] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[8] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[9] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[10] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .