您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2013, Vol. 43 ›› Issue (6): 7-11.

• 机器学习与数据挖掘 • 上一篇    下一篇

一种基于朴素贝叶斯的中文评论情感分类方法研究

卢玲1,王越2,杨武1   

  1. 1.重庆理工大学计算机科学与工程学院, 重庆 400054; 2.重庆理工大学国际合作与交流处, 重庆 400054
  • 收稿日期:2013-06-28 出版日期:2013-12-20 发布日期:2013-06-28
  • 作者简介:卢玲(1975- ),女,重庆人,讲师,硕士,主要研究方向为机器学习与数据挖掘. E-mail:ll@cqut.edu.cn

A method of sentiment classification for Chinese comments based on naive Bayesian

LU Ling1, WANG Yue2, YANG Wu1   

  1. 1. College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, China;
    2. Office of International Cooperation,  Chongqing University of Technology, Chongqing 400054, China
  • Received:2013-06-28 Online:2013-12-20 Published:2013-06-28

摘要:

提出一种新的基于朴素贝叶斯的中文文本情感分类方法。该方法用情感短语作为文本特征,通过情感词典与否定副词相结合,提取情感短语,通过CHI统计法设定阈值进行特征提取,再利用朴素贝叶斯分类器进行情感分类计算。对不同CHI阈值、不同语料库、以情感短语为特征和以情感词为特征进行分类实验。实验表明,以情感短语作为特征进行朴素贝叶斯分类,在不同领域的评论中均获得了较高的查准率和查全率,证明了该方法的可行性。

关键词: 情感词典, 情感分类, 贝叶斯分类, CHI, 情感短语

Abstract:

A method of sentiment classification for Chinese  comments based on naive Bayesian was presented. The sentiment phrases were used as document features in the approach. The task was decomposed into three phases: the identifying sentiment phrases by sentiment dictionary and negative adverbs, the extracting features according to threshold of CHI, and the constructing sentiment classifier based on naive Bayesian. Some experiments were conducted under distinct environments, including different threshold of CHI, different feature selection, such as sentiment words or sentiment phrases, and different area of training corpuses. The experimental results showed that the classifier based on naive Bayesian working could obtain high performance.

Key words: sentiment phrases, sentiment dictionary, naive Bayesian, sentiment classification, CHI

[1] 林江豪,周咏梅,阳爱民,陈锦. 基于词向量的领域情感词典构建[J]. 山东大学学报(工学版), 2018, 48(3): 40-47.
[2] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18.
[3] 邵发, 黄银阁, 周兰江, 郭剑毅, 余正涛, 张金鹏. 基于实体消歧的中文实体关系抽取[J]. 山东大学学报(工学版), 2014, 44(6): 32-37.
[4] 周咏梅1,阳爱民1,林江豪2. 中文微博情感词典构建方法[J]. 山东大学学报(工学版), 2014, 44(3): 36-40.
[5] 于江德1,赵红丹1,郑勃举1,余正涛2. 基于中文人名用字特征的性别判定方法[J]. 山东大学学报(工学版), 2014, 44(1): 13-18.
[6] 朱娜娜1, 2, 张化祥1, 2*, 刘丽1, 2. 基于改进FCM算法和贝叶斯分类的图像自动标注[J]. 山东大学学报(工学版), 2013, 43(6): 12-16.
[7] 周咏梅1,杨佳能2,阳爱民2. 面向文本情感分析的中文情感词典构建方法[J]. 山东大学学报(工学版), 2013, 43(6): 27-33.
[8] 李富贵1,2,黄添强1,2*,苏立超1,2,苏伟峰3. 融合多特征的异源视频复制-粘贴篡改检测[J]. 山东大学学报(工学版), 2013, 43(4): 32-38.
[9] 李守凯,张峰,李术才*,邵冬亮. 施工定位误差对竖向预应力损失的影响研究[J]. 山东大学学报(工学版), 2011, 41(3): 101-105.
[10] 张恭孝,杨荣华 . 水杨醛缩甲基氨基硫脲Schiff碱配合物的合成与表征[J]. 山东大学学报(工学版), 2008, 38(3): 108-111 .
[11] 刘庆荣,张承慧,张宪福 . 状态带时滞的非线性系统的观测器设计[J]. 山东大学学报(工学版), 2007, 37(5): 24-28 .
[12] 贾秀芹,刘允刚 . 一类更一般Lipschitz非线性系统的观测器设计[J]. 山东大学学报(工学版), 2007, 37(2): 113-120 .
[13] 刘 静,郑庚修,潘淑莹 . 水杨醛缩氨噻肟酸Schiff碱稀土钐配合物的合成与表征[J]. 山东大学学报(工学版), 2007, 37(1): 90-93 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!