您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2013, Vol. 43 ›› Issue (6): 7-11.

• 机器学习与数据挖掘 • 上一篇    下一篇

一种基于朴素贝叶斯的中文评论情感分类方法研究

卢玲1,王越2,杨武1   

  1. 1.重庆理工大学计算机科学与工程学院, 重庆 400054; 2.重庆理工大学国际合作与交流处, 重庆 400054
  • 收稿日期:2013-06-28 出版日期:2013-12-20 发布日期:2013-06-28
  • 作者简介:卢玲(1975- ),女,重庆人,讲师,硕士,主要研究方向为机器学习与数据挖掘. E-mail:ll@cqut.edu.cn

A method of sentiment classification for Chinese comments based on naive Bayesian

LU Ling1, WANG Yue2, YANG Wu1   

  1. 1. College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, China;
    2. Office of International Cooperation,  Chongqing University of Technology, Chongqing 400054, China
  • Received:2013-06-28 Online:2013-12-20 Published:2013-06-28

摘要:

提出一种新的基于朴素贝叶斯的中文文本情感分类方法。该方法用情感短语作为文本特征,通过情感词典与否定副词相结合,提取情感短语,通过CHI统计法设定阈值进行特征提取,再利用朴素贝叶斯分类器进行情感分类计算。对不同CHI阈值、不同语料库、以情感短语为特征和以情感词为特征进行分类实验。实验表明,以情感短语作为特征进行朴素贝叶斯分类,在不同领域的评论中均获得了较高的查准率和查全率,证明了该方法的可行性。

关键词: 情感词典, 情感分类, 贝叶斯分类, CHI, 情感短语

Abstract:

A method of sentiment classification for Chinese  comments based on naive Bayesian was presented. The sentiment phrases were used as document features in the approach. The task was decomposed into three phases: the identifying sentiment phrases by sentiment dictionary and negative adverbs, the extracting features according to threshold of CHI, and the constructing sentiment classifier based on naive Bayesian. Some experiments were conducted under distinct environments, including different threshold of CHI, different feature selection, such as sentiment words or sentiment phrases, and different area of training corpuses. The experimental results showed that the classifier based on naive Bayesian working could obtain high performance.

Key words: sentiment phrases, sentiment dictionary, naive Bayesian, sentiment classification, CHI

[1] 张沁洋,李旭,姚春龙,李长吾. 结合句法依存信息的方面级情感分类[J]. 山东大学学报 (工学版), 2021, 51(2): 83-89.
[2] 李怡霏,郭尊华. 一种Chirplet神经网络自动目标识别算法[J]. 山东大学学报 (工学版), 2020, 50(3): 8-14.
[3] 屈庆涛,刘其成,牟春晓. 基于N-Gram语言模型的并行自适应新闻话题追踪算法[J]. 山东大学学报 (工学版), 2018, 48(6): 37-43.
[4] 林江豪,周咏梅,阳爱民,陈锦. 基于词向量的领域情感词典构建[J]. 山东大学学报(工学版), 2018, 48(3): 40-47.
[5] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18.
[6] 邵发, 黄银阁, 周兰江, 郭剑毅, 余正涛, 张金鹏. 基于实体消歧的中文实体关系抽取[J]. 山东大学学报(工学版), 2014, 44(6): 32-37.
[7] 周咏梅1,阳爱民1,林江豪2. 中文微博情感词典构建方法[J]. 山东大学学报(工学版), 2014, 44(3): 36-40.
[8] 于江德1,赵红丹1,郑勃举1,余正涛2. 基于中文人名用字特征的性别判定方法[J]. 山东大学学报(工学版), 2014, 44(1): 13-18.
[9] 周咏梅1,杨佳能2,阳爱民2. 面向文本情感分析的中文情感词典构建方法[J]. 山东大学学报(工学版), 2013, 43(6): 27-33.
[10] 朱娜娜1, 2, 张化祥1, 2*, 刘丽1, 2. 基于改进FCM算法和贝叶斯分类的图像自动标注[J]. 山东大学学报(工学版), 2013, 43(6): 12-16.
[11] 李富贵1,2,黄添强1,2*,苏立超1,2,苏伟峰3. 融合多特征的异源视频复制-粘贴篡改检测[J]. 山东大学学报(工学版), 2013, 43(4): 32-38.
[12] 李守凯,张峰,李术才*,邵冬亮. 施工定位误差对竖向预应力损失的影响研究[J]. 山东大学学报(工学版), 2011, 41(3): 101-105.
[13] 张恭孝,杨荣华 . 水杨醛缩甲基氨基硫脲Schiff碱配合物的合成与表征[J]. 山东大学学报(工学版), 2008, 38(3): 108-111 .
[14] 刘庆荣,张承慧,张宪福 . 状态带时滞的非线性系统的观测器设计[J]. 山东大学学报(工学版), 2007, 37(5): 24-28 .
[15] 贾秀芹,刘允刚 . 一类更一般Lipschitz非线性系统的观测器设计[J]. 山东大学学报(工学版), 2007, 37(2): 113-120 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[3] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[4] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[5] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[6] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[7] 王波,王宁生 . 机电装配体拆卸序列的自动生成及组合优化[J]. 山东大学学报(工学版), 2006, 36(2): 52 -57 .
[8] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[9] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[10] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .