山东大学学报(工学版) ›› 2014, Vol. 44 ›› Issue (1): 13-18.doi: 10.6040/j.issn.1672-3961.2.2013.274
于江德1,赵红丹1,郑勃举1,余正涛2
YU Jiang-de1, ZHAO Hong-dan1, ZHENG Bo-ju1, YU Zheng-tao2
摘要:
基于中文人名用字具有的较强的性别区分性,提出一种利用朴素贝叶斯分类器对中文人名性别进行判定的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定。在412775个中文人名语料上采用10重交叉验证法进行训练和测试,对比了依据不同区分特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,字1+字2+字1字2(全部区分特征)构成的特征组合进行性别判定,平均判定准确率分别为72.75%,86.92%,88.84%,87.37%,89.35%,90.06%,取得的最好平均判定准确率为90.06%。
| [1] | 汪嘉晨, 唐向红, 陆见光. 轴承故障诊断中特征选取技术[J]. 山东大学学报 (工学版), 2019, 49(2): 80-87. |
| [2] | 屈庆涛,刘其成,牟春晓. 基于N-Gram语言模型的并行自适应新闻话题追踪算法[J]. 山东大学学报 (工学版), 2018, 48(6): 37-43. |
|