山东大学学报(工学版) ›› 2014, Vol. 44 ›› Issue (1): 13-18.doi: 10.6040/j.issn.1672-3961.2.2013.274
于江德1,赵红丹1,郑勃举1,余正涛2
YU Jiang-de1, ZHAO Hong-dan1, ZHENG Bo-ju1, YU Zheng-tao2
摘要:
基于中文人名用字具有的较强的性别区分性,提出一种利用朴素贝叶斯分类器对中文人名性别进行判定的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定。在412775个中文人名语料上采用10重交叉验证法进行训练和测试,对比了依据不同区分特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,字1+字2+字1字2(全部区分特征)构成的特征组合进行性别判定,平均判定准确率分别为72.75%,86.92%,88.84%,87.37%,89.35%,90.06%,取得的最好平均判定准确率为90.06%。
No related articles found! |
|