您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2014, Vol. 44 ›› Issue (1): 13-18.doi: 10.6040/j.issn.1672-3961.2.2013.274

• 机器学习与数据挖掘 • 上一篇    下一篇

基于中文人名用字特征的性别判定方法

于江德1,赵红丹1,郑勃举1,余正涛2   

  1. 1. 安阳师范学院计算机与信息工程学院, 河南 安阳 455000;
    2. 昆明理工大学信息工程与自动化学院, 云南 昆明 650051
  • 收稿日期:2013-06-28 出版日期:2014-02-20 发布日期:2013-06-28
  • 作者简介:于江德 (1971- ),男,河南林州人,副教授,博士,主要研究方向为计算语言学,中文信息处理与机器学习等.E-mail:jiangde-yu@163.com
  • 基金资助:

    国家自然科学基金资助项目(60863011);河南省基础与前沿技术研究计划资助项目(112300410182)

A method of gender discrimination based on character feature of Chinese names

YU Jiang-de1, ZHAO Hong-dan1, ZHENG Bo-ju1, YU Zheng-tao2   

  1. 1. School of Computer and Information Engineering, Anyang Normal University, Anyang   455000, China;
    2. School of Information Engineering and Automation, Kunming University of Science and Technology,
     Kunming 650051, China
  • Received:2013-06-28 Online:2014-02-20 Published:2013-06-28

摘要:

基于中文人名用字具有的较强的性别区分性,提出一种利用朴素贝叶斯分类器对中文人名性别进行判定的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定。在412775个中文人名语料上采用10重交叉验证法进行训练和测试,对比了依据不同区分特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,字1+字2+字1字2(全部区分特征)构成的特征组合进行性别判定,平均判定准确率分别为72.75%,86.92%,88.84%,87.37%,89.35%,90.06%,取得的最好平均判定准确率为90.06%。

关键词: 朴素贝叶斯分类, 中文人名, 用字特征, 特征组合, 性别判定, 区分特征

Abstract:

Based on the strong gender discrimination of Chinese names, a method of gender discrimination based on character feature of Chinese names using nave Bayes classifier was presented. In this method, the first character of each Chinese name (Zi1), the second character (Zi2), the first and the second characters (Zi1Zi2) were regarded as distinguishing features. The nave Bayes classification method was used for gender discrimination of Chinese names. Training and testing were done on 412775 Chinese names corpus using 10 fold cross validation method, and comparative experiments were done according to the different feature combinations, they were  Zi1, Zi2, Zi1+Zi2, Zi1+Zi1Zi2, Zi2+Zi1Zi2, Zi1+Zi2+Zi1Zi2(all the distinguishing features). The average accuracy were as followings in turn, 72.75%,86.92%, 88.84%, 87.37%, 89.35%, 90.06%, of which the best average accuracy was 90.06%.

Key words: character feature, gender discrimination, feature combination, distinguishing feature, Chinese names, nave Bayes classification

[1] 汪嘉晨, 唐向红, 陆见光. 轴承故障诊断中特征选取技术[J]. 山东大学学报 (工学版), 2019, 49(2): 80-87.
[2] 屈庆涛,刘其成,牟春晓. 基于N-Gram语言模型的并行自适应新闻话题追踪算法[J]. 山东大学学报 (工学版), 2018, 48(6): 37-43.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[3] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[4] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[5] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[6] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[7] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[8] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .
[9] 王丽君,黄奇成,王兆旭 . 敏感性问题中的均方误差与模型比较[J]. 山东大学学报(工学版), 2006, 36(6): 51 -56 .
[10] 孙殿柱,朱昌志,李延瑞 . 散乱点云边界特征快速提取算法[J]. 山东大学学报(工学版), 2009, 39(1): 84 -86 .