山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (5): 117-122.
于江德1,睢丹1,樊孝忠2
YU Jiang-de1, SUI Dan1, FAN Xiao-zhong2
摘要:
近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。
[1] | 于江德1,周宏宇1,余正涛2. 汉语词性标注的特征工程[J]. 山东大学学报(工学版), 2011, 41(6): 12-17. |
|