山东大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (6): 12-17.
于江德1,周宏宇1,余正涛2
YU Jiang-de1, ZHOU Hong-yu1, YU Zheng-tao2
摘要:
上下文特征对汉语词性标注性能有重要影响。为了提高标注性能,采用最大熵模型探讨了汉语词性标注的特征工程,对其中的两个关键问题:特征窗口大小和特征模板集的设定,本文作者进行了深入研究。在Bakeoff2007的PKU、NCC、CTB 3种语料上进行了封闭测试,通过对“5词语”和“3词语”不同大小的特征窗口,以及单词语、双词语和两者混合的不同特征模板集进行汉语词性标注的训练过程和标注精度的对比实验,实验结果表明:3词特征窗口训练情况和标注性能均优于5词窗口;单词语特征模板集比双词语特征模板集标注性能高出10%。这说明汉语词性标注中特征窗口开设的大小以3词窗口为宜,单词语特征模板集标注性能更好。
中图分类号:
[1] | 于江德1,睢丹1,樊孝忠2. 基于字的词位标注汉语分词[J]. 山东大学学报(工学版), 2010, 40(5): 117-122. |
|