您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (5): 141-145.

• 论文 • 上一篇    下一篇

基于自扩展与最大熵的领域实体关系自动抽取

雷春雅1,郭剑毅1,2,余正涛1,2,毛存礼1,2,张少敏1,黄甫1   

  1. 1. 云南昆明理工大学信息工程与自动化学院, 云南 昆明 650051;
    2. 云南省计算机技术应用重点实验室智能信息处理研究所, 云南 昆明 650051
  • 收稿日期:2010-03-15 出版日期:2010-10-16 发布日期:2010-03-15
  • 作者简介:雷春雅 (1984-),女,安徽宿州人,硕士研究生,主要研究方向为自然语言处理、信息抽取. E-mail:1057190727@QQ.com
  • 基金资助:

    国家自然科学基金资助项目(60863011);云南省自然科学基金重点项目资助项目(2008CC023);云南省中青年学术技术带头人后备人才项目资助项目(2007PY01-11)

Domain of automatic entity relation extraction based on seed self-expansion and maximum entropy machine learning

LEI Chun-ya1, GUO Jian-yi1,2, YU Zheng-tao1,2, MAO Cun-li1,2, ZHANG Shao-min1, HUANG Pu1   

  1. 1. School of Information Engineering and Automation, Kunming University of Science and Technology,
    Kunming 650051, China;  2. Institute of Intelligent Information Processing, Computer Technology Application Key
     Laboratory of  Yunnan Province, Kunming 650051, China
  • Received:2010-03-15 Online:2010-10-16 Published:2010-03-15

摘要:

实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。

关键词: 实体关系抽取, 最大熵, 自扩展, 特征

Abstract:

Entity relation extraction is one of difficulties in information extraction’s field.In this paper, a method that seed selfexpansion and maximum entropy machine learning was proposed to extract entity relation in the filed of tourism. Firstly, used seed self-expansion to get words semantic that express the big types relation between entity pairs, and this words semantic as a characteristic was added to the set of characteristics, meanwhile designed threshold to tag studying corpus automatically; then used maximum entropy machine learning algorithm to learn corpus tagged and built the classifier of entity relation extraction. Experiments based on artificial collection of 600 corpuses obtained a better result for four big types of entity relation extraction, the F values reached 82.56% and 81.17% in which the two big types relation of geographical location and date-season, it showed in the condition of less manual participation, adding the word semantic of entity pairs could effectively improve the performance of classifier.

Key words: entity relation extraction, maximum entropy, self-expansion, feature

[1] 张东波,寇涛,许海霞. 基于LDB描述子和局部空间结构匹配的快速场景辨识[J]. 山东大学学报(工学版), 2018, 48(5): 16-23.
[2] 牟廉明. 自适应特征选择加权k子凸包分类[J]. 山东大学学报(工学版), 2018, 48(5): 32-37.
[3] 张璞,刘畅,王永. 基于特征融合和集成学习的建议语句分类模型[J]. 山东大学学报(工学版), 2018, 48(5): 47-54.
[4] 王国新,陈凤东,刘国栋. 基于彩色伪随机编码结构光特征提取方法[J]. 山东大学学报(工学版), 2018, 48(5): 55-60.
[5] 胡建平,李鑫,谢琪,李玲,张道畅. 基于Delaunay三角化的二维无约束优化EMD方法[J]. 山东大学学报(工学版), 2018, 48(5): 9-15.
[6] 江珊珊,杨静,范丽亚. 基于PDEs的图像特征提取方法[J]. 山东大学学报(工学版), 2018, 48(4): 27-36.
[7] 林江豪,周咏梅,阳爱民,陈锦. 基于词向量的领域情感词典构建[J]. 山东大学学报(工学版), 2018, 48(3): 40-47.
[8] 李士进,王声特,黄乐平. 基于正反向异质性的遥感图像变化检测[J]. 山东大学学报(工学版), 2018, 48(3): 1-9.
[9] 叶子云,杨金锋. 一种基于加权图模型的手指静脉识别方法[J]. 山东大学学报(工学版), 2018, 48(3): 103-109.
[10] 丁筱玲,赵强,李贻斌,马昕. 基于模板匹配的改进型目标识别算法[J]. 山东大学学报(工学版), 2018, 48(2): 1-7.
[11] 张振月,李斐,江铭炎. 基于低秩表示投影的无监督人脸特征提取[J]. 山东大学学报(工学版), 2018, 48(1): 15-20.
[12] 包塔拉,马剑,甘祖旺. 基于几何特征与流形距离的锂电池健康评估[J]. 山东大学学报(工学版), 2017, 47(5): 157-165.
[13] 牟春倩,唐雁,胡金戈. 基于流形排序的三维模型检索方法[J]. 山东大学学报(工学版), 2017, 47(4): 19-24.
[14] 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42.
[15] 于青民,李晓磊,翟勇. 基于改进EMD和数据分箱的轴承内圈故障特征提取方法[J]. 山东大学学报(工学版), 2017, 47(3): 89-95.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!