您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (5): 141-145.

• 论文 • 上一篇    下一篇

基于自扩展与最大熵的领域实体关系自动抽取

雷春雅1,郭剑毅1,2,余正涛1,2,毛存礼1,2,张少敏1,黄甫1   

  1. 1. 云南昆明理工大学信息工程与自动化学院, 云南 昆明 650051;
    2. 云南省计算机技术应用重点实验室智能信息处理研究所, 云南 昆明 650051
  • 收稿日期:2010-03-15 出版日期:2010-10-16 发布日期:2010-03-15
  • 作者简介:雷春雅 (1984-),女,安徽宿州人,硕士研究生,主要研究方向为自然语言处理、信息抽取. E-mail:1057190727@QQ.com
  • 基金资助:

    国家自然科学基金资助项目(60863011);云南省自然科学基金重点项目资助项目(2008CC023);云南省中青年学术技术带头人后备人才项目资助项目(2007PY01-11)

Domain of automatic entity relation extraction based on seed self-expansion and maximum entropy machine learning

LEI Chun-ya1, GUO Jian-yi1,2, YU Zheng-tao1,2, MAO Cun-li1,2, ZHANG Shao-min1, HUANG Pu1   

  1. 1. School of Information Engineering and Automation, Kunming University of Science and Technology,
    Kunming 650051, China;  2. Institute of Intelligent Information Processing, Computer Technology Application Key
     Laboratory of  Yunnan Province, Kunming 650051, China
  • Received:2010-03-15 Online:2010-10-16 Published:2010-03-15

摘要:

实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。

关键词: 实体关系抽取, 最大熵, 自扩展, 特征

Abstract:

Entity relation extraction is one of difficulties in information extraction’s field.In this paper, a method that seed selfexpansion and maximum entropy machine learning was proposed to extract entity relation in the filed of tourism. Firstly, used seed self-expansion to get words semantic that express the big types relation between entity pairs, and this words semantic as a characteristic was added to the set of characteristics, meanwhile designed threshold to tag studying corpus automatically; then used maximum entropy machine learning algorithm to learn corpus tagged and built the classifier of entity relation extraction. Experiments based on artificial collection of 600 corpuses obtained a better result for four big types of entity relation extraction, the F values reached 82.56% and 81.17% in which the two big types relation of geographical location and date-season, it showed in the condition of less manual participation, adding the word semantic of entity pairs could effectively improve the performance of classifier.

Key words: entity relation extraction, maximum entropy, self-expansion, feature

[1] 唐杰烽,张佳,龙锦益. 基于全局冗余最小的快速多标签特征选择方法[J]. 山东大学学报 (工学版), 2025, 55(6): 21-34.
[2] 王禹鸥,苑迎春,何振学,何晨. 融合多特征和多头自注意力机制的高校学业命名实体识别[J]. 山东大学学报 (工学版), 2025, 55(6): 35-44.
[3] 周遵富,张乾,石计亮,岳诗琴. 基于纹理和结构交互的人脸图像修复[J]. 山东大学学报 (工学版), 2025, 55(4): 18-28.
[4] 吴秋兰,尚素雅,张家辉,孙守鑫,张峰,周波,高峥,史文宠. 基于多尺度特征融合的马铃薯疮痂病图像语义分割方法[J]. 山东大学学报 (工学版), 2025, 55(4): 1-8.
[5] 索大翔,李波. 细粒度特征增强与尺寸匹配的光伏缺陷检测[J]. 山东大学学报 (工学版), 2025, 55(4): 9-17.
[6] 李连祥,郭龙德,王锟毅,王培琰,车秀熙,邱叶凡. 非饱和土空间分布与城市地铁基坑支护设计方法[J]. 山东大学学报 (工学版), 2025, 55(4): 84-92.
[7] 李丰,文益民. 融合多尺度视觉和文本语义特征的图像描述生成算法[J]. 山东大学学报 (工学版), 2025, 55(3): 80-87.
[8] 吴正健,吾尔尼沙·买买提,杨耀威,阿力木江·艾沙,库尔班·吾布力. 基于DRCoALTP的印刷体文档图像多文种识别方法[J]. 山东大学学报 (工学版), 2025, 55(1): 51-57.
[9] 南艺婷,张鑫,龚安保,解欢,李皎,陈姝芮,李丽,管旭,张庆竹,王文兴. 山东省食用植物油加工行业VOCs排放特征、环境影响及其健康风险评价[J]. 山东大学学报 (工学版), 2025, 55(1): 125-137.
[10] 刘全金,嵇文,胡浪涛,黄汇磊,杨瑞,李翔,高泽文,魏本征. 基于双解码器的医学图像分割模型[J]. 山东大学学报 (工学版), 2024, 54(6): 8-18.
[11] 薛健,赵琳,张浩,杨璐,郝凡昌. 改进Faster R-CNN的交通标志检测算法[J]. 山东大学学报 (工学版), 2024, 54(5): 34-41.
[12] 林振宇,邵蓥侠. 基于盖根堡多项式最佳平方近似的谱图网络[J]. 山东大学学报 (工学版), 2024, 54(5): 93-100.
[13] 马翔悦,徐金东,倪梦莹. 基于多尺度特征模糊卷积神经网络的遥感图像分割[J]. 山东大学学报 (工学版), 2024, 54(3): 44-54.
[14] 聂秀山,巩蕊,董飞,郭杰,马玉玲. 短视频场景分类方法综述[J]. 山东大学学报 (工学版), 2024, 54(3): 1-11.
[15] 王超,潘麟,刘博,李申伟,马蕾娜,陈建泽,何斯强. 新农村能源系统供用能特征分析与运行优化[J]. 山东大学学报 (工学版), 2024, 54(3): 149-159.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[2] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[3] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[4] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[5] 王波,王宁生 . 机电装配体拆卸序列的自动生成及组合优化[J]. 山东大学学报(工学版), 2006, 36(2): 52 -57 .
[6] 张英,郎咏梅,赵玉晓,张鉴达,乔鹏,李善评 . 由EGSB厌氧颗粒污泥培养好氧颗粒污泥的工艺探讨[J]. 山东大学学报(工学版), 2006, 36(4): 56 -59 .
[7] Yue Khing Toh1 , XIAO Wendong2 , XIE Lihua1 . 基于无线传感器网络的分散目标跟踪:实际测试平台的开发应用(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 50 -56 .
[8] 孙炜伟,王玉振. 考虑饱和的发电机单机无穷大系统有限增益镇定[J]. 山东大学学报(工学版), 2009, 39(1): 69 -76 .
[9] 杨发展1 ,艾兴1 ,赵军1 ,侯建锋2 . ZrO2含量对WC基复合材料的力学性能和微观结构的影响[J]. 山东大学学报(工学版), 2009, 39(1): 92 -95 .
[10] 孙玉利,李法德,左敦稳,戚美 . 直立分室式流体连续通电加热系统的升温特性[J]. 山东大学学报(工学版), 2006, 36(6): 19 -23 .