您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (4): 7-12.

• 论文 • 上一篇    下一篇

基于信息熵的半监督领域实体关系抽取研究

郭剑毅1,2,雷春雅1,余正涛1,2,苏磊1,2,赵君1,田维1   

  1. 1.昆明理工大学信息工程与自动化学院, 云南 昆明 650051;
    2.昆明理工大学智能信息处理重点实验室, 云南昆明 650051
  • 收稿日期:2011-02-14 出版日期:2011-08-16 发布日期:2011-02-14
  • 作者简介:郭剑毅(1964- ),女,教授,主要研究方向为自然语言处理,信息抽取.E-mail:gjade86@hotmail.com
  • 基金资助:

    国家自然科学基金项目(60863011);云南省自然科学基金重点项目资助项目(2008CC023);云南省中青年学术技术带头人后备人才项目资助项目(2007PY0111)

A semi-supervised learning method based on information entropy to extract the domain entity relation

GUO Jian-yi1,2, LEI Chun-ya1, YU Zheng-tao1,2, SU Lei1,2, ZHAO Jun1, TIAN Wei1   

  1. 1. School of Information Engineering and Automation, Kunming University of Science and Technology,
    Kunming 650051, China; 2. Key Laboratory of Intelligent Information Processing, Kunming University of
     Science and Technology, Kunming 650051, China
  • Received:2011-02-14 Online:2011-08-16 Published:2011-02-14

摘要:

针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。

关键词: 信息熵, 半监督, 最大熵分类器, 未标记, 可信度

Abstract:

To solve the limitation by the scale of labeled corpus of the supervised learning method, a semi-supervised method based on information entropy was proposed to extract entity relation using small-scale training data. Firstly, combined with field vocabulary to select small-scale training data, an initial maximum entropy classifier of certain accuracy was constructed to predict some new candidate instances from unlabeled data. Secondly, applied the method of information entropy by setting different entropy value and cycling many times,some new instances of the higher credibility from candidate instances were selected to expand the training data. Finally, the training classifier was re-iteratived with the expanded training data until classifier performance  tended to stable iteration termination, which achieved field entity relation extraction. Experimental results showed that the semi-supervised learning method based on information entropy achieved better learning results compared to other methods.
 

Key words: information entropy, semi-supervised, the maximum entropy classifier, unlabeled, credibility

[1] 吴建萍,姜斌,刘剑慰. 基于小波包信息熵和小波神经网络的异步电机故障诊断[J]. 山东大学学报(工学版), 2017, 47(5): 223-228.
[2] 林耀进,张佳,林梦雷,王娟. 一种基于模糊信息熵的协同过滤推荐方法[J]. 山东大学学报(工学版), 2016, 46(5): 13-20.
[3] 吴树芳,徐建民. 基于HITS算法的微博用户可信度评估[J]. 山东大学学报(工学版), 2016, 46(5): 7-12.
[4] 张佳,林耀进,林梦雷,刘景华,李慧宗. 基于信息熵的协同过滤算法[J]. 山东大学学报(工学版), 2016, 46(2): 43-50.
[5] 王晓初, 王士同, 包芳. 基于概率密度分布一致约束的最小最大概率机图像分类算法[J]. 山东大学学报(工学版), 2015, 45(5): 13-21.
[6] 辛丽玲, 何威, 于剑, 贾彩燕. 一种基于密度差异的离群点检测算法[J]. 山东大学学报(工学版), 2015, 45(3): 7-14.
[7] 刘晓勇. 一种基于树核函数的半监督关系抽取方法研究[J]. 山东大学学报(工学版), 2015, 45(2): 22-26.
[8] 孔超1,2,张化祥1,2*,刘丽1,2. 基于兴趣区域特征融合的半监督图像检索算法[J]. 山东大学学报(工学版), 2014, 44(3): 22-28.
[9] 潘盼1,王熙照2,翟俊海2. 基于有序决策树的改进归纳算法[J]. 山东大学学报(工学版), 2014, 44(1): 41-44.
[10] 李雅林1,2,张化祥1,2*,冯新营1,2. 一种新的基于半监督的多标记学习算法[J]. 山东大学学报(工学版), 2013, 43(2): 18-22.
[11] 张欣怡,翟玉庆*. 基于证据理论的信任模型中冲突证据[J]. 山东大学学报(工学版), 2013, 43(1): 48-53.
[12] 夏战国,万玲,蔡世玉,孙鹏辉. 一种面向入侵检测的半监督聚类算法[J]. 山东大学学报(工学版), 2012, 42(6): 1-7.
[13] 丁彦,李永忠*. 基于PCA和半监督聚类的入侵检测算法研究[J]. 山东大学学报(工学版), 2012, 42(5): 41-46.
[14] 李慧1,2,胡云1,3,李存华1. 基于粗糙集理论的瓦斯灾害信息特征提取技术[J]. 山东大学学报(工学版), 2012, 42(5): 91-95.
[15] 谢伙生,刘敏. 一种基于主动学习的集成协同训练算法[J]. 山东大学学报(工学版), 2012, 42(3): 1-5.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!