您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2024, Vol. 54 ›› Issue (1): 91-99.doi: 10.6040/j.issn.1672-3961.0.2022.350

• 机器学习与数据挖掘 • 上一篇    下一篇

融合词汇信息与GlobalPointer的实体识别

李明键1,李卫军1,2*,王海荣1,2   

  1. 1.北方民族大学计算机科学与工程学院, 宁夏 银川 750021;2.北方民族大学图形图像智能处理国家民委重点实验室, 宁夏 银川 750021
  • 发布日期:2024-02-01
  • 作者简介:李明键(1997— ),男,四川江油人,硕士研究生,主要研究方向为实体识别、机器学习. E-mail:1143311329@qq.com. *通信作者简介:李卫军(1979— ),男,陕西渭南人,讲师,硕士生导师,博士,主要研究方向为本体的构建与重用、知识图谱的构建. E-mail:lwj@nmu.edu.cn
  • 基金资助:
    宁夏自然科学基金资助项目(2021AAC03215);北方民族大学重点科研项目(2021JCYJ12)

Entity recognition based on lexicon information and GlobalPointer

LI Mingjian1, LI Weijun1,2*, WANG Hairong1,2   

  1. 1. School of Computer Science and Engineering, North Minzu University, Yinchuan 750021, Ningxia, China;
    2. The Key Laboratory of Images &
    Graphics Intelligent Processing of State Ethnic Affairs Commission, North Minzu University, Yinchuan 750021, Ningxia, China
  • Published:2024-02-01

摘要: 为了提升GlobaiPointer方法的实体边界区分性能,提出一种融合词汇信息与GlobalPointer的实体识别方法。对SoftLexicon提取的词汇特征与字符相结合,采用BiLSTM网络与RoPE编码捕捉时序与相对位置信息构建全面特征,通过实体矩阵实现实体识别。对多个数据集进行试验,本研究提出的模型相较于其他基线模型,精确率、召回率、F1均有一定的提升,Weibo数据集中F1达到71.33%、CMeEE数据集中F1达到63.45%,表明本研究提出的模型架构能够进一步扩充语义表征,增强识别性能。

关键词: 相对位置编码, 词汇信息, 实体识别, 特征融合, 神经网络

中图分类号: 

  • TP39
[1] MCCALLUM A, LI W. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons[C] //Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL. [S.l.] : ACM, 2003: 188-191.
[2] BIKEL D M, MILLER S, SCHWARTZ R, et al. Nymble: a high-performance learning name-finder[EB/OL].(1998-03-27)[2021-09-15].https://arxiv.org/pdf/cmp-lg/9803003.
[3] JU Z, WANG J, ZHU F. Named entity recognition from biomedical text using SVM[C] //2011 5th International Conference on Bioinformatics and Biomedical Engineering. New York, USA: IEEE, 2011: 1-4.
[4] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL].(2015-08-09)[2021-07-24]. https://arxiv.org/pdf/1508.01991.
[5] DONG X, QIAN L, GUAN Y, et al. A multiclass classification method based on deep learning for named entity recognition in electronic medical records[C] //2016 New York: Scientific Data Summit(NYSDS).New York, USA: IEEE, 2016: 1-10.
[6] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL].(2017-06-12)[2021-03-02]. https://arxiv.org/pdf/1706.03762.
[7] 曾青霞, 熊旺平, 杜建强,等. 结合自注意力的BiLSTM-CRF的电子病历命名实体识别[J]. 计算机应用与软件, 2021, 38(3): 159-162. ZENG Qingxia, XIONG Wangping, DU Jianqiang, et al. Naming entity recognition of electronic medical records based on self-attention BiLSTM-CRF[J]. Computer Application and Software, 2021, 38(3): 159-162.
[8] 司逸晨, 管有庆. 基于Transformer编码器的中文命名 实体识别模型[J]. 计算机工程, 2022, 48(7): 66-72. SI Yichen, GUAN Youqing. Chinese named entity recognition model based on transformer encoder[J]. Computer Engineering, 2022, 48(7): 66-72.
[9] 罗熹, 夏先运, 安莹, 等. 结合多头自注意力机制与BiLSTM-CRF的中文临床实体识别[J]. 湖南大学学报(自然科学版), 2021, 48(4): 45-55. LUO Xi, XIA Xianyun, AN Ying, et al. Chinese clinical entity recognition combined with multi-head self-attention mechanism and BiLSTM-CRF[J]. Journal of Hunan University(Natural Science Edition), 2021, 48(4): 45-55.
[10] 王传涛, 丁林楷, 杨学鑫, 等. 基于BERT的中文电 子简历命名实体识别[J]. 中国科技论文, 2021, 16(7): 770-775. WANG Chuantao, DING Linkai, YANG Xuexin, et al. Chinese electronic resume named entity recognition based on BERT[J]. Chinese Science and Technology Paper, 2021, 16(7): 770-775.
[11] 郭军成, 万刚, 胡欣杰, 等. 基于BERT的中文简历 命名实体识别[J]. 计算机应用, 2021, 41(增刊1): 15-19. GUO Juncheng, WAN Gang, HU Xinjie, et al. Chinese resume named entity recognition based on BERT[J]. Computer Application, 2021, 41(Suppl.1): 15-19.
[12] ZHANG Y, YANG J. Chinese NER using lattice LSTM[EB/OL].(2018-05-05)[2021-05-06].https://arxiv. org/pdf/1805.02023.
[13] MA R, PENG M, ZHANG Q, et al. Simplify the usage of lexicon in chinese NER[C] //Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Seattle, USA: ACL, 2020: 5951-5960.
[14] 赵耀全, 车超, 张强. 基于新词发现和Lattice-LSTM的中文医疗命名实体识别[J]. 计算机应用与软件, 2021, 38(1): 161-165. ZHAO Yaoquan, CHE Chao, ZHANG Qiang. Chinese medical named entity recognition based on neologism discovery and Lattice-LSTM [J]. Computer Application and Software, 2021, 38(1): 161-165.
[15] GRAVES A, MOHAMED A, HINTON G. Speech recognition with deep recurrent neural networks[C] //2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.] : IEEE, 2013: 6645-6649.
[16] DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[EB/OL].(2018-10-11)[2021-05-03]. https://arxiv.org/pdf/1810.04805.
[17] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL].(2013-01-16)[2021-12-18]. http://arxiv. org/abs/1301.3781.
[18] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C] //Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2014: 1532.
[19] SU J L, MURTADHA A, PAN S, et al. GlobalPointer: novel efficient span-based approach for named entity recognition[EB/OL].(2022-08-15)[2022-09-12]. https://arxiv.org/abs/2106.08087.
[20] WANG Y, YU B, ZHANG Y, et al. TPLinker: single-stage joint extraction of entities and relations through token pair linking[C] //Proceedings of the 28th International Conference on Computational Linguistics. Barcelona, Spain: International Committee on Computational Linguistics, 2020: 1572-1582.
[21] SU J L, LU Y, PAN S, et al. Roformer: enhanced transformer with rotary position embedding[EB/OL].(2021-04-20)[2021-12-01]. https://arxiv.org/pdf/2104. 09864.
[22] SU J L, ZHU M, MURTADHA A, et al. ZLPR: a novel loss for multi-label classification[EB/OL].(2022-08-05)[2022-09-12]. https://arxiv.org/pdf/2208.02955.
[23] PENG N, DREDZE M. Improving named entity recognition for chinese social media with word segmentation representation learning[EB/OL].(2016-03-02)[2021-12-05].https://arxiv.org/pdf/1603. 00786.
[24] ZHANG N, CHEN M, BI Z, et al. Cblue: a chinese biomedical language understanding evaluation benchmark[EB/OL].(2021-06-15)[2021-12-24].https://arxiv.org/pdf/2106.08087.
[25] LI X, YAN H, QIU X, et al. FLAT: Chinese NER using flat-lattice transformer[C] //Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, France: Association for Computational Linguistics, 2020: 6836-6842.
[26] 毛明毅, 吴晨, 钟义信, 等. 加入自注意力机制的BERT命名实体识别模型[J]. 智能系统学报, 2020, 15(4): 772-779. MAO Mingyi, WU Chen, ZHONG Yixin, et al. BERT named entity recognition model with self-attention mechanism[J]. Journal of Intelligent Systems, 2020, 15(4): 772-779.
[27] 李健, 熊琦, 胡雅婷, 等. 基于Transformer和隐马尔科夫模型的中文命名实体识别方法[J]. 吉林大学学报(工学版),2023, 53(5):1427-1434. LI Jian, XIONG Qi, HU Yating, et al. Chinese named entity recognition method based on Transformer and hidden Markov model[J]. Journal of Jilin University(Engineering Edition), 2023, 53(5):1427-1434.
[28] 钟诗胜, 陈曦, 赵明航, 等. 引入词集级注意力机制的中文命名实体识别方法[J]. 吉林大学学报(工学版), 2022, 52(5): 1098-1105. ZHONG Shisheng, CHEN Xi, ZHAO Minghang, et al. Chinese named entity recognition method based on word set level attention mechanism[J]. Journal of Jilin University(Engineering Edition), 2022, 52(5): 1098-1105.
[1] 黄芳,王欣,高国海,沈玲珍,付勋,方宇. 融合主客观评价的图数据Top-k频繁模式挖掘[J]. 山东大学学报 (工学版), 2025, 55(6): 1-12.
[2] 王禹鸥,苑迎春,何振学,何晨. 融合多特征和多头自注意力机制的高校学业命名实体识别[J]. 山东大学学报 (工学版), 2025, 55(6): 35-44.
[3] 邵孟伟,袁世飞,周宏志,王乃华. 基于BP神经网络和遗传算法的翅片管结构优化[J]. 山东大学学报 (工学版), 2025, 55(6): 76-82.
[4] 邓彬, 张宗包, 赵文猛, 罗新航, 吴秋伟. 基于云边协同和图神经网络的电动汽车充电站负荷预测方法[J]. 山东大学学报 (工学版), 2025, 55(5): 62-69.
[5] 周遵富,张乾,石计亮,岳诗琴. 基于纹理和结构交互的人脸图像修复[J]. 山东大学学报 (工学版), 2025, 55(4): 18-28.
[6] 吴秋兰,尚素雅,张家辉,孙守鑫,张峰,周波,高峥,史文宠. 基于多尺度特征融合的马铃薯疮痂病图像语义分割方法[J]. 山东大学学报 (工学版), 2025, 55(4): 1-8.
[7] 董明书,陈俐企,马川义,张珠皓,孙仁娟,管延华,庄培芝. 沥青路面内部裂缝雷达图像智能判识算法研究[J]. 山东大学学报 (工学版), 2025, 55(3): 72-79.
[8] 贾轩,许吉凯,任艺婧,刘德才,许强,张利. 基于样本扩容和数据驱动的台区理论线损计算方法[J]. 山东大学学报 (工学版), 2025, 55(3): 158-164.
[9] 祝明,石承龙,吕潘,刘现荣,孙驰,陈建城,范宏运. 基于优化长短时记忆网络的深基坑变形预测方法及其工程应用[J]. 山东大学学报 (工学版), 2025, 55(3): 141-148.
[10] 李伟豪,王苹苹,许万博,魏本征. 结构先验引导的多模态腰椎MRI图像分割算法[J]. 山东大学学报 (工学版), 2025, 55(1): 66-76.
[11] 孙尚渠,张恭禄,蒋志斌,李朝阳. 盾构滚刀磨损的影响因素敏感性分析及预测[J]. 山东大学学报 (工学版), 2025, 55(1): 86-96.
[12] 刘全金,嵇文,胡浪涛,黄汇磊,杨瑞,李翔,高泽文,魏本征. 基于双解码器的医学图像分割模型[J]. 山东大学学报 (工学版), 2024, 54(6): 8-18.
[13] 林振宇,邵蓥侠. 基于盖根堡多项式最佳平方近似的谱图网络[J]. 山东大学学报 (工学版), 2024, 54(5): 93-100.
[14] 常新功,苏敏惠,周志刚. 基于进化集成的图神经网络解释方法[J]. 山东大学学报 (工学版), 2024, 54(4): 1-12.
[15] 葛一飞,艾孜尔古丽,陈德刚. 融合数据增强和知识迁移的汉维跨语言命名实体识别[J]. 山东大学学报 (工学版), 2024, 54(4): 67-75.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[2] 来翔 . 用胞映射方法讨论一类MKdV方程[J]. 山东大学学报(工学版), 2006, 36(1): 87 -92 .
[3] 余嘉元1 , 田金亭1 , 朱强忠2 . 计算智能在心理学中的应用[J]. 山东大学学报(工学版), 2009, 39(1): 1 -5 .
[4] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[5] 王波,王宁生 . 机电装配体拆卸序列的自动生成及组合优化[J]. 山东大学学报(工学版), 2006, 36(2): 52 -57 .
[6] 张英,郎咏梅,赵玉晓,张鉴达,乔鹏,李善评 . 由EGSB厌氧颗粒污泥培养好氧颗粒污泥的工艺探讨[J]. 山东大学学报(工学版), 2006, 36(4): 56 -59 .
[7] Yue Khing Toh1 , XIAO Wendong2 , XIE Lihua1 . 基于无线传感器网络的分散目标跟踪:实际测试平台的开发应用(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 50 -56 .
[8] 孙炜伟,王玉振. 考虑饱和的发电机单机无穷大系统有限增益镇定[J]. 山东大学学报(工学版), 2009, 39(1): 69 -76 .
[9] 孙玉利,李法德,左敦稳,戚美 . 直立分室式流体连续通电加热系统的升温特性[J]. 山东大学学报(工学版), 2006, 36(6): 19 -23 .
[10] 王勇, 谢玉东.

大流量管道煤气的控制技术研究

[J]. 山东大学学报(工学版), 2009, 39(2): 70 -74 .