您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (4): 1-7.

• 机器学习与数据挖掘 •    下一篇

基于半马尔可夫对策的多机器人分层强化学习

沈晶,刘海波,张汝波,吴艳霞,程晓北   

  1. 哈尔滨工程大学计算机科学与技术学院, 黑龙江 哈尔滨 150001
  • 收稿日期:2010-02-27 出版日期:2010-08-16 发布日期:2010-02-27
  • 作者简介:沈晶(1969-),女,黑龙江鸡西人,副教授,博士,主要研究方向为强化学习、智能机器人技术和计算机视觉. E-maili: shenjing@hrbeu.edu.cn
  • 基金资助:

    国家自然科学基金资助项目(60975071);教育部博士点基金资助项目(20092304120013);中央高校基本科研业务费资助项目(HEUCFZ1010, HEUCF100604)

Multi-robot hierarchical reinforcement learning based on semi-Markov games

SHEN Jing, LIU Hai-bo, ZHANG Ru-bo, WU Yan-xia, CHENG Xiao-bei   

  1. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China
  • Received:2010-02-27 Online:2010-08-16 Published:2010-02-27

摘要:

在多智能体分层强化学习研究成果的基础上,考虑多机器人系统经常面临的通信困难问题(如水下环境),提出一种基于半马尔可夫对策的多机器人分层强化学习方法,通过引入对策论方法解决通信困难情况下多机器人学习问题。仿真实验结果表明了该方法的有效性。

关键词: 半马尔可夫对策, 多机器人, 分层强化学习

Abstract:

Following previous work and considering the multi-robot systems with communication failure (e.g. in an underwater environment), a multi-robot hierarchical reinforcement learning approach based on semi-Markov games was proposed.  The game theory was employed in this approach. Simulation experimental results showed that the proposed approach was effective on multi-robot learning with communication failure.

Key words:  semi-Markov game, multi-robot, hierarchical reinforcement learning

[1] 吕斌,刘淼,吴建清,张子毅,陈启香. 数字地图拼接技术综述[J]. 山东大学学报 (工学版), 2025, 55(3): 1-15.
[2] 吴 皓,田国会,黄 彬 . 未知环境探测的多机器人协作策略研究[J]. 山东大学学报(工学版), 2008, 38(4): 27-31 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[3] 施来顺,万忠义 . 新型甜菜碱型沥青乳化剂的合成与性能测试[J]. 山东大学学报(工学版), 2008, 38(4): 112 -115 .
[4] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[5] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[6] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[7] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[8] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .
[9] 王丽君,黄奇成,王兆旭 . 敏感性问题中的均方误差与模型比较[J]. 山东大学学报(工学版), 2006, 36(6): 51 -56 .
[10] Yue Khing Toh1 , XIAO Wendong2 , XIE Lihua1 . 基于无线传感器网络的分散目标跟踪:实际测试平台的开发应用(英文)[J]. 山东大学学报(工学版), 2009, 39(1): 50 -56 .