山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (6): 8-11.
王云,王俊,韩伟*
WANG Yun, WANG Jun, HAN Wei*
摘要:
强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题。利用进化算法,设计了智能体繁殖、消亡等操作,使得子代智能体能够继承父代智能体在状态空间的方向信息,从而更快地找到状态-动作空间的有效更新。仿真实验表明:算法比已有的强化学习方法具有更高的搜索效率和收敛速度。
[1] | 张双圣,强静,刘喜坤,刘汉湖,朱雪强. 基于贝叶斯-微分进化算法的污染源识别反问题[J]. 山东大学学报(工学版), 2018, 48(1): 131-136. |
[2] | 武炎明,王瑞云,王占山. 基于中间变量观测器的多智能体故障检测[J]. 山东大学学报(工学版), 2017, 47(5): 96-102. |
[3] | 崔阳,张柯,姜斌. 具有切换拓扑结构的多智能体系统故障估计[J]. 山东大学学报(工学版), 2017, 47(5): 263-270. |
[4] | 杨隆浩, 傅仰耿, 巩晓婷. 置信规则库参数学习的并行差分进化算法[J]. 山东大学学报(工学版), 2015, 45(1): 30-36. |
[5] | 严宣辉,曾庆盛*,舒才良. 融合免疫机制的协同进化模型[J]. 山东大学学报(工学版), 2012, 42(1): 34-44. |
[6] | 刘淳安. 基于核分布估计的动态多目标优化进化算法[J]. 山东大学学报(工学版), 2011, 41(1): 167-172. |
[7] | 刘建华1,2, 黄添强2, 严晓明2. 融合PSO算法思想的进化算法[J]. 山东大学学报(工学版), 2010, 40(5): 34-40. |
|