稿件标题: | 基于策略增益均衡的异构无人机协同决策方法 |
稿件作者: | 费思邈1,霍琳2,李诗琪2 |
DOI: | 10.11809/bqzbgcxb2021.11.028 |
科学编辑: | 赵恩娇 博士(哈尔滨工程大学) |
栏目名称: | 信息科学与控制工程 |
关键词: | 异构无人机;强化学习;协同决策;策略增益均衡;PPO |
文章摘要: | 采用多智能体强化学习方法训练多个异构无人机智能协同执行复杂任务时,通常因为每个无人机的策略改变而影响其他无人机的训练进程,导致训练结果的震荡甚至无法收敛。针对这一问题,以多个攻击型无人机和干扰型无人机组成混合编队,通过封锁区并攻击有价值目标的复杂协同任务为背景,提出了一种新的群体策略水平增益均衡方法,结合多智能体独立强化学习训练技术,通过最大化每个无人机自身的奖赏,而不是优化整个集群的最大化奖赏来训练2种异构智能体协同合作,实现异构智能体稳定的探索和策略优化。最后通过仿真实验证明了该方法的有效性和优越性。 |
引用本文格式: | 费思邈,霍琳,李诗琪.基于策略增益均衡的异构无人机协同决策方法[J].兵器装备工程学报,2021,42(11):174-180. FEI Simiao, HUO Lin, LI Shiqi.Heterogeneous UAVs Collaborative Decision Method Based on Policy Improvement Balance Mechanism[J].Journal of Ordnance Equipment Engineering,2021,42(11):174-180. |
刊期名称: | 2021年11期 |
出版时间: | 2021年11月 |
上线时间: | 2021年11月28日 |
浏览次数: | 2878 |
下载次数: | 2012 |
免费阅读PDF 在线阅读 下载本期目录 下载本期封面 |