稿件标题: | 基于深度强化学习的多无人艇协同目标搜索算法 |
稿件作者: | 邢博闻1,张昭夷1,王世明1,娄嘉奕2,王五桂3 |
DOI: | 10.11809/bqzbgcxb2023.11.015 |
科学编辑: | 张兰勇 博士(哈尔滨工程大学教授、博导) |
栏目名称: | 智能舰船自主航行技术专栏 |
关键词: | 深度强化学习;多无人艇;多目标搜索;优先经验回放;异步学习 |
文章摘要: | 针对应用于海上多无人艇目标搜索任务的经典深度强化学习模型难以收敛且训练耗时长的问题,提出一种基于优先经验回放的异步确定性策略梯度模型。为提升模型收敛效果,引入一种基于优先级的经验回放机制,该机制可以有效提高高价值经验的利用率,从而避免算法收敛困难的问题。为进一步减少模型训练耗时长,引入异步学习的训练框架,该框架通过多子线程的同步训练参数更新主进程网络,有效提高了模型训练效率。在MPE仿真环境对提出的PAMADDPG算法与MADDPG、MAPPO和PERMADDPG算法进行对比实验,结果表明:提出模型在1 000~1 200回合就达到收敛,经过1 000回合左右训练智能体总碰撞次数就趋于0,相较于其他算法任务成功率提高了5%~10%。 |
稿件基金: | 国家自然科学基金项目(41976194);上海市“科技创新行动计划”软科学研究项目(23692102600);上海市“科技创新行动计划”上海工程技术研究中心(19DZ2254800) |
引用本文格式: | 邢博闻,张昭夷,王世明,等.基于深度强化学习的多无人艇协同目标搜索算法[J].兵器装备工程学报,2023,44(11):118-125. XING Bowen, ZHANG Zhaoyi, WANG Shiming, et al.[J].Journal of Ordnance Equipment Engineering,2023,44(11):118-125. |
出版时间: | 2023年11月 |
上线时间: | 2023年11月28日 |
浏览次数: | 1497 |
下载次数: | 70 |
免费阅读PDF 下载本期目录 下载本期封面 |