无人自主系统及智能决策专栏
近年来,无人飞行器在搜索救援、地面勘探、农业种植、特殊物流等诸多领域取得了不错的成绩,也开始在军事领域中大放异彩,出色的完成了许多有人机难以完成的任务[1-3]。随着无人飞行器性能的提升,无人飞行器将在未来空战中扮演更加重要的角色,其在空战上发挥的作用将不单单是战场侦查与监视,也应该包括执行对敌机动追踪、决策博弈任务,逐步完成从常规的侦察平台到作战平台的转换[4]。
由于单体飞行器能力有限,难以完成复杂的任务[5]。因此,通过选择多飞行器组成集群,共同完成任务,能够有效克服飞行器的能力限制,提高任务执行效率[6]。为在空战中取得优势,提升无人飞行器集群智能化水平,让飞行器编队能够根据态势环境而自动进行对目标围捕成为主要的研究方向[7]。
现有的多无人飞行器围捕相关研究大部分基于分布式控制,即通过将集群围捕问题转换为一致性问题,然后设计分布式算法使得集群向目标位置接近和收敛,实现对敌目标的包围捕获效果。黄天云等[8]提出了一种基于松散偏好规则的自组织方法,通过分解围捕行为,利用松散偏好规则使个体机器人自发形成理想的围捕队形,并运用Lyapunov稳定性定理证明系统的稳定性。李瑞珍等[9]提出了一种基于动态围捕点的多机器人协同围捕策略。根据目标位置设置动态围捕点,并利用任务分配方法为围捕机器人分配最佳围捕点,综合考虑围捕路径损耗和包围效果,计算围捕机器人的最优航向角,实现集群对目标的围捕。张子迎等[10]提出一种多层环状伏击围捕模型,并依据能量均衡原则,对系统能量消耗进行平衡。然而,这类围捕方法是一种程序式的围捕,换言之,尽管该类方法不用人为手动控制,但面对环境变化和突发状况时,需要消耗大量资源重新对外界环境模型进行建模和解算,大大影响飞行器决策的实时性和有效性,难以应用于未知复杂环境下的多飞行器围捕任务中[11]。
为了实现多无人飞行器的协同自主决策,构建一个合理有效的多无人飞行器控制模型是有意义的[12]。深度强化学习结合了深度学习的环境感知能力和强化学习的决策控制能力,被广泛运用于智能体的智能控制任务中[13]。各飞行器利用深度神经网络对数据进行提取和特征学习,进而通过和环境的交互训练,不断优化策略,实现大系统下的多无人飞行器协同决策控制,完成对目标的有效围捕。
本文中所进行的多无人飞行器围捕研究代表了无人飞行器在军事领域中的潜在应用之一。通过提出一种基于深度强化学习PER-IDQN算法的新方法,采用离线学习对神经网络进行训练,将训练时产生的数据存储于经验池中,为神经网络的优化提供学习样本[14]。并结合多飞行器机动控制和协同围捕任务要求,对飞行器动作和状态进行设计,实现对多无人飞行器的智能决策控制。最后,结合仿真结果,对多无人飞行器围捕任务研究进行了进一步的分析说明。
由于无人飞行器底层控制中涉及到的变量因素太多,较为复杂[15]。为重点关注二维环境下飞行器高层决策控制,本研究假设无人飞行器为定高飞行,以对飞行器控制模型和飞行场景进行简化。具体的,采用栅格法对无人飞行器飞行环境进行表示和限制,其中栅格边长为c,环境长度为L,宽度为W,则环境中包含的栅格数量为LW。
在无人飞行器飞行过程中,可能面临实体障碍物或雷达干扰等影响。因此,为了训练无人飞行器对威胁区的规避能力,我们在环境中引入了障碍物作为干扰,各无人飞行器需要在机动飞行过程中,完成对威胁区的规避,最终实现对目标的围捕任务。图1描述了栅格化环境下的飞行场景。
图1 无人飞行器飞行场景
Fig.1 Flight scenario of UAV
本研究计划采用的场景是多对单的围捕场景。在围捕任务中,包含信息获取、轨迹预测、包围拦截、合围捕获等环节和战术,各飞行器需协调自身行为和团队策略,实现对目标的最终合围。在二维受限制的场景中,围捕飞行器和目标点的位置随机给出,通过设定围捕飞行器数量、飞行方向、飞行速度、探测半径等相关参数,对双方机动能力进行设定约束。考虑到硬件能力和资源有限,围捕飞行器编队需要在一定时间内完成对目标的捕获,目标可以制定有效的机动逃避策略与围捕飞行器完成对抗。各飞行器在机动运动时,需要对环境中的障碍物进行规避。当目标处于每个围捕飞行器的探测范围内,视为围捕成功。
强化学习是一种用于实现智能体自主决策控制的有效方法。在强化学习的过程中,智能体每一时刻下回根据自身的状态做出有效的动作,并获得相应的奖励。智能体通过与环境的不断交互积累经验,进而建立对周围环境的知识,实现自主决策。
强化学习实现的基本过程如图2所示。一般情况下,可以使用马尔可夫决策过程(Markov Decision Process,MDP)来对基于强化学习的训练过程进行描述。标准的MDP通常由五元组〈S,A,R,P,γ〉来表示,其中S表示在训练过程中每个时间步长智能体与环境交互获得的观察状态信息,即智能体的状态量;每回合,智能体执行动作A并根据预先设计的奖励函数获得奖励R;P表示当前状态转移到新状态的概率分布。γ为折扣因子,用于平衡当前时刻奖励和长远奖励对累积奖励的影响。
图2 强化学习理论框架
Fig.2 Reinforcement learning theoretical framework
IDQN(Independent DQN)是一种结合Independent Q-Learning(IQL)和DQN的多智能体深度强化学习算法,用于解决多智能体环境中的协同决策问题。IDQN是一种集中式训练,分布式执行的策略方法。对于每一个智能体i,在t时刻时,其执行的动作为
(1)
式中:εgreedy为贪婪系数,e服从区间(0,1)之间的均匀分布。智能体执行动作at后,会得到rt和st+1,将一组样本[st,at,rt,st+1]存入到经验回放队列中。在满足学习条件的t时刻,随机从经验回放队列中批量提取m个样本[si,ai,ri,si+1]作为训练样本。结合目标网络θ′,可以计算得到IDQN的目标值Yt:
(2)
式中:γ为奖励折扣因子。在当前t时刻,计算均方差损失函数L(θ)并更新在线网络:
(3)
IDQN算法对目标网络采用软更新策略进行更新,用软更新系数τ对目标网络的更新幅度进行控制:
θ′=τθ+(1-τ)θ′
(4)
IDQN算法继承了DQN算法的优势,通过构建经验回放机制,帮助智能体对学习数据和样本进行收集,进而用于智能体训练过程中。在训练过程中,从经验回放队列里随机抽取经验样本进行训练,有效的打破了经验样本的相关性。然而,在该方法中,由于各个经验样本抽取的几率是相同的,一些有益于智能体学习的经验样本在训练过程中利用率较低,导致学习效率不高和收敛速度较慢等问题。
在IDQN算法基础上,引入重要性采样方法,提出一种新的PER-IDQN算法,既保证能够对高优先级的样本进行高效利用,提升智能体学习效率;又可以使不同样本对梯度下降的影响是相同的。针对多智能体无人飞行器系统中,对于序号为i的飞行器,其TD-error可以表示为
(5)
式中:TD-error表示期望值与当前Q值之间的差值。可以看出,TD-error越大,表示计算出的期望值与当前Q值之间差距较大,这意味着当前时刻智能体距离期望状态具有较大的差距,需要重点对该样本进行学习。具体地,引入重要性采样的权重系数wj,设定新的损失函数为
(6)
式中:重要性采样的权重系数wj为
(7)
式中:超参数β用于调节重要性采样对PER算法和模型收敛速率的影响。最终,结合了经验优先回放策略的PER-IDQN算法流程如下表所示。
在栅格环境中,设定单元格长度为l,则每个栅格为l×l,代表一个飞行器在单位决策时刻下的活动空域。设定任务场景栅格数量为b×c,则任务场景宽度为b×l,记作lwidth;任务场景长度为c×l,记作llength。结合任务场景,设定无人飞行器状态:
S=[Suav,Steamer,Sobser,Starget,Sfinish]
(8)
对于第i个围捕飞行器,其状态输入包含围捕飞行器自身位置信息Suavi和队伍中其他飞行器信息Steameri,其中:
(9)
(10)
式中:xi、yi分别表示第i个围捕飞行器的横、纵坐标值。此外,围捕飞行器的观测信息Sobseri表示该围捕飞行器对周边九宫格位置的探索信息,具体可以表示为
(11)
此外,Stargeti表示目标相对我方飞行器i的相对距离和方位信息,可由我方预警机机载雷达或地面雷达系统进行探测获取,进而利用通信设备传递给我方围捕飞行器。图3描述了围捕飞行器与目标的位置关系。其中,红色、黄色、绿色的星星表示我方围捕飞行器,蓝色圆表示移动目标,黑色矩形表示环境中的障碍物,di和θi分别表示我方围捕飞行器与目标的距离和相对方位角,Stargeti可以表示为
图3 围捕飞行器与目标的位置关系
Fig.3 Positional relationship between UAV and target
(12)
同时,设定子状态量Sfinishi:
(13)
表示飞行器任务完成或失败时受到的奖惩。
本研究中,设定围捕场景如下:任务中有一个逃跑防守者和3个围捕进攻者,它们具有相反的目的:逃跑者要躲避围捕,而围捕者要捕获逃跑者,并且围捕者与逃跑者呈追击关系。当3个围捕者都距离逃跑目标一个单位距离(在本场景中为一个栅格),视作围捕成功。在围捕过程中,各围捕者之间不能发生碰撞,切围捕者需要对途中随机运动的障碍物进行规避。设定动作集A为
A=[(0,-b),(0,b),(-b,0),(0,b)]
(14)
式中:b表示单元格的宽度;A表示飞行器可以执行的动作集,分别为向上运动,向下运动,向左运动,向右运动。
为了保证各无人飞行器能够安全飞行,并完成对目标的接近,最终实现合围。考虑接近、避障等因素,设立奖励函数为
R=σ1rpos+σ2rsafe+σ3reffi+σ4rtask
(15)
式中:rpos、rsafe、reffi、rtask分别表示位置奖励、安全飞行奖励、高效飞行奖励、任务完成奖励;σ1~4为各项奖励相应的权重值,具体的:
rpos=(|xe-xi|+|ye-yi|)′-(|xe-xi|+|ye-yi|)
(16)
表示栅格环境下当前时刻和上一时刻飞行器到目标的距离之差。这意味着当飞行器靠近目标时,会获得正奖励。设置安全飞行器奖励:
(17)
表示飞行器碰撞时会受到惩罚。设置高效飞行奖励:
reffi=-nstay
(18)
式中:nstay表示飞行器在该栅格内停留的次数,停留次数约大,表明飞行器重复路径越多,受到越大惩罚。此外,设置:
(19)
表示飞行器在完成围捕任务时,受到的任务完成奖励。最终,基于构建的状态输入和动作输出模型,并利用设定的奖励函数完成信号反馈,可完成对多无人飞行器的自适应感知和协同决策模型训练。
为了验证本文中所提出方法对多无人飞行器围捕策略学习的有效性。仿真实验在Windows 10、Python 3.6、Tensorflow 1.14.0的环境下对多无人飞行器进行训练。基于Tkinter对训练环境进行了建模和设计,设定环境中的无人飞行器个数为3,目标个数为1。设定每回合我方无人飞行器移动一步,目标无人飞行器移动3步,此时可视为目标机动性优于我方无人飞行器。
在本仿真实验中,设定PER-IDQN人工神经网络及其目标网络的层数为4层,包含一层输入层、两层隐含层、一层输出层,其中隐含层中包含的神经元个数为64。当满足学习条件时,网络采用ReLU激活函数方法进行训练,每次批量从经验池抽取的学习样本个数为16。设定PER-IDQN网络的学习率为0.01,并随着训练进行衰减,衰减频率为每回合一次,衰减率为0.99。当神经网络学习率衰减至0.000 1时,学习率不再衰减,此时训练仍继续进行。此外,设定奖励函数衰减系数为0.95,目标网络进行更新的软更新系数为0.02。
在场景1中,设定环境大小为(80×40),逃跑方为双步随机运动,即追捕者每运动一次,逃跑者运动2次。同时,设立环境中的障碍物占环境总栅格数的比值为20%,障碍物移动率为10%。训练过程中多无人飞行器奖励曲线如图4所示。其中,横坐标表示训练间隔的回合数,纵坐标表示每回合内飞行器获得的奖励合计值。可以看出,基于PER-IDQN算法的红色曲线在1 235回合时开始逐渐提升,大约到2 350回合时开始收敛稳定,最终奖励均值逐渐稳定在17.2左右,峰值为21.3。基于IDQN算法的蓝色曲线在1 692回合开始提升,直到3 000回合后才逐渐开始收敛,最终奖励均值收敛在14.6,波动较大。对比可以得出,引入经验优先回放策略的PER-IDQN算法能够提升飞行器学习效率。并且由于在训练过程中,智能体有更高的几率选择更好的样本进行学习,最终训练得到的模型能够适应动态变化的环境,能够获得较为稳定高额的回报。
图4 多无人飞行器执行围捕战术获得的奖励之和曲线
Fig.4 Sum of multiple UAVs rewards
场景1下训练好的飞行器围捕仿真测试,如图5所示。其中,红色矩形和淡红色矩形分别表示1号追捕者和1号追捕者路径;绿色矩形和淡绿色矩形分别表示2号追捕者和2号追捕者路径;黄色矩形和淡黄色矩形分别表示3号追捕者和3号追捕者路径;可以看出,在复杂的场景下,围捕者可以自主生成围攻避障策略。
图5 场景1下的多无人飞行器围捕仿真
Fig.5 UAVs Pursuit-evasion simulation in scenario 1
为比较2种算法的有效性,通过设置障碍物覆盖率以改变环境复杂程度,并统计1 000个测试回合下2种算法围捕成功率表现如图6所示。
图6 不同环境下围捕成功率
Fig.6 Success rate of roundup in different environments
在障碍物覆盖率为0.05、0.10、0.15时,2种算法下飞行器围捕成功率都能保持在较高水平。当障碍物覆盖率提升至0.20时,IDQN算法下的多无人机围捕任务成功率降低至0.412,明显低于PER-IDQN算法下的成功0.631,这意味着基于PER-IDQN算法的多无人机围捕战术模型具有更高的鲁棒性。
为了模拟飞行器在低威胁、大边界场景下的围捕战术,同时验证模型的泛化能力,拓展120×120场景2,设定障碍物数量为720,障碍物移动率为20%。此外,设置围捕飞行器与目标机动能力比为1∶5,即围捕飞行器每运动一步,目标运动五步。
场景2下基于深度强化学习PER-IDQN算法的多无人飞行器围捕仿真如图7所示。可以看到,训练好的模型在场景2中也有不错的表现。尽管目标拥有更强的机动能力和速度,各追捕者一直朝向正确的方向运动并不断逼近逃跑的目标。同时,各围捕飞行器在运动过程中,通过对移动障碍物的自主规避,保证了安全飞行。最终,在仿真步长为345时,完成了对目标的围捕任务。这表示经过深度强化学习算法训练过的多无人飞行器围捕模型,具有优秀的泛化性能,可以拓展在新的任务场景中使用。
图7 场景2下的多无人飞行器围捕仿真
Fig.7 UAVs Pursuit-evasion simulation in scenario 2
本文中针对多无人飞行器对机动目标的围捕问题,提出了一种基于深度强化学习PER-IDQN的策略方法。包括多无人飞行器系统深度强化学习算法设计、多无人飞行器围捕模型设计、多无人飞行器模型训练,通过不同场景下的仿真测试结果,证实了本方法的合理性和有效性,并得出以下结论:
1) 在基于深度强化学习算法的多无人飞行器模型中,通过对多个飞行器状态输入、动作输出、奖励函数进行针对性设计,可以实现多无人飞行器协同机动决策,能够完成自主避障,并最终实现对目标的围捕任务。
2) 提出的PER-IDQN算法,能够有效提升模型训练效率和模型稳定性,构建的多无人飞行器围捕模型,可移植至新的场景中进行使用,不受环境所限制,具有一定应用性。
[1] 韩统,崔明朗,张伟,等.多无人机协同空战机动决策[J].兵器装备工程学报,2020,41(4):117-123.
HAN Tong,CUI Minglang,ZHANG Wei,et al.Multi-UCAV cooperative air combat maneuvering decision[J].Journal of Ordnance Equipment Engineering,2020,41(4):117-123.
[2] LI B,YANG Z P,CHEN D Q,et al.Maneuvering target tracking of UAV based on MN-DDPG and transfer learning[J].Defence Technology,2021,17(2021):457-466.
[3] 张哲璇,龙腾,徐广通,等.重访机制驱动的多无人机协同动目标搜索方法[J].航空学报,2020,41(5):220-232.
ZHANG Zhexuan,LONG Teng,XU Guangtong,et al.Revisit mechanism driven multi-UAV cooperative search planning method for moving targets[J].Acta Aeronautica et Astronautica Sinica,2020,41(5):220-232.
[4] 张小孟,胡永江,李永科,等.一种无人机分层族群任务规划方法[J].兵器装备工程学报,2022,43(5):226-231.
ZHANG Xiaomeng,HU Yongjiang,LI Yongke,et al.Hierarchical ethnic mission planning method for UAV[J].Journal of Ordnance Equipment Engineering,2022,43(5):226-231.
[5] 杨晨,张少卿,孟光磊.多无人机协同任务规划研究[J].指挥与控制学报,2018,4(3):234-248.
YANG Chen,ZHANG Shaoqing,MENG Guanglei.Multi-UAV cooperative mission planning[J].Journal of Command and Control,2018,4(3):234-248.
[6] JUNG S,YUN W J,SHIN M,et al.Orchestrated scheduling and multi-agent deep reinforcement learning for cloud-assisted multi-UAV charging systems[J].IEEE Transactions on Vehicular Technology,2021,(99):1-1.
[7] LIU C H,MA X,GAO X,et al.Distributed energy-efficient Multi-UAV navigation for long-term communication coverage by deep reinforcement learning[J].IEEE Transactions on Mobile Computing,2020,19(6):1274-1285.
[8] 黄天云,陈雪波,徐望宝,等.基于松散偏好规则的群体机器人系统自组织协作围捕[J].自动化学报,2013,39(1):57-68.
HUANG Tianyun,CHEN Xuebo,XU Wangbao,et al.A self-organizing cooperative hunting by swarm robotic systems based on loose-preference rule[J].Acta Automatica Sinica,2013,39(1):57-68.
[9] 李瑞珍,杨惠珍,萧丛杉.基于动态围捕点的多机器人协同策略[J].控制工程,2019,26(3):510-514.
LI Ruizhen,YANG Huizhen,XIAO Congshan.Multi-robot cooperative strategy based on dynamic trapping points[J].Control Engineering of China,2019,26(3):510-514.
[10] 张子迎,吕骏,徐东,等.能量均衡的围捕任务分配方法[J].国防科技大学学报,2019,41(2):107-114,184.
ZHANG Ziying,LYU Jun,XU Dong,et al.Method of capturing task allocation based on energy balance[J].Journal of National University of Defense Technology,2019,41(2):107-114,184.
[11] 张哲,吴剑,何诚,等.复杂环境下多目标多无人机协同任务规划[J].兵器装备工程学报,2020,41(2):123-128.
ZHANG Zhe,WU Jian,HE Cheng,et al.Cooperative mission planning of multi-objective and multi-UAV in complex environment[J].Journal of Ordnance Equipment Engineering,2020,41(2):123-128.
[12] 陆天和,刘莉,贺云涛,等.多无人机航迹规划算法及关键技术[J].战术导弹技术,2020,199(1):91-96.
LU Tianhe,LIU Li,HE Yuntao,et al.Multi-UAV flight path planning algorithm and key technologies[J].Tactical Missile Technology,2020,199(1):91-96.
[13] ZHOU Y,MA X,HU S,et al.QoE-driven adaptive deployment strategy of Multi-UAV networks based on hybrid deep reinforcement learning[J].IEEE Internet of Things Journal,2021,(99):1-1.
[14] HASSELT H V,GUEZ A,SILVER D.Deep reinforcement learning with double Q-learning[J].Computer ence,2015.
[15] ALOPES H,KAMPEN E,CHU Q.Attitude determination of highly dynamic fixedwing UAVs with GPS/MEMS-AHRS integration.2012 AIAA guidance navigation and control conference,Minneapolis,Minnesota,USA,2012:4460-4476.