智能舰船自主航行技术专栏

基于强化学习的自适应人工势场航迹规划方法

郭 靖1,李 响2,鲜 勇1

(1.火箭军工程大学 导弹工程学院, 西安 710025; 2.中国人民解放军96823部队, 昆明 650200)

摘要:航迹规划问题中,传统人工势场法参数设计困难、场景适应性差,提出了一种基于强化学习调节人工势场参数的航迹规划方法。建立了人工势场深度网络模型,通过DDPG强化学习对网络进行了训练,利用训练好的深度网络自适应设计参数,对于复杂场景适应性具有更好的鲁棒性。仿真结果表明,利用强化学习设计人工势场的方法,规划出的路径更短,规划效果更优,场景适应性更强,说明该方法一方面利用了人工势场不搜索,速度快的优势;另一方面利用了强化学习探索性特点,大大提高了航迹规划效率。

关键词:无人机;人工势场法;强化学习;路径规划;避障;物理约束

0 引言

近年来,随着无人机技术的快速发展,无人机路径规划成为一个备受关注的研究领域。在许多应用场景中,无人机需要高效、安全地规划路径完成各种任务,如巡航[1]、遥感[2]、物流配送[3]等。

传统的无人机路径规划通常采用人工势场法、A*、D*算法、RRT算法等方法,然而,这些方法在面对复杂的环境和避障问题时往往表现有限。以人工势场法为例,人工势场法是一种常用的无人机路径规划方法,通过将目标位置和障碍物对无人机施加合适的势场来引导其移动。这种方法简单易实现,但容易陷入局部最优和参数难以调节的问题。面对复杂的环境和多个目标时,人工势场法的性能往往不尽如人意。而像A*、D*、RRT等搜索类算法在面对复杂多变的场景时则存在时间、空间复杂度高的问题,规划路径的效率和效果不够好。利用强化学习学习引力斥力场函数,得到能够自适应环境的势场,由此可确定飞行器在环境中的受力情况,再结合无人机的运动学模型,就能够快速规划出轨迹,显著提高了航迹规划的速率和准确性。强化学习算法通过与环境的交互学习来寻找最优策略,具有全局优化和避障的潜力。

为了克服传统人工势场法的局限性,许多研究也对人工势场法进行了一系列改进。文献[4]提出一种基于神经网络和人工势场的协同博弈路径规划方法,使用反向传播神经网络自适应调整人工势场函数系数,应用于二对一反隐身超视距空战路径规划,比经典人工势场法有明显性能提升。文献[5]提出一种利用改进势场函数和引入“随机波动”法等手段,解决了传统人工势场法用于无人机编队航迹规划时遇到的无法到达目标点以及局部最小值问题,并提升了传统算法航迹规划的快速性和鲁棒性。文献[6]提出了引入虚拟力辅助人工势场摆脱局部最优点的方法,可以有效地解决复杂环境下传统人工势场法适应性差等问题。文献[7]提出了一种在局部最小点改变斥力角度和设定虚拟最小局部区域的解决方案,同时采用遗传算法对改进算法中斥力改变角度以及虚拟最小局部区域的半径2个参数进行优化,显著提高了路径规划的效率。

而将强化学习与人工势场法相结合[8-10],以期利用二者优势互补的特点来解决路径规划问题。通过结合强化学习的全局优化能力[11]和人工势场法的局部避障能力[12],可以更有效地规划无人机的路径,提高任务完成效率和安全性。文献[13]结合人工势场与Dueling Double Deep Q Network算法,通过优化经验回放中的奖励样本,提升了DRL算法的收敛性。同时,引入LSTM网络于状态特征提取中,增强了算法在未知环境下的适应性,加快了收敛,降低了损耗、规划时间和路径长度。此外,文献[14]结合人工势场与自注意力机制,提出基于SAC的在线航迹规划算法。该算法利用自注意力机制处理高维状态信息,优化奖励函数解决稀疏性问题,实现了无人机在线三维航迹规划的高效性。文献[15]提出一种基于DRL的自主路径规划模型,该模型利用DDPG算法与环境的交互及历史数据,使智能体在模拟环境中学习最佳策略,通过将DDPG与人工势场结合,改进了DRL算法。

为解决传统方法在面对复杂环境和障碍物时的局限性问题,提出一种结合强化学习和人工势场法的无人机路径规划方法。以人工势场法为基础,结合强化学习的策略学习和长期规划能力,设计一种能够全局优化和避障的路径规划算法。通过实验证明,该方法在多目标、复杂环境下能够取得良好的性能,为实现高效、安全的无人机路径规划提供了一种有效的解决方案。该研究的结果对于无人机的自主导航和应用领域的发展具有重要意义,并具有广泛的实际应用前景。

1 无人机航迹规划系统模型

为满足无人机路径规划任务中避障的准确性,并保证航迹的平滑度,本文中提出了基于人工势场法与DDPG算法的无人机路径规划算法,图1展示了其系统模型。

图1 无人机路径规划系统模型

Fig.1 Model of UAV path planning system

首先,在二维平面上构造环境空间,随机生成2到6个障碍物。其次,设计路径规划任务中的强化学习要素,根据环境与无人机的相对信息设计状态空间,依据无人机的运动学模型与人工势场法中的对应参数设计动作空间,结合稀疏奖励的思想设计奖励函数。随后,经动作选取时引入正态分布的DDPG算法训练得到的Actor网络对人工势场法(APF)中对应系数进行优化,该优化机制包括并行的多个DDPG算法训练得到的深度神经网络,数量与当前检测到的动态障碍物数量相同,每个Actor网络的输入为无人机与障碍物的相对位置、速度、距离以及无人机自身航向角,输出为APF中参数,结合无人机当前位置、障碍物状态信息等计算得出无人机下一时刻的位置,形成航迹。

1.1 无人机运动学模型

假设A(x,y)为规划空间中的任意一点,xy分别为横、纵坐标,则二维规划空间可以表示为

{(x,y)|XminxXmax,YminyYmax}…

(1)

式(1)中: Xmin,Xmax,Ymin,Ymax分别为x,y的下界和上界值。

在此使用的算法是建立在连续环境空间和动作空间的基础上的,智能体可以位于环境中的任何位置,在满足动作约束的区间范围可以朝任何方向运动,采用矢量图方法进行建模更为简便(图2)。

图2 威胁区模型示意图

Fig.2 Threat zone model diagram

1.2 无人机运动学模型

不考虑无人机的形状大小等物理特性,将无人机的运动看作是质点的运动。无人机在二维空间中的运动可以简化为

(2)

式(2)中:为无人机的位置坐标;v表示飞行速度;φ表示无人机的偏航角。

1.3 威胁区模型

文章主要考虑的是雷达威胁和防空武器的威胁。预警雷达多为固定雷达站,无法进行机动,通常处理为静态威胁源。由于其搜索方式通常是圆周搜索,为尽可能减少飞行器被雷达探测系统捕获的概率,确保航迹的安全,这里以最大探测半径R作为其性能指标,将雷达威胁设置为不可触碰的硬威胁。防空武器的使用主要依托固定防空阵地,机动性能有限,通常以杀伤半径R为性能指标衡量其作战性能。为确保巡航导弹的飞行安全性,将该类威胁源处理为不可触碰的硬威胁。除此之外,还存在一些其他不规则区域例如城市、敏感地区造成的威胁,也需要对此类区域进行规避,通常按其实际形状大小和影响范围对其进行抽象。

本文中是在二维平面建模,所以将平面投影为圆形的防空阵地和预警雷达分别以最大打击半径和最大探测半径处理为不可触碰的圆形障碍物;将不规则障碍物向外进行膨化扩充,并以其最小外界圆为半径,同样处理为圆形障碍物,以保证航迹与威胁源存在一定间隔(图3)。

图3 雷达探测示意图

Fig.3 Schematic of radar detection

2 算法原理

采用DDPG算法对人工势场参数进行调节,使其能够适应多种复杂环境,规划出更好的轨迹。下面对这两种算法原理进行介绍。

2.1 人工势场法

人工势场法[16](artificial potential field,APF)是一种常用的路径规划算法,主要用于无人机运动控制和智能导航领域。它通过建立一个虚拟的势场来引导无人机或者智能体在运动中避开障碍物、到达目标点。人工势场法基于物理学中对势能和力的概念。它将无人机位置和目标位置之间的距离看作是引力场,障碍物的位置看作是斥力场。在势场中,无人机受到来自引力场和斥力场的合力作用,通过根据力的方向和大小来调整无人机的运动方向和速度(图4)。

图4 人工势场算法原理图

Fig.4 Schematic diagram of the artificial potential field algorithm

无人机与目标点之间的引力场[17]

(3)

式(3)中: katt为引力场的增益系数,用于调节无人机受到的引力大小;Xr为无人机当前的位置坐标;Xg为目标点的位置坐标。

无人机受到的引力为

Fatt(Xr)=grad(Uatt(Xr))=-katt|Xr-Xg|

(4)

式(4)中: grad(Uatt(Xr))表示引力场Uatt在位置Xr的梯度,即引力场中位置处势能变化最大的方向。|Xr-Xg|为无人机与目标点之间的距离。

由式(4)可知,无人机受到的引力与到目标点的距离呈线性关系,无人机距离目标点越近,引力越小。斥力场函数[17]

(5)

无人机在位置Xr受到的斥力大小为

(6)

式(6)中: grad(Urep(Xr))表示斥力场UrepXr位置的梯度,即斥力场UrepXr位置处势能变化最大的方向,|Xr-Xobs|为无人机与障碍物之间的距离;ρ0为障碍物斥力范围影响因子。

由式(5)可以看出,当无人机与障碍物的距离大于ρ0时,无人机不受障碍物斥力影响;当无人机与障碍物距离小于ρ0时,无人机所受障碍物的斥力随着两者距离的减小而增大。

无人机在飞行过程中会受到引力场和斥力场的共同影响。在通常情况下,在无人机的路径规划问题中,存在一个目标点和一个或者多个障碍物,因此无人机所受到的合势场为

Uall=Uatt(Xr)+∑Urep(Xr)

(7)

无人机在合势场中所受到的合力为

Fall(Xr)=Fatt(Xr)+∑Frep(Xr)

(8)

无人机的最终运动方向是由引力和斥力的合力共同决定的,随着无人机不断改变其位置,所受到的引力和斥力也会有所不同,进而导致其所受的合力大小和方向持续变化。因此算法具备较好的实时避障效果,且操作简单易实现。

2.2 DDPG算法

深度确定性策略梯度算法[18](DDPG)是一种用于处理连续动作空间的深度强化学习算法。DDPG结合了具有决策能力的策略梯度方法,是一种无模型的算法。它采用演员-评论家(Actor-Critic)框架,并使用深度神经网络来近似策略和值函数。算法使用梯度下降法来训练策略和值函数的神经网络参数。DDPG算法的原理如图5所示。

图5 DDPG算法原理图

Fig.5 Schematic diagram of the DDPG algorithm

DDPG算法原理是一种深度强化学习框架,其核心在于通过结合深度神经网络与确定性策略梯度方法,实现了在连续动作空间中的高效学习。算法采用了双网络结构,包括策略网络和值函数网络的在线网络和目标网络,这种结构通过在线网络实时更新策略和价值函数,而目标网络则提供稳定的目标值,增强了算法的稳定性。同时,为了解决数据相关性和依赖性问题,DDPG算法引入了经验回放机制,将智能体与环境交互产生的经验样本存储在经验池中,并在训练过程中随机抽取样本进行训练,从而提高了数据的利用率和算法的学习效率。通过这种双网络结构与经验回放机制的结合,DDPG算法能够在连续动作空间中有效地逼近最优策略,实现智能体的自主决策和优化,为解决复杂环境中的强化学习问题提供了新的思路和方法。

DDPG中既有基于价值函数的方法特征,也有基于策略的方法特征,使深度强化学习可以处理连续动作,并且具有一定的探索能力。它通过初始化神经网络参数、采集经验样本、更新演员网络和评论家网络、调整目标函数等步骤,来逐渐学习出在当前状态下采取何种动作可以获得最大奖励。通过不断重复这些步骤,DDPG算法能够逐渐收敛到最优策略,并在实际应用中获得较好的表现。其算法流程如图6所示。

图6 算法流程
Fig.6 Algorithm flow chart

2.3 网络的输入与输出

DDPG因其在连续的高维动作空间中选择唯一动作的优点,可保证航迹规划的实时性,本文中将DDPG用于优化APF中相应的参数。如图7所示,本文中使用的强化学习算法包括3种状态信息的输入和2个动作输出。其中,输入神经网络的状态信息是由无人机探测装置收集到的数据经过处理后得到,共包括3种状态信息:无人机当前位置,无人机相对障碍物位置,无人机相对终点位置。神经网络的输出是无人机在当前环境状态下选择的引力增益系数和斥力增益系数。

图7 网络的输入与输出

Fig.7 Inputs and outputs of the network

DDPG算法伪代码具体如下:

Algorithm 1 DDPG algorithm

Randomly initialize critic network Q(s,a|θQ) and actor

μ(s|θμ) with weights θQ and θμ.

Initialize target network Q′ and μ′ with θQθQ,θμθμ

Initialize replay buffer R

for episode = 1, M do

Initialize a random process N for action exploration

Receive initial observation states1

for t=1,T do

Select action at=μ(st|θμ)+Nt according to the current policy and exploration noise

Execute action at and observe reward rt and observe new state st+1

Store transition (st,at,rt,st+1) in R

Sample a random minibatch of N transition (si,ai,ri,si+1) from R

Set yi=ri+γQ′(si+1,μ′(si+1|θμ)|θQ)

Update critic by minimizing the loss:

Update the actor policy using the sample policy gradient:

Update the target networks:

θQτθQ+(1-τ)θQ

θμτθμ+(1-τ)θμ

end for

end for

3 基于DDPG的自适应人工势场参数调节

3.1 马尔可夫决策过程

无人机与环境进行交互以得到动作的路径规划可以视为一个序列决策过程。这个过程可以被建模为马尔科夫决策过程,然后使用强化学习算法进行求解。而马尔科夫决策过程[19]又可以通过五元组{S,A,P,R,γ}来进行描述。

S为状态空间,是智能体获取的环境空间的状态信息,下一个状态st+1只和当前状态st有关,而与以往的历史状态没有关系,具有马尔科夫性;A是动作空间,由智能体能够采取的全部动作构成;P是状态转移概率函数;R是奖励函数,主要作用是评价智能体在状态st下选取的at好坏;γ表示奖励折扣因子,γ∈(0,1)。

3.2 强化学习要素

无人机路径规划中的强化学习要素主要包括状态空间、动作空间和奖励函数。

3.2.1 状态空间

状态空间是状态信息的集合,而状态信息是智能体对环境进行观测得到的,是智能体进行动作选择的依据。本文中的状态空间主要由无人机和目标点、障碍物的相对位置信息组成,将其定义如下:

(9)

式(9)中:s1表示无人机当前在坐标系中的位置;s2表示无人机与障碍物之间的相对位置;s3表示无人机到目标点之间的相对位置。

3.2.2 动作空间

基于无人机的运动学模型和人工势场法,本文中主要优化人工势场法中的引力和斥力增益系数。动作空间定义为

(10)

式(10)中:katt为引力增益系数;krep为斥力增益系数。

3.2.3 奖励函数

奖励函数是强化学习中的一个关键概念,是指为每个状态或动作分配的一个数值,用于表示每个状态或动作的好坏,来衡量智能体在执行某一动作后的表现,即提供了环境的反馈。无人机会根据当前状态选择一个动作执行,然后接收环境返回的奖励值,根据这个奖励值调整自己的策略,使得后续的动作能够获得更多的奖励。设置的奖励主要包括距离奖励、避障奖励、航向奖励[20]

1) 距离奖励。为引导无人机快速飞向目标点,当无人机距离目标点比较近时,获得的奖励较大;当无人机距离目标点较远时,获得的奖励较小;当无人机到达目标点时,获得一个较大的到达奖励。表达式如下:

(11)

式(11)中: du,g为无人机到目标点的距离;ds,g为出发点到目标点的距离。

2) 避障奖励。为了保证无人机在快速达到目标点的同时能够避开障碍物,当无人机进入障碍物斥力范围时给予适当惩罚,使其避开障碍物;当无人机与障碍物发生碰撞时,给予较大惩罚。表达式如下:

(12)

式(12)中: du,o为无人机到障碍物的距离;Robs为障碍物的半径;R0为斥力范围。

3) 航向奖励。为避免无人机在避障时偏转角度过大,飞行距离增加,设计了航向奖励,当无人机偏离目标方向时,给予惩罚。表达式如下:

(13)

式(13)中: |φ|为无人机航向与目标点方向之间的夹角。

4) 总奖励值。无人机飞行过程中的奖励由距离奖励、避障奖励和航向奖励3部分组成,可表示为

R=rdis+robs+ra

(14)

3.3 强化学习过程

基于强化学习的自适应人工势场路径规划算法实现过程见表1。本算法以无人机当前位置,无人机相对障碍物位置,无人机相对终点位置为输入。输出是无人机在当前环境状态下选择的引力增益系数和斥力增益系数。

表1 基于强化学习的自适应人工势场无人机路径规划算法

Table 1 Adaptive artificial potential field UAV path planning algorithm based on reinforcement learning

开始输入:无人机当前位置、无人机相对障碍物位置、无人机相对终点位置 初始化DDPG网络:包括Actor网络、Critic网络、经验回放缓冲区等。 初始化引力斥力系数:根据初始状态或其他方式设置引力斥力系数的初始值。 设置终止条件:达到最大迭代次数、达到目标位置等。 重复以下步骤直到满足终止条件: a.通过当前状态和Actor网络得到引力斥力系数的动作。 b.根据环境反馈的奖励和新的状态更新Critic网络。 c.将新的状态、动作和奖励存储到经验回放缓冲区中。

4 仿真与分析

对提出的基于DDPG和人工势场法的无人机航迹规划算法进行仿真分析,仿真的实验设备及环境、无人机飞行约束参数和DDPG算法参数分别如表2和表3所示。假设无人机飞行速率恒定,另外忽略自然环境因素干扰影响。涉及仿真的实验设备及环境满足:Inter i5-12600KF,32 GB,双通道内存,Windows 10 64位操作系统,Python 3.8.1,Torch 1.12.1,Gym 0.21.0,MATLAB 2021b。

表2 无人机飞行约束参数

Table 2 UAV flight constraint parameters

参数值飞行速度/(m·s-1)100偏航角范围/(°)[-90,90]东西方向飞行范围/km[-10,10]南北方向飞行范围/km[-10,10]最大飞行航程/km15

表3 DDPG算法参数

Table 3 DDPG algorithm parameters

参数值经验回放池大小106奖励折扣因子0.99学习率10-3噪声的标准差0.1训练回合数300

本文中设定无人机实验场景为尺寸为10×10单位长度地图,起点坐标为(0,0),终点坐标为(10,10),实验场景内随机产生2~5个半径为0.6的障碍物,环境如图8所示。

图8 训练环境示意图

Fig.8 Schematic diagram of the training environment

图8中红色正方形表示无人机起始点位置,蓝色三角形代表目标点位置,粉色圆代表障碍物,圆外的虚线代表斥力势场的作用范围。无人机需要规避障碍物并顺利到达目标点位置。

图9为训练实验的奖励变化曲线。横坐标表示无人机训练的回合数(episodes),纵坐标表示每一回合训练时的累计奖励。随着训练次数的增加,奖励逐渐增大,总体呈收敛趋势。

图9 训练奖励变化曲线

Fig.9 Training reward change curve

为验证提出的结合基于强化学习的自适应人工势场航迹规划方法在复杂环境下的适应性,将训练好的算法与改进人工势场法[21](IAPF)、优化人工势场法[22](OAPF)、快速搜索随机树算法[23](APF-RRT*)在相同障碍物环境下进行测试,选取路径长度、算法用时、测试成功率和最大转弯角速率的平均值为评估指标,评估算法的训练和测试效果。其中,测试成功率用于评估无人机满足约束条件下能够顺利到达终点的能力,其计算公式为

成功率

对训练好的模型进行测试验证,效果图如图10所示。

图10 4种不同环境下4种方法规划的航迹

Fig.10 Tracks planned by four methods in four different environments

测试环境包括分别存在2、3、4、5个障碍物的场景,表4为在不同障碍物环境中测试500次后无人机利用提出的算法和改进人工势场法、优化的人工势场法、快速搜索随机树算法进行航迹规划的测试结果对比。由表4可知,改进人工势场法(IAPF)进行路径规划的成功率为90.3%,而通过利用强化学习算法,可以搜索更大的行动空间,并且在全局范围内优化路径规划,自适应调节势场参数,避免陷入局部最小值。结果表明:结合了DDPG算法和人工势场法的方法和OAPF算法都能够较好完成该任务,但是结合了强化学习的人工势场法成功率更高,证明提出的算法可靠性更高,泛化性更强。在路径长度上,改进的人工势场法规划出的路径不够全局最优,而结合了强化学习的自适应人工势场法在路径长度上较其他3种算法更短。特别是相较于RRT等搜索类算法,不仅提高了算法的计算效率,同时最大转弯角速率明显更小,表明本文中的算法对智能体可用过载要求更低,进一步验证了所提算法在工程应用的可行性。

表4 不同算法航迹规划测试结果

Table 4 Track planning test results of different algorithms

算法测试成功率/%算法用时/s路径长度/km最大转弯角速率/((°)·s-1)DDPG+APF97.2%2.014.8527.13IAPF90.3%0.315.1235.32OAPF96%0.514.9328.75APF-RRT∗93.2%7.515.1767.50

5 结论

1) 利用强化学习对人工势场法参数进行调节,消除了靠经验设计参数的不确定性。

2) 通过强化学习得到适应性更广的人工势场,提高了算法的适应性和优化性能。

3) 针对当前搜索类算法存在的时间、空间复杂度高的问题,结合强化学习和人工势场法,能够快速规划出轨迹,显著提高了航迹规划的速率和准确性。

仿真结果表明:所提算法提高了无人机在复杂环境中规划航迹的能力,在保证飞行成功率的前提下,同时保证了航迹质量。在忽略自然干扰因素影响下,所提出的算法相较人工势场法和其他搜索类算法,在无人机航迹规划领域更具可行性。

参考文献:

[1] 索欣诗,王宇,朱正.基于综合评价的BWB无人机总体方案优化[J/OL].北京航空航天大学学报,1-17[2024-10-29].https://doi.org/10.13700/j.bh.1001-5965.2023.0250. SUO Xinshi,WANG Yu,ZHU Zheng.Optimization of BWB UAV overall scheme based on comprehensive evaluation[J/OL].Journal of Beijing University of Aeronautics and Astronautics,1-17[2023-12-20].https://doi.org/10.13700/j.bh.1001-5965.2023.0250.

[2] 陈立娜,李真,宋辉.基于人工智能的无人机测绘遥感图像信息提取方法[J].电子设计工程,2023,31(24):181-185. CHEN Lina,LI Zhen,SONG Hui.Image information extraction method of UAV mapping and remote sensing based on artificial intelligence[J].Electronic Design Engineering,2023,31(24):181-185.

[3] 施晓航,徐勇勤.旋翼无人机的多机协同自主探索决策技术综述[J].兵器装备工程学报,2023,44(10):182-190. SHI Xiaohang,XU Yongqin.A review of multi-aircraft collaborative autonomous exploration and decision making technology of rotary-wing UAV[J].Journal of Ordnance Equipment Engineering,2023,44(10):182-190.

[4] 张菁,何友,彭应宁,等.基于神经网络和人工势场的协同博弈路径规划[J].航空学报,2019,40(3):228-238. ZHANG Jing,HE You,PENG Yingning et al.Path planing of cooperative game based on neural network and artificial potential field[J].Acta Aeronautica et Astronautica Sinica,2019,40(3):228-238.

[5] 刘明威,高兵兵,王鹏飞,等.基于神经网络自适应PID的无人机编队避障飞行控制研究[J].无人系统技术,2022,5(2):22-32. LIU Mingwei,GAO Bingbing,WANG Pengfei et al.Research on obstacle avoidance flight control of UAV formation based on neural network adaptive PID[J].Unmanned Systems Technology,2022,5(2):22-32.

[6] 张佳尚,陈志华.基于预添加虚拟力的改进人工势场算法[J].兵器装备工程学报,2023,44(3):219-225. ZHANG Jiashang,CHEN Zhihua.Improved artificial potential field algorithm based on pre-added virtual force[J].Journal of Ordnance Equipment Engineering,2023,44(3):219-225.

[7] 李擎,王丽君,陈博,等.一种基于遗传算法参数优化的改进人工势场法[J].北京科技大学学报,2012,34(2):202-206. LI Qing,WANG Lijun,CHEN Bo et al.A parameter optimization based on genetic algorithm improved artificial potential field method[J].Journal of Beijing University of Science and Technology,2012(2):202-206.

[8] YAO Q,ZHENG Z,QI L,et al.Path planning method with improved artificial potential field:A reinforcement learning perspective[J].IEEE Access,2020(8):135513-135523.

[9] 党世轩,王岩,胡聪,等.110 kV输电线路巡检无人机电磁兼容分析[J].电力科学与技术学报,2023,38(1):235-242. DANG Shixuan,WANG Yan,HU Cong,et al.Electromagnetic compatibility analysis of patrol UAV applied to 110 kV transmission line[J].Journal of Electric Power Science and Technology,2023,38(1):235-242.

[10] LI L,WU D,HUANG Y,et al.A path planning strategy unified with a COLREGS collision avoidance function based on deep reinforcement learning and artificial potential field[J].Applied Ocean Research,2021,113:102759.

[11] REN J,HUANG X,HUANG R N,Efficient deep reinforcement learning for optimal path planning[J].Electronics 2022,11:3628.

[12] FU J,LV T,LI B.Underwater submarine path planning based on artificial potential field ant colony algorithm and velocity obstacle method[J].Sensors,2022,22:3652.

[13] HU H,WANG Y,TONG W,et al.Path planning for autonomous vehicles in unknown dynamic environment based on deep reinforcement learning[J].Applied Sciences,2023,13:10056.

[14] ZHOU Y,SHU J,HAO H,et al.UAV 3D online track planning based on improved SAC algorithm[J].Journal of the Brazilian Society of Mechanical Sciences and Engineering,2024,46(12):75-83.

[15] GUO S,ZHANG X,ZHENG Y,DU Y.An autonomous path planning model for unmanned ships based on deep reinforcement learning[J].Sensors,2020,20:426-435.

[16] MAINI P,SUJIT P.Path planning for a UAV with kinematic constraints in the presence of polygonal obstacles[C]//Proc.of the International Conference on Unmanned Aircraft Systems.Arlington,VA,USA:IEEE,2016:62-67.

[17] 张铮,薛波,柯子鹏,等.改进人工势场算法的路径规划[J].西安理工大学学报,2024,40(1):27-35. ZHANG Zheng,XUE Bo,KE Zipeng,et al.Improved artificial potential field algorithm for path planning[J].Journal of Xi'an University of Technology,2024,40(1):27-35.

[18] ZHANG Y,WU Z,XIONG Z,et al.A UAV collaborative defense scheme driven by DDPG algorithm[J].Journal of Systems Engineering and Electronics,2023,34(5):1211-1224.

[19] 马星星.基于深度强化学习的UCAV路径规划研究[D].哈尔滨:哈尔滨工程大学,2020. MA Xingxing.Research on UCAV path planning based on deep reinforcement learning[D].Harbin:Harbin Engineering University,2020.

[20] 陈康雄,刘磊.基于扰动流体与TD3的无人机路径规划算法[J].电光与控制,2024,31(1):57-62. CHEN Kangxiong,LIU Lei.UAV path planning algorithm based on perturbed fluid and TD3[J].Electro-Optics and Control,2024,31(1):57-62.

[21] 韩尧,李少华.基于改进人工势场法的无人机航迹规划[J].系统工程与电子技术,2021,43(11):3305-3311. HAN Yao,LI Shaohua.UAV track planning based on improved artificial potential field method[J].Systems Engineering and Electronics,2021,43(11):3305-3311.

[22] 王庆禄,吴冯国,郑成辰等.基于优化人工势场法的无人机航迹规划[J].系统工程与电子技术,2023,45(5):1461-1468. WANG Qinglu,WU Fengguo,ZHENG Chengchen,et al.Uav track planning based on optimized artificial potential field method[J].Systems Engineering and Electronics,2023,45(5):1461-1468.

[23] 阮善宏.基于改进RRT*和人工势场法的移动机器人路径规划研究[D].杭州:杭州电子科技大学,2023. RUAN Shanhong.Research on path planning of mobile robot based on improved RRT* and artificial potential field method[D].Hangzhou:Hangzhou Dianzi University,2023.

Adaptive artificial potential track planning method based on reinforcement learning

GUO Jing1, LI Xiang2, XIAN Yong1

(1.School of Missile Engineering, Rocket Force Engineering University, Xi’an 710025, China;2.Unit 96823, People’s Liberation Army, Kunming 650200, China)

Abstract: In the problem of track planning, the traditional artificial potential field method has difficulty in parameter design and poor scene adaptability, so a track planning method based on reinforcement learning to adjust the artificial potential field parameters is proposed.An artificial potential field deep network model is established, and the network is trained by DDPG reinforcement learning, and the trained deep network adaptive design parameters are used to have better robustness for complex scene adaptability.The simulation results show that the method of using reinforcement learning to design the artificial potential field has a shorter path, better planning effect and stronger scene adaptability, indicating that the method takes advantage of the artificial potential field without search and fast speed.On the other hand, the exploratory characteristics of reinforcement learning are used to greatly improve the efficiency of track planning.

Key words drone; artificial potential field method; reinforcement learning; path planning; obstacle avoidance; physical constraints

收稿日期:2024-03-03;修回日期:2024-04-12;录用日期:2024-05-22

基金项目:国家自然科学基金项目(62103432)

作者简介:郭靖(1999—),男,硕士研究生,E-mail:1569860345@qq.com。

doi: 10.11809/bqzbgcxb2024.11.004

本文引用格式:郭靖,李响,鲜勇.基于强化学习的自适应人工势场航迹规划方法[J].兵器装备工程学报,2024,45(11):25-33.

Citation format:GUO Jing, LI Xiang, XIAN Yong.Adaptive artificial potential track planning method based on reinforcement learning[J].Journal of Ordnance Equipment Engineering,2024,45(11):25-33.

中图分类号:V249

文献标识码:A

文章编号:2096-2304(2024)11-0025-09

科学编辑 张兰勇 博士(哈尔滨工程大学 教授、博导)

责任编辑 徐佳忆