空空导弹在现代空战中扮演着至关重要的角色,其攻击区的解算是决定导弹发射的前提条件,也是导弹作战性能的综合体现。为了快速准确地得到攻击区范围,从而提高导弹的命中精度和对战场态势的把握程度,需要不断地根据现有技术手段优化攻击区的解算方法。近年来,人工智能技术的发展给攻击区解算提供了新的手段,对此许多学者已经成功地利用各种神经网络完成了导弹攻击区的解算,在简化条件下得到了较满意的仿真结果。但是神经网络缺乏自主决策能力,对原始样本数据的依赖性较大,不能根据战场环境的突变进行在线网络参数优化,而强化学习正好可以弥补这一缺陷,但是目前利用深度强化学习(deep reinforcement learning,DRL)算法解算攻击区方面还研究甚少。本文通过对比分析各种解算方法的优劣,重点突出了神经网络强大的感知能力,最后针对神经网络存在的缺陷,利用强化学习的自主决策能力对DRL算法解算攻击区的优化策略进行了展望。
空空导弹攻击区的传统解算方法主要有理论计算法、快速模拟法、多项式拟合法和插值法。这些方法具有各自的特点,在不同的应用场景下能发挥各自的优势,并且在工程中已经得到了应用,以下对这几种传统解算方法进行对比分析。
理论计算法[1-2]是一种从理论出发的方法,是其他解算方法的理论依据。该方法根据导弹和目标的运动特性,建立导弹六自由度运动方程和弹目相对运动方程,并利用数值积分方法求解微分方程组,最后通过循环迭代确定不同发射条件下的攻击区范围。
该方法直接求解导弹微分方程组,忽略数值积分算法的截断误差和计算机的舍入误差,在数学模型足够准确的前提下得到的攻击区范围具备很高的精度。但是实际空战中,战场态势瞬息万变,载机和目标都处于高速运动状态,而理论计算法的计算过程繁琐复杂,并且现有机载火控计算机的计算能力有限,无法快速得出结果,存在一定的滞后性,这给飞行员的决策带来了极大的困难。因此,该方法的工程适应性不强,一般只用作理论评估,为其他解算方法提供理论参考。
快速模拟法[3-7]是国内早期使用较多的一种攻击区解算方法。该方法通过简化积分来提高计算速度,采用三自由度数学模型来代替六自由度模型,采用变步长积分方法和计算技巧求解微分方程,快速得到每个积分步长下的变量值,根据命中终止条件得到攻击区的边界。
该方法简化了导弹模型和计算方法,极大提升了计算速度,能够满足作战实时性要求,在工程上可以得到较好地利用。但是随着目标机动性能的提高和作战环境的多样化,该解算方法带来的误差会越来越大,并且随着现代作战理论对武器系统实时性要求越来越高,该方法在实时性方面也难以满足。
多项式拟合法[8-10]是国内工程上采用较多的一种攻击区实时火控计算方法,该方法通过拟合典型作战条件下的导弹发射初始参数和攻击区参数得到两者之间的多项关系式,实现攻击区的实时解算。
该方法需要利用理论参考样本进行拟合,拟合完成后具有快速求解的特点,对机载火控计算机的性能要求较低,很好地满足了实时性的要求,易于工程应用。但是该方法的求解精度受各种环境因素的影响较大,攻击区参数和初始发射条件并不是简单的函数关系,通过典型攻击条件拟合得到的多项式并不能准确描述各种条件下两者的关系,求解精度较差。另外,该方法需要前期的拟合数据准备工作,数据处理工作量较大。
插值法[11-12]的原理是将已知飞行条件和对应的攻击区数据装入机载火控计算机中,在实际空战中根据实时的飞行条件进行插值计算,得到攻击区的范围。
该方法的计算精度需要靠插值数据的数量来保证,当插值数据足够多时,所求得的结果一般比多项式拟合法精确得多,并且插值计算原理简单,易于计算机实现。但是对于机载火控计算机来说,其存储能力一般较小,这与插值法需要较大的存储容量才能保证插值精度相矛盾,因此两者之间需要进行折中。随着存储硬件的升级,插值法将会得到进一步的发展。
以上提到的几种解算方法是传统的空空导弹攻击区解算方法,通过对比分析可知它们各自的优缺点都很明显,各个解算方法的优劣势如表1所示。
表1 各个解算方法的优劣势
Table 1 The advantages and disadvantages of each solution method
解算方法准确性实时性工程实用性理论计算法高低一般快速模拟法中等高高多项式拟合法低高高插值法中等高高
一些学者在这些方法的基础上也进行过相应的改进升级。例如游航航等[13-14]针对理论计算法实时性差和工程应用性不强等特点,通过建立空空导弹的运动学模型和制导模型,运用黄金分割法与分类讨论实现空空导弹发射后位置的实时解算,得到不同参数指标下导弹的攻击区和不可逃逸区,仿真结果表明该方法解算简易、复杂度低、效率较高;邓健等[15]针对快速模拟法计算精度较低等问题,提出了一种基于仿真数据建模的攻击区解算方法,在快速模拟模型的基础上进行解算,提高了快速模拟法的计算精度;李枭扬等[16]针对传统多项式拟合法拟合模型固定,拟合精度较差等问题,提出了一种基于遗传规划的攻击区拟合方法,通过非线性回归方式分析并修正模型系数从而提高了多项式的拟合精度;王志刚等[17]结合变步长积分、气动系数拟合及最大最小边界快速搜索算法,建立了基于三自由度弹道模型的空空导弹攻击区快速解算方法,仿真结果表明该算法在满足计算精度要求的前提下,大大提高了攻击区的解算速度;陈星[18]、王昕[19]、惠耀洛[20]等考虑目标机动和随机风场等的影响,提出了平移数值法对导弹的攻击区进行了数值仿真计算,仿真结果表明所提算法实时性高、工程实用性强;李爱国[21-22]在双机协同条件下采用二分法和四阶龙格库塔法进行攻击区解算。与此同时,一种基于深度学习的神经网络解算策略也正在发展,并且存在着很大的应用前景与研究价值。
近年来,机器学习不断取得突破与发展,在许多领域取得了重大成就。深度学习作为目前最引人注目的机器学习技术之一,在大数据分析解决方案中发挥了重要作用[23],在语音识别、图像分析和文本理解等领域取得了巨大成功[24]。基于深度学习理论提出的许多神经网络算法,具有很大的实用价值和发展前景。
对于空空导弹攻击区的解算这一复杂的工程问题,利用深度学习中的BP神经网络能够实现初始条件参数与对应的攻击区范围的精确拟合,从而达到实时性好、精确性高的要求。
2.1.1 BP神经网络结构特点
BP神经网络的结构包括一个输入层、一个或多个中间层(隐含层)和一个输出层。每层有一个或多个神经元,并通过权值和相邻层的神经元互相连接传递信息。BP神经网络结构如图1所示。
图1 BP神经网络结构
Fig.1 BP neural network structure
BP算法是一种适用于多层感知器的反向传播算法,在传统神经网络正向传播的基础上,增加了误差的反向传播过程[25]。反向传播过程根据误差值不断地调整神经元之间的权值和阈值,直到误差减小到设定的目标范围内,或达到设定的训练次数为止,误差是指网络实际输出值与期望输出值之间的差值。
BP神经网络解算导弹攻击区的原理就是通过非线性映射拟合复杂函数关系,得到以导弹发射初始条件参数为输入,以攻击区参数为输出的网络系统,并且和“黑盒”系统一样,不需要知道研究对象的内部结构和参数。
2.1.2 BP神经网络法建模流程
BP神经网络适合应用于存在大量样本可以学习,但难以用具体函数描述的非结构性问题。空空导弹攻击区的解算特点与非结构性问题非常相似,通过弹道解算获得的理论攻击区数据为神经网络提供了大量的学习样本。
在实际建模中,一般只考虑影响导弹攻击区参数的几个主要弹道初始参量,把导弹高度、目标高度、导弹速度、目标速度、弹道倾角、导弹离轴角和目标进入角设为7个自变量,把近边界和远边界设为七个自变量的非线性函数,得到他们之间的关系为[26]
(1)
构建BP神经网络基本步骤如下:
步骤1 确定网络层数。已知一个3层的具有非线性S函数的BP神经网络能逼近任意一个非线性连续函数,因此通常选择网络层数为3。
步骤2 确定每层神经元的个数。输入、输出层的神经元个数根据研究对象确定,输入层包括H、Hr、V、Vr、θ、q、qr共7个神经元,输出层包括Rmin、Rmax共2个神经元。而隐层神经元个数的选取没有统一的标准,可根据如下经验公式[27]进行选取。
(2)
步骤3 在MATLAB软件中建模。MATLAB软件中有专用的神经网络工具箱,非常方便进行神经网络的建模。首先,调用newff函数构建一个神经网络,其函数形式为
net=newff(input,output,m)
(3)
式(3)中:input表示输入数据矩阵;output表示输出数据矩阵;m表示隐层节点数。
完成以上3步后,BP神经网络就已经搭建完成,接下来就是网络训练和实际解算过程,通过将原始训练数据导入软件中,并进行归一化处理得到[0,1]之间的数。预处理目的是消除各变量数量级的差别,避免数量级差别过大造成网络预测误差过大[28]。常用的归一化方法主要有2种,最大最小法和平均数方差法,通常选用最大最小法,其计算公式为
(4)
式(4)中: xmin为数据序列中最小的数;xmax为序列中最大的数。
归一化处理后,设置网络参数,包括学习率、迭代次数和误差目标。参数配置完成后开始进行离线训练,直接调用MATLAB中的训练函数即可,具体形式为
net=train(net,inputn,outputn)
(5)
式(5)中:inputn为归一化后的输入变量;outputn为归一化后的输出变量。
完成训练后,得到的BP神经网络模型就可以对任意初始条件下的攻击区进行实时解算。
目前,国内外已开展了利用深度学习神经网络解算攻击区的研究,但是研究的内容和形式比较单一,优化工作还有待进一步开展。其中黄国强等[29]、王凯等[30]、曲晓燕等[31]采用纯BP神经网络对导弹攻击区进行了拟合,得到的结果与理论攻击区较为相近,但是BP算法还存在收敛速度与稳定性相矛盾的弊端。对此,张列航等[32]采用了附加动量项的BP算法对神经网络训练过程进行了改进,通过附加的动量项加快了收敛速度并保证算法的稳定性,得到的改进BP神经网络有效地提高了导弹的平均发射成功概率。并且研究发现,导弹攻击区对目标进入角非常敏感,对此查立宏等[33]、孟博[34]采用插值法与BP神经网络相结合的方法对攻击区进行求解,对目标进入角单独进行插值处理,既减少了神经网络的输入变量,又有效地避免了灵敏变量对拟合精度的影响。综合上述2种改进措施,王海涛等[35]将插值法和动量项一起运用到神经网络解算攻击区中,得到了一种附加动量项的BP插值解算法。
除了以上常见的2种改进方法,史振庆等[36]提出了一种基于灰狼优化算法的BP神经网络攻击区求解算法(GWO_BP)。该方法通过分析影响空空导弹攻击区的主要因素,确定BP神经网络的初始输入值,然后运用灰狼算法对网络的初始权值和阈值进行优化,这样搭建BP神经网络具有更快的收敛速度和更高的求解精度。周琳等[37]提出了一种基于交叉熵的BP神经网络解算法,通过建立两个串联的神经网络,第一个为预判神经网络,用交叉熵函数作为神经网络的误差函数来判断该条件下是否存在攻击区,对存在攻击区的情况,采用第二个BP神经网络并结合插值法来输出攻击区参数。该算法巧妙地将所有仿真初始条件分为了两类,对存在攻击区的条件单独进行训练拟合,大大提高了拟合精度,使神经网络应对特殊情况有更可靠的输出。
另外,胡东愿等[38-39]建立了一种降噪自编码神经网络(AE)模型,通过构建攻击包线样本库,并采用无监督学习提取样本初级特征,从而获取表征样本库非线性规律的高维特征量,然后再建立深度网络模型,采用监督学习提取高维特征量中的高级特征并进行拟合,最后通过仿真验证了该模型的拟合精度。逯宏亮等[40]研究了多层前馈网络和径向基函数网络在空空导弹攻击区解算中的运用,并通过仿真验证了算法的可行性。邵彦昊等[41]设计了一种基于深度学习网络的规避决策模型,通过蒙特卡罗仿真法建立了机动可逃逸数据库并对网络模型进行了学习,显著提高了在导弹不可逃逸攻击区内的逃逸成功概率。闫孟达等[42]提出了多函数深度拟合网络模型,以实现多种攻击区的同时解算,设计了“整体预训练+局部微调”训练策略,并对网络进行有监督训练,最后通过仿真验证了该模型的实时性和准确性。
综上所述,深度学习已经在空空导弹攻击区解算上得到了部分应用,尤其是BP神经网络以及一些基于BP算法的改进型神经网络通过数学仿真已经证明了具备实时性好、精确性高等优势。随着深度学习的进一步发展,各种新型的神经网络将会应用到攻击区的解算中。但是,基于深度学习的神经网络解算法依旧存在不可避免的弊端,那就是神经网络不具备自主决策能力,网络训练过程中的初始参数需要人工决策,而根据经验公式计算或者随机设置会对网络性能产生影响,训练完成后变成一个不可控的黑盒系统,在实际应用过程中无法对内部参数进行优化修正。
因此,神经网络解算系统的鲁棒性较差,应对一些恶劣情况或者系统存在规律性输出偏差时很难进行修正补偿。而随着未来战场环境的多样化发展和目标对象的升级,缺乏自主决策能力的神经网络系统很难对各种态势下的攻击区进行精确求解,这就需要结合强化学习的自主决策能力对解算策略进行进一步的改进优化,以适应未来战场环境的变化和作战能力的要求。
3.1.1 深度强化学习算法
强化学习(RL)是一种从环境状态映射到动作的学习,目标是使智能体在与环境的交互过程中获得最大的累积奖赏[43]。强化学习的基本过程是一个马尔科夫决策过程[44],通常用MDP进行建模以解决强化学习问题。MDP通常用一个四元组(S,A,R, f )来表示。这个四元组在马尔科夫决策过程扮演着重要的角色,每一个参量在实际问题中都具有现实意义,是强化学习过程中必不可少的成分。
RL过程可以描述为:智能体(Agent)在当前状态s下,依据某种策略选择一个动作a,然后执行该动作,环境被动作a作用后进入下一个状态s′,然后把一个奖赏信号r反馈给Agent,Agent再根据奖赏信号r选择后续动作,如此循环。强化学习基本框架如图2所示[45]。
图2 强化学习基本框架
Fig.2 The basic framework of reinforcement learning
图2中决策的主体称为Agent,Agent首先需要观测其所处的环境状态,并根据观测结果进行决策,采取相应动作。该动作一方面与环境直接发生交互,环境根据奖赏函数对Agent采取的动作进行奖励;另一方面会改变Agent的状态。进行一个循环后,Agent开始新一轮的观测,直到进入终止状态,完成一次迭代。此次迭代中的所有状态及其相应的动作会以状态-动作对的形式被Agent记录下来生成轨迹。与此同时,Agent会统计每一步获得的奖赏,得到此次迭代中的累计奖赏,将这些信息作为策略更新时的训练样本。Agent依据策略函数采取行动,Agent学习的目标就是优化这个策略函数。
为了解决更加复杂的算法问题,研究者们把神经网络的感知能力、函数逼近方法与强化学习的自主决策优化算法结合起来,就形成了深度强化学习(DRL)理论。DRL是深度学习和强化学习的有机结合体,能够实现从感知到动作的端对端的学习。深度强化学习原理框架如图3所示[46]。
图3 深度强化学习原理框架
Fig.3 Deep reinforcement learning principle framework
DRL主要包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习3类深度强化学习方法。不同类型的深度强化学习方法包含多种不同的算法,有些算法还存在一些改进型和衍生型的算法,深度强化学习的主要算法如图4所示[47]。
图4 深度强化学习的主要算法
Fig4 The main algorithms of deep reinforcement learning
图4中,各种算法的优化原理各有差异,所针对的优化对象也不同,其中DQN和DDPG两种算法在工程上分别针对离散性问题和连续性问题具有较好的适应性。
考虑使用BP神经网络进行攻击区拟合解算时,网络参数的设定具有一定随机性和技巧性,比如网络层数、隐含层神经元个数和迭代次数等,这些参数都没有确定的选择标准。由上述网络参数选取不当带来的解算误差还可以进行进一步优化,并且这些网络参数属于离散型变量,因此可以选择针对离散性问题的DQN算法。
除了以上网络参数外,还存在学习率这一重要的连续型参数变量,对于学习率的优化则需要采用针对连续性问题的DDPG算法进行自主寻优。另外,除了通过优化神经网络参数来提高攻击区解算精度外,还可以从攻击区参数出发,通过直接对攻击区参数进行补偿来逼近理论攻击区。考虑到空空导弹攻击区参数(远边界和近边界)为连续型变量,对其优化是属于连续性问题,也可采用DDPG算法实现攻击区参数的自主补偿。
通过对DRL算法以及基于DRL算法解算空空导弹攻击区策略可行性的分析可知,DQN、DDPG等深度强化学习算法有望成为未来解算空空导弹攻击区的新策略。
3.1.2 基于DQN算法的优化策略
DQN算法是一种基于值函数的深度强化学习算法,它主要用以解决离散性问题,通过深度神经网络与强化学习中传统的Q-learning算法结合形成。为缓解非线性网络表示值函数时出现的不稳定问题,DQN主要对传统的Q-learning算法作了3处改进,DNQ训练流程如图5所示[46]。
图5 DQN训练流程
Fig.5 The training flow of DQN
图5中,有一个回放记忆单元,是DQN算法的一大特色,也称为算法的缓存区。顾名思义该缓存区是用来存放Agent与环境交互过程中得到的转移样本。每次迭代产生的(st,at,rt,st+1)将存放在缓存区中,用于后续从中随机选取一些序列来进行学习,能够消除序列之间的相关性同时解决非静态分布问题。另外图5中还有2个网络,分别为当前值网络和目标值网络,它们结构是一样的,只是参数上有所不同。如果两者使用相同的网络参数,就会导致数据间存在一定的关联性,从而使得训练不稳定[48]。目标值网络的作用是打乱数据间的相关性。当前值网络使用的是最新的参数,而目标值网络则是迭代过程中多步之前的参数。当前值网络的输出用Q(s,a,θi)表示,用来对当前状态动作对的值函数进行评估。而目标值网络的输出用表示,算出目标值网络的Q值并根据奖赏函数更新当前值网络的参数θ。每经过一定次数的迭代,将当前值网络的参数θ复制给目标值网络,对目标值网络的参数进行一次更新。因此,引入目标值网络后,目标Q值在一段时间内保持不变,一定程度降低了当前Q值和目标Q值的相关性,提高了算法的稳定性。
选取空空导弹攻击区解算策略中的迭代次数作为优化对象,利用DQN算法对迭代次数进行优化。由于一开始进行网络训练时设置的迭代次数为定值,如果学习样本非常多,训练消耗时间过长,此时迭代次数应该适当地减小。在优化迭代次数的过程中,设置状态s为当前的平均发射成功概率则最优状态为状态空间S包含所有可能的平均发射成功概率,即动作a为迭代次数的增量Δn,为了使神经网络参数不至于变化太大,可限定动作为某一区间的整数;代价函数C则可以利用平均发射成功概率来表示:
(6)
式(6)中:M为参与神经网络训练的样本总数;Pi为每个训练样本得到的成功发射概率。
学习过程的目标是通过不断地减小代价函数来提高平均发射成功概率,即提高攻击区解算的精度。动作的选取依赖奖赏函数,为了使每一次的动作都能带来精度上的提升,设置奖赏函数为
(7)
每采取一个动作,即迭代次数加上一个增量,环境状态都会发生改变,即神经网络拟合的精度会随之改变。采取的动作越有效,根据奖赏函数获得的即时奖赏越大。在使累积奖赏最大化的过程中,攻击区的解算精度不断提高,平均发射成功概率越来越接近最佳状态值100%。
基于DQN算法的学习过程的具体实现步骤[49]如下所示:
1) 初始化缓存区R的容量为N;
2) 初始化行为值函数Q的权值为随机量θ;
3) 初始化目标行为值函数Q的权值θ-=θ;
4) 初始化状态s1={x1}并且预处理序列φ1=φ(s1);
5) 以概率ε选择一个随机动作at,否则选择动作为at=arg maxaQ(φ(st),a;θ);
6) 在模拟器中执行动作at并且观察奖赏值rt和想象xt+1;
7) 设置st+1=st,at,xt+1,预处理φt+1=φ(st+1);
8) 将转移样本(φt,at,rt, φt+1)储存到缓存区D中;
9) 从D中随机采样转移样本(φj,aj,rj, φj+1)的一小部分;
10) 设置
11) 用(yj-Q(φj,aj; θ))2上对网络参数θ执行一步梯度下降;
12) 每经过C步,重置Q=Q;
13) 重复步骤5)—步骤12)共T次;
14) 重复步骤4)—步骤13)共M次。
在上述学习完成后,原来的BP神经网络参数中的迭代次数将得到合理优化,利用优化后的迭代次数作为神经网络的初始参数对攻击区重新进行拟合解算,将能够提高攻击区的解算精度。
3.1.3 基于DDPG算法的优化策略
DDPG算法是一种基于策略梯度的深度强化学习算法,主要用于解决连续性问题。其基本思想是采用策略梯度的方法更新策略,同时结合值函数作为策略的评价手段。针对单纯的确定性策略无法探索环境,利用AC框架实现异策略学习,即行动策略与评估策略采用不同的策略方法。行动策略选择随机策略,目的是保证探索充足,而评估策略选择确定性策略,其可以通过梯度计算来实现累计奖赏的最大化[50]。基于AC框架的DDPG算法结构如图6所示[46]。
图6 基于AC框架的DDPG算法结构
Fig.6 DDPG algorithm structure based on AC framework
选取空空导弹攻击区解算策略中的攻击区参数作为优化对象,利用DDPG算法对攻击区参数进行优化。对于攻击区参数,DDPG算法的目标是通过大量的学习训练使攻击区参数在各种初始发射条件下能够根据经验策略自主地进行误差补偿,从而在整个攻击区解算过程中得到最逼近理论攻击区的实际攻击区参数。
在学习过程中,状态s和状态空间S以及代价函数C可参照之前的定义,动作a则为边界的增量ΔR,包括ΔRmin、ΔRmax,根据实际情况确定动作的集合。
在基于AC框架的DDPG算法中,通常用不同的函数来近似策略函数μ(s|θμ)和行为值函数Qπ(s,a|θQ)。其中策略函数μ(s|θμ)作为Actor来选择动作,而行为值函数Qπ(s,a|θQ)作为Critic来对策略函数及其动作进行评估,而二者均可根据Critic的输出来进行更新[51]。AC框架使Agent能够进行异策略学习,一边探索更多的环境状态,一边保持确定性策略的学习,从而使学习过程更容易收敛。其中,确定性策略的动作公式为
a=μ(s|θμ)
(8)
与随机策略不同,当θμ确定下来后,在状态为s时,动作a是唯一确定的。然后采用Q-learning方法在行为值函数评估过程中对策略函数进行评估。
另外,为了减小数据间的关联性,和DQN算法一样,DDPG算法也可以采用“经验回放”方法,将每次进行动作以后得到的状态动作序列(st,at,rt,st+1)保存到缓存区中,学习采用的训练样本则从这个缓存区中随机抽取。这样可以很大程度上减小样本数据间存在的关联,提高算法的稳定性。在训练过程中,用于更新网络的反馈由于复杂环境的影响具有很大的噪声,直接训练容易导致发散。因此,在DDPG学习训练过程中,可以采用目标网络方法,通过创建Actor和Critic网络的副本μ-(s|θμ-)和Q-(s,a|θQ-)来计算目标值,然后以τ的比例缓慢跟随原网络进行更新。通过创建副本得到的目标值会变得相对稳定,从而改善整个网络学习过程,提升网络学习的效果。基于此方法的网络参数更新过程为[49]
(9)
综上所述,DDPG算法在参数优化过程中的主要步骤为
1) 对Critic深度神经网络Q(s,a|θQ)的权重θQ和Actor深度神经网络μ(s|θμ)的权重θμ进行随机初始化;
2) 初始目标网络Q-与μ-的权重θQ-与θμ-;
3) 初始化经验回放的缓存区R;
4) 重复每一幕;
5) 初始化随机过程探索行动策略;
6) 初始观测得到状态s1;
7) 重复步骤8)—步骤16);
8) 根据当前的策略和随机探索选择动作
at=μ(st∣θμ)+Nt
9) 执行动作at得到奖励rt和新的状态st+1;
10) 将(st,at,rt,st+1)存储在缓存区R中;
11) 在R中随机选一组数量M的(si,ai,ri,si+1);
12) 设定yi=ri+γQ-(si+1,μθ-(si+1|θμ-)|θQ-);
13) 更新Critic的网络参数使得L最小,其中L的计算式为
14) 利用所选取样本的策略梯度更新Actor的网络参数
15) 更新目标网络:
16) 直到最大步数和最大幕数。
在上述学习完成后,由BP神经网络解算出的攻击区参数将会根据经验进行自主优化补偿,在原来的近边界和远边界的基础上加上一个补偿增量,并且补偿后得到的攻击区将更加逼近理论攻击区,解算误差将进一步缩小。
导弹攻击区解算策略的发展往往与载机和导弹自身的结构、性能、作战任务以及作战规模的发展有关。
在结构方面,载机和空空导弹的结构逐渐趋于“紧凑微型化”,这对机载火控计算机性能提出了更高的要求,制定攻击区解算策略需要从存储能力和计算能力方面进行考虑,尽可能消耗更小的存储量达到更高的计算精度。
在性能方面,由于弹内设备普遍采用小型化、集成化的方案,设备容错率会有所下降,其可靠性也需要进行考虑。特别是随着作战目标性能的升级,导弹性能也要随之进行升级,最典型的是应对大机动目标和高超声速飞行目标时,导弹在追击过程中需要拥有较高的机动性和速度。这些都对攻击区的计算产生了影响,为得到更高精度的攻击区,所建立的模型必须足够精确,同时模型的复杂度将增加。需要发展新的解算策略,使之能够实现复杂模型的快速求解。
在作战任务方面,随着现代化作战理论的完善,单一作战任务逐渐往多目标多任务方向发展。空空导弹不仅是夺取制空权的武器,还需要运用到海上航母机载作战等方面,不仅要用于空中打击,也要具备对舰对地的打击能力,因此作战环境更加复杂多变,会给攻击区的解算带来更大的误差。未来计算攻击区需要对实际空战环境进行更加精确地模拟,能够对环境和目标进行在线辨识,必要时需要解算方法能够针对突发情况进行自主决策优化补偿,进一步保证求解精度。
在作战规模方面,越来越多的角色参与到空战中,形成了一个有机作战群,用以满足包括预警、侦查、干扰、打击和加油等方面的战略需求。为了保障作战群体的安全,对导弹发射和攻击区范围提出了更高的要求。为了建立非对称作战优势,超远程精确打击成为一项关键技术,未来在空空导弹攻击区解算策略上会更多考虑超远程作战模式的特点。因此导弹发射后将会进行更长时间的制导控制,无疑将加大攻击区的运算量,需要考虑机载火控计算机的计算能力,采取运算量更小的解算策略以保证实时性要求。
通过对攻击区解算策略发展方向的分析可知,空空导弹在未来空战中的作用将会越来越大,执行的任务会越来越复合多样,作战环境会越来越复杂多变,导弹的结构性能将不断地适应未来智能化战争的需求。因此,机器学习等智能化技术的研究与应用将是未来空空导弹发展的迫切需求和重要方向[52],未来机器学习在空空导弹攻击区解算中的发展趋势和应用展望可能包括以下方面:
1) 智能化决策支持。机器学习技术将继续用于提供智能化的决策支持,帮助空空导弹实现更加智能化和自主化的目标识别、飞行路径规划以及攻击决策,以适应复杂多变的战场环境。
2) 强化学习应用。未来机器学习应用可能包括强化学习等技术,使得空空导弹具备更高的自适应性和智能化,通过与环境的交互不断优化决策策略,提高攻击效果和生存能力。
3) 大数据驱动的精准打击。结合大数据分析和机器学习技术,未来空空导弹系统有望实现更为精准的打击,通过对历史数据和实时信息的分析,实现对目标的更精准定位和攻击区计算。
4) 自适应控制系统。机器学习技术将被应用于开发自适应控制系统,使得空空导弹能够根据不同战场情况实时调整攻击区解算策略,提高作战灵活性和效果。
5) 仿真与训练。机器学习技术可用于空空导弹攻击区解算的仿真与训练,帮助优化导弹系统的设计和参数设置,提高实战适应性。
这些发展趋势和应用展望预示着机器学习技术将在空空导弹攻击区解算领域发挥越来越重要的作用,为导弹系统的性能和作战效果带来新的突破和提升。
利用DQN算法对迭代次数和利用DDPG算法对攻击参数的优化研究都是基于“最小化误差”原则。优化的基本思想都是:首先找准影响神经网络拟合解算精度的因素,并将其作为优化对象;其次对优化对象进行分析研究,判断研究对象的优化是属于离散性问题还是连续性问题;再次根据问题的属性和优化对象的特点选择合适的深度强化学习算法,定义学习过程中所用到的状态、动作和奖赏函数等的具体含义;最后依据算法的流程进行学习。
DQN算法可以通过增加迭代次数来不断更新神经网络的参数,从而提高系统对复杂环境下的决策能力。随着迭代次数的增加,DQN算法可以学习到更加精确和有效的决策过程,从而提高导弹攻击区的精度和鲁棒性。DDPG算法可以通过训练神经网络来寻找最佳的攻击参数设置,以达到最优的攻击效果。通过DDPG算法优化后的攻击参数能够适应不同的环境和目标特性,提高了导弹攻击的精度和成功率。
综合来看,在空空导弹攻击区解算中,利用DQN算法对迭代次数和利用DDPG算法对攻击参数的优化可以提高系统对复杂战场环境和不确定性因素的适应能力,从而改善导弹攻击的精度和有效性。
1) 与传统解算方法相比,BP神经网络拟合法具有更快的解算速度和更高的解算精度,因此其具有实时性好、准确性高的特点,但相对于理论计算法还存在不可避免的误差。
2) 空空导弹的发展迫切需要结合人工智能技术来提升攻击区解算策略的鲁棒性,从而提高导弹的综合作战性能。
3) 神经网络存在无法进行自主决策参数寻优的弊端,需要结合强化学习的自主决策能力进行优化。
4) 基于DQN算法的解算策略在处理离散型网络参数方面具备理论上的可行性,能够实现参数的自主决策优化。
5) 基于DDPG算法的解算策略在处理连续型网络参数方面具备理论上的可行性,能够实现参数的自主决策优化。
[1] 胡朝晖,李东文,汪浩生.通用空空导弹攻击区仿真研究[J].弹箭与制导学报,2002(3):18-23,27.HU Zhaohui,LI Dongwen,WANG Haosheng.Research on simulation attack area of general air-to-air missile[J].Journal of Projectiles,Rockets,Missiles and Guidance,2002(3):18-23,27.
[2] 张平,方洋旺,金冲,等.空空导弹攻击区实时解算的新方法[J].弹道学报,2010,22(4):11-14,18.ZHANG Ping,FANG Yangwang,JIN Chong,et al.A new method of real time calculation for attack area of air-to-air missile[J].Journal of Ballistics,2010,22(4):11-14,18.
[3] 刘代军,高晓光,李言俊,等.超视距空-空导弹允许攻击区快速模拟算法[J].战术导弹技术,1998(4):10-14.LIU Daijun,GAO Xiaoguang,LI Yanjun,et al.Calculation of allowable attack area for BVR air-to-air missile[J].Tactical Missile Technology,1998(4):10-14.
[4] 刘代军,高晓光,李言俊,等.中远程复合制导空空导弹允许攻击区计算[J].航空兵器,1998(2):1-5.LIU Daijun,GAO Xiaoguang,LI Yanjun,et al.Calculation of allowable attack area for mid-long range compound guided air-to-air missile[J].Aero Weaponry,1998(2):1-5.
[5] 刘代军,高晓光,李言俊,等.中远程空空导弹允许攻击区的快速模拟算法[J].西北工业大学学报,1999(4):530-533.LIU Daijun,GAO Xiaoguang,LI Yanjun,et al.A fast simulation algorithm for calculating the allowable attack area for air-to-air missiles[J].Journal of Northwestern Polytechnical University,1999(4):530-533.
[6] 胡朝晖,吕跃.空空反导对光电雷达作用域需求分析[J].兵器装备工程学报,2022,43(9):285-290.HU Zhaohui, LYU Yue.Demand analysis of airtoair antimissile on scope of electrooptic radar[J].Journal of Ordnance Equipment Engineering,2022,43(9):285-290.
[7] 吴胜亮,南英.空空导弹射后动态可攻击区计算[J].弹箭与制导学报,2013,33(5):49-54.WU Shengliang,NAN Ying.The calculation of dynamical attack zone of air-to-air missile after being launched[J].Journal of Projectiles,Rockets,Missiles and Guidance,2013,33(5):49-54.
[8] 王宏伦,张安,张海,等.空-空导弹攻击区的高精度快速拟合[J].航空学报,1997(5):121-122.WANG Honglun,ZHANG An,ZHANG Hai,Accurate and fast approximation of air-to-air missile launch envelopes[J].Acta Aeronautica et Astronautica Sinica,1997(5):121-122.
[9] 杜昌平,周德云,阳治平.基于遗传算法的空空导弹弹道拟合方法[J].西北工业大学学报,2003(2):172-175.DU Changping,ZHOU Deyun,YANG Zhiping.A method for approximating air-to-air missile trajectory based on genetic algorithm[J].Journal of Northwestern Polytechnical University,2003(2):172-175.
[10] 杜昌平,周德云,江爱伟.一种空空导弹可攻击区快速算法[J].西北工业大学学报,2006(6):682-685.DU Changping,ZHOU Deyun,JIANG Aiwei.A better method for computing air-to-air missile trajectory[J].Journal of Northwestern Polytechnical University,2006(6):682-685.
[11] 王宏伦,佟明安.空空导弹攻击区处理的拟合——插值法[J].火力与指挥控制,1998(4):3-5.WANG Honglun,TONG Mingan.A hybrid method of least square fit and interpolation used in the approximation of air-to-air missile launch envelopes[J].Fire Control &Command Control,1998(4):3-5.
[12] 方学毅,刘俊贤,周德云.基于背景插值的空空导弹攻击区在线模拟方法[J].系统工程与电子技术,2019,41(6):1286-1293.FANG Xueyi,LIU Junxian,ZHOU Deyun.Background interpolation for on-line simulation of capture zone of air-to-air missiles[J].Systems Engineering and Electronics,2019,41(6):1286-1293.
[13] 游航航,韩其松,杨海燕,等.中距空空导弹不可逃逸区工程应用解算方法[J].战术导弹技术,2020(2):15-21.YOU Hanghang,HAN Qisong,YANG Haiyan,et al.Engineering application calculation method of non-escape zone for medium range air-to-air missile[J].Tactical Missile Technology,2020(2):15-21.
[14] YOU Hanghang,HAN Qisong,YU Minjian,et al.A method to solve the unreachable zone of mid-range air-to-air missile[C]//Proceedings of 2019 IEEE 2nd International Conference on Electronic Information and Communication Technology.2019:649-654.
[15] 邓健,王星,曾艳丽,等.基于数据建模的空空导弹攻击区仿真[J].弹箭与制导学报,2016,36(4):33-35,74.DENG Jian,WANG Xing,ZENG Yanli,et al.Simulation of attack area for air-to-air missile based on data modeling[J].Journal of Projectiles,Rockets,Missiles and Guidance,2016,36(4):33-35,74.
[16] 李枭扬,周德云,冯琦,等.基于遗传规划的空空导弹攻击区拟合[J].弹箭与制导学报,2015,35(3):16-18,22.LI Xiaoyang,ZHOU Deyun,FENG Qi,et al.Air-to-air missile launch envelops fitting based on genetic programming[J].Journal of Projectiles,Rockets,Missiles and Guidance,2015,35(3):16-18,22.
[17] 王志刚,张宁,李伟.一种空空导弹攻击区的快速解算方法[J].固体火箭技术,2014,37(4):448-452.WANG Zhigang,ZHANG Ning,LI Wei.A fast solving method for attacking area of air-to-air missile[J].Journal of Solid Rocket Technology,2014,37(4):448-452.
[18] 陈星,王皖阳,陈凤云,等.基于目标机动预测的空空导弹战术攻击区仿真研究[J].电光与控制,2021,28(1):47-51,60.CHEN Xing,WANG Wanyang,CHEN Fengyun,et al.Simulation study on tactical attack area of air-to-air missile based on target maneuver prediction[J].Electronics Optics &Control,2021 28(1):47-51,60.
[19] 王昕,南英.一种考虑风场影响的导弹动态可攻击区智能计算方法[J].航天控制,2022,40(6):74-79.WANG Xin,NAN Ying.An Intelligent Calculation method of missile dynamic attack zone under consideration of the influence of wind field[J].Aerospace Control,2022,40(6):74-79.
[20] 惠耀洛,南英,陈哨东,等.空空导弹动态攻击区的高精度快速算法研究[J].弹道学报,2015,27(2):39-45.HUI Yaoluo,NAN Ying,CHEN Shaodong,et al.Research on rapid and high-precision calculation of dynamic attack zone for air-to-air missile[J].Journal of Ballistics,2015,27(2):39-45.
[21] 李爱国,何宗康,孟亚楠,等.双机空空导弹攻击区仿真研究[J].计算机仿真,2020,37(12):31-34,89.LI Aiguo,HE Zongkang,MENG Yanan,et al.Simulation research on air-to-air missile attack zone of two aircrafts[J].Computer Simulation,2020,37(12):31-34,89.
[22] LI AIGUO,YANG MEIMEI,MENG YANAN,et al.Simulation research on sec search algorithm for medium range air-to-air missile attack area[C]//Proceedings of 2019 11th International Conference on Intelligent Human-Machine Systems and Cybernetics.2019(2):280-283.
[23] ZHANG Q C,YANG L T,CHEN Z K,et al.A survey on deep learning for big data[J].Information Fusion.2018,42:146-157.
[24] LE C Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.
[25] 胡金滨,唐旭清.人工神经网络的BP算法及其应用[J].信息技术,2004(4):1-4.HU Jinbin,TANG Xuqing.BP algorithm of artificial neural network and its application[J].Information Technology,2004(4):1-4.
[26] 邹庆元,孙隆和,姜长生,等.BP神经网络在导弹攻击区处理中的应用探讨[J].航空兵器,2000(2):5-7.ZOU Qingyuan,SUN Longhe,JIANG Changsheng,et al.Application of BP neural network in missile attack area processing[J].Aero Weaponry,2000(2):5-7.
[27] 戚德虎,康继昌.BP神经网络的设计[J].计算机工程与设计,1998(2):47-49.QI Dehu,KANG Jichang.Design of BP neural network[J].Computer Engineering and Design,1998(2):47-49.
[28] 王小川,史峰,郁磊,等.MATLAB神经网络43个案例分析[M].北京:北京航空航天大学出版社,2013.WANG Xiaochuan,SHI Feng,YU Lei,et al.Analysis of 43 cases of MATLAB neural network[M].Beijing:Beijing University of Aeronautics and Astronautics Press,2013.
[29] 黄国强,南英,陈芳.基于BP神经网络的有控炸弹攻击区拟合分析[J].弹箭与制导学报,2009,29(3):217-220.HUANG Guoqiang,NAN Ying,CHEN Fang.Attack zone fitting and Matlab simulation of guided-bomb based on BP neural network[J].Journal of Projectiles,Rockets,Missiles and Guidance,2009,29(3):217-220.
[30] 王凯,李望西,轩永波.基于BP神经网络的空空导弹攻击区解算及其仿真[J].弹箭与制导学报,2010,30(1):75-77.WANG Kai,LI Wangxi,XUAN Yongbo.The solution and simulation of air-to-air missile launch envelopes based on bp neural network[J].Journal of Projectiles,Rockets,Missiles and Guidance,2010,30(1):75-77.
[31] 曲晓燕,张林,范庚.基于Matlab/Simulink的空空导弹攻击区仿真[J].弹箭与制导学报,2011,31(5):51-54.QU Xiaoyan,ZHANG Lin,FAN Geng.The simulation of attack area for air-to-air missile based on Matlab/Simulink[J].Journal of Projectiles,Rockets,Missiles and Guidance,2011,31(5):51-54.
[32] 张列航,雷蕾,李研生.BP神经网络导弹攻击区火控工作式拟合[J].火力与指挥控制,2011,36(12):177-179,183.ZHANG Liehang,LEI Lei,LI Yansheng.Fire control formula fitting of missile attack envelope based on bp neural network[J].Fire Control &Command Control,2011,36(12):177-179,183.
[33] 查立宏,章代雨,李胜林.基于BP神经网络的空空导弹攻击区精确拟合[J].制导与引信,2005,26(4):20-24.CHA Lihong,ZHANG Daiyu,LI Shenglin.Accuracy fitting of air to air missile impact area based on bp neural network[J].Guidance &Fuze,2005,26(4):20-24.
[34] 孟博.基于BP神经网络的空空导弹攻击大机动目标攻击区仿真研究[J].弹箭与制导学报,2017,37(4):43-46,50.MENG Bo.Research on launch envelopes simulation of air-to-air missile attacking high maneuvering targets based on bp neural network[J].Journal of Projectiles,Rockets,Missiles and Guidance,2017,37(4):43-46,50.
[35] 王海涛,佟惠军,王洋.基于改进的BP神经网络空空导弹攻击区解算方法[J].电子设计工程,2014,22(3):28-30,33.WANG Haitao,TONG Huijun,WANG Yang.The solution of air-to-air missile launch envelopes based on the improved BP neural network[J].Electronic Design Engineering,2014,22(3):28-30,33.
[36] 史振庆,梁晓龙,张佳强,等.基于GWO-BP神经网络的攻击区解算方法[J].飞行力学,2019,37(3):64-67,92.SHI Zhenqing,LIANG Xiaolong,ZHANG Jiaqiang,et al.Solution of attack zone based on GWO-BP neural network[J].Flight Dynamics,2019,37(3):64-67,92.
[37] 周琳,朱荣刚,韩云.基于交叉熵的BP神经网络空空导弹攻击区仿真研究[C]//第八届中国指挥控制大会论文集.北京:中国指挥与控制学会,2020:624-629.ZHOU Lin,ZHU Ronggang,HAN Yun.Research on air-to-air missile launch envelops with BP neural network based on cross entropy[C]//The 8th China Conference on Command and Control.Beijing:Chinese Institute of Command and Control,2020:624-629.
[38] 胡东愿,杨任农,闫孟达,等.基于自编码网络的导弹攻击区实时计算方法[J].航空学报,2020,41(4):231-247.HU Dongyuan,YANG Rennong,YAN Mengda,et al.Real-time calculation of missile launch envelope based on auto-encoder network[J].Acta Aeronautica et Astronautica Sinica,2020,41(4):231-247.
[39] 胡东愿,刘会亮,岳龙飞,等.导弹发射包线指数优化搜索仿真分析[J].宇航学报,2020,41(10):1350-1360.HU Dongyuan,LIU Huiliang,YUE Longfei,et al.Simulation analysis of missile launching envelope with exponential optimization search[J].Journal of Astronautics,2020,41(10):1350-1360.
[40] 逮宏亮,张艺瀚,李伟仁.基于RBF网络的导弹攻击区解算及对比分析[J].火力与指挥控制,2004(5):47-50.LU Hongliang,ZHANG Yihan,LI wei ren.Missiles launching envelops’ RBF networks processing method and analysis[J].Fire Control &Command Control,2004(5):47-50.
[41] 邵彦昊,朱荣刚,贺建良,等.基于深度学习的不可逃逸区内的规避决策研究[J].电光与控制,2019,26(11):60-64.SHAO Yanhao ZHU Ronggang HE Jianliang,et al.Evasive decision-making in inescapable areas based on deep learning[J].Electronics Optics &Control 2019 26(11):60-64.
[42] 闫孟达,杨任农,左家亮,等.基于深度学习的空空导弹多类攻击区实时解算[J].兵工学报,2020,41(12):2466-2477.YAN Mengda,YANG Rennong,ZUO Jialiang,et al.Real-time computing of air-to-air missile multiple capture zones based on deep learning[J].Acta Armamentarii,2020,41(12):2466-2477.
[43] 陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838,2844.CHEN Xuesong,YANG Yimin.Reinforcement learning:survey of recent work[J].Application Research of Computers,2010,27(8):2834-2838,2844.
[44] RICHARD S S,DOINA P,SATINDER S.Between MDPs and semi-MDPs:A framework for temporal abstraction in reinforcement learning[J].Artificial Intelligence,1999,112(1/2):181-211.
[45] 张汝波,顾国昌,张国印.强化学习系统的结构及算法[J].计算机科学,1999(10):53-56.ZHANG Rubo,GU Guochang,ZHANG Guoyin.The architectures and algorithm of reinforcement learning system[J].Computer Science,1999(10):53-56.
[46] 刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报,2018,41(1):1-27.LIU Quan,ZHAI Jianwei,ZHANG Zongchang,et al.A survey on deep reinforcement learning[J].Chinese Journal of Computers,2018,41(1):1-27.
[47] 赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6.ZHAO Xingyu,DING Shifei.Research on deep reinforcement learning[J].Computer Science,2018,45(7):1-6.
[48] NAVNEET D and BILL T.Histograms of oriented gradients for human detection[J].Computer Vision and Pattern Recognition,IEEE Computer Society Conference on,2005.
[49] 魏翼飞,汪昭颖,李骏.深度学习:从神经网络到深度强化学习的演进[M].北京:清华大学出版社,2021.WEI Yifei,WANG Zhaoying,LI Jun.Deep learning:Evolution from neural network to deep reinforcement learning[M].Beijing:Tsinghua University Press,2021.
[50] 温暖,刘正华,祝令谱,等.深度强化学习在变体飞行器自主外形优化中的应用[J].宇航学报,2017,38(11):1153-1159.WEN Nuan,LIU Zhenghua,ZHU Lingpu,et al.Deep reinforcement learning and its application on autonomous shape optimization for morphing aircrafts[J].Journal of Astronautics,2017,38(11):1153-1159.
[51] 刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438.LIU Jianwei,GAO Feng,LUO Xionglin.Survey of deep reinforcement learning based on value function and policy gradient[J].Chinese Journal of Computers,2019,42(6):1406-1438.
[52] 刘代军,王超磊.空空导弹智能化技术的发展与展望[J].航空兵器,2019,26(1):25-29.LIU Daijun,WANG Chaolei.Development and prospect of air-to-air missile intelligentization[J].Aero Weaponry,2019,26(1):25-29.