基于Q-learning的弹道优化研究

周毅昕1,程可涛1,柳立敏1,何贤军2,黄振贵2

(1.南京理工大学 钱学森学院,南京 210094;2.南京理工大学 瞬态物理国家重点实验室,南京 210094)

摘要:为提升弹道优化效率,缩短作战响应时间,提出了一种基于Q-learning算法的简控弹道优化方法。首先在竖直平面内以3自由度(DOF)只受重力和空气阻力的质点弹丸为研究对象,建立无控弹道方程组作为参考模型并用龙格库塔法求解。在此基础上分别以最远飞行距离和最大落点速度为目标,以加速度指令直接控制输出,建立有控弹道优化模型。在设定初速度与出射角的情况下,在弹丸的外弹道飞行过程利用Q-learning算法输出控制指令,通过强化学习迭代计算实现弹道优化目标。仿真模拟结果证明,在强化学习控制下的导弹射程比无控时明显增加,表明所提出的优化设计方法可有效优化弹道,且效率高。

关键词:弹道优化;强化学习;Q-learning算法;外弹道

1 引言

传统的弹道优化程序计算量大、计算时间过长、同时还要求较高的计算资源,倘若每一次都需要实弹打靶势必会耗费很多的人力、物力,且拉长研发周期。因此更加精准、更加便捷、更加快速的弹道优化过程亟待开发研究。

机器学习目前被广泛运用于各个领域,如聂凯等[1]根据深度强化学习的高效性提出了人工智能的军事应用前景,李先通等[2]用强化学习的方法建立了一种时空特征深度学习模型,实现了对下一时隙的路径行程时间进行预测,选择最优路径;赵绍东[3]提出基于机器学习的支持向量机机器学习的(SVM算法)模型进行建筑耗材降价分析与研究,得出建筑耗材价格选择的优化方案。张蕾等[4]围绕机器学习技术提出了面对海量数据效率更高的安全问题解决方案。最新更为高效精确的气体传感器[5],保证全局收敛和计算高效的梯度算法[6],都离不开机器学习的思想与帮助。机器学习[7]会不断扩充它的教学数据,使程序在学习的过程中逐渐变得更加“智能”,且机器学习的主要作用是预测,从而得到最优决策。

本文将机器学习中具有高效率、低损耗、高精确特点的强化学习与弹道优化问题相结合,提出了基于强化学习的弹道优化研究,以期将二者结合,改进现有弹道优化方法中存在的不足,推动我国弹道优化研究朝着智能化方向发展。

强化学习[8]在弹道优化中的作用与传统函数相比,其优点在于不需要建立弹道优化的数学模型,即传统弹道[9-15]优化过程中所需要的优化目标函数、约束函数、选取优化设计变量与关联方程都不需要在机器学习中建立,取而代之的是弹载计算机在不断的迭代学习过程中,调整导弹在飞行过程中不同状态下的指令控制,来达到最优目标的控制效果。

本文将弹道方程组与Q-learning算法相结合,研究基于Q-learning算法的机器学习在弹道优化上的应用,给出在Q-learning算法下弹道优化结果,并与参考模型的计算结果进行对比,以验证机器学习与弹道优化相结合的可行性。

2 弹道模型建立与求解

2.1 无控弹道方程组

为了构建标准条件下的质点弹道基本方程,计算中采取了以下假设:

1) 在导弹飞行的任何阶段,导弹攻角均为0;

2) 不考虑风速等其他因素的影响,导弹仅受重力和阻力影响;

3) 假设地面为无限扩展的水平面,不考虑地球表面曲率影响;

4) 忽略科氏惯性力;

5) 导弹结构视为一个质点,仅在3个方向上的平动,不存在转动。

结合以上假设,从最简单的弹道方程组模型入手,建立了炮弹在3DOF(自由度)的只受重力和阻力的外弹道方程组作为参考模型,模型具体如下所示:

(1)

式中:Rx为炮弹飞行过程中受到的阻力;m为炮弹质量;为炮弹在大气中飞行时沿速度方向的加速度变量;为炮弹竖直飞行速度变量;为炮弹水平飞行速度变量;ρ为炮弹飞行时空气密度;Sm为炮弹最大横截面积;C为阻力系数;v为炮弹的飞行速度;θ为炮弹飞行速度与水平轴的夹角。

2.2 弹道优化方法

传统的弹道优化方法主要有利用高斯伪谱法[9-11]将弹道最优控制问题转化为非线性规划问题,进而用SQP算法求解弹道优化设计问题;或者利用hp自适应伪谱法[12-13]进行离线弹道优化,得到多条最优弹道控制数据后训练BP神经网络,得到神经网络制导控制器;或对导弹优化计划建立相应模型,采用分段优化全程弹道的方法[14-15]

四阶龙格库塔法的截断误差、时间复杂度和空间复杂度都很好,常使用于工程上求解常微分方程的问题。因此本文选择龙格库塔法对弹道方程组求解。

3 强化学习及Q-learning算法

3.1 强化学习

强化学习是机器学习中的一个分支领域,在强化学习中,智能体通过不断“试错”的方式进行学习,在智能体与环境的不断交互下,获得奖赏,并在价值策略的驱动下朝着最大化累计奖励的方向迭代优化,从而不断提高智能体自身的决策能力。首先环境会给智能体一个观测值(状态),智能体在接收到环境给的观测值之后,在价值策略的引导下进行决策并做出动作,与智能体进行交互的环境在动作的作用下发生变化,即从状态A转移到状态B,并向智能体返回状态B以及相应的奖励值。智能体会根据环境给予的奖励更新自己的策略,从而实现在探索环境的同时,更新自己的动作策略,进而优化自身的决策能力。本文选取强化学习中较为基础典型的Q-learning算法进行研究。

3.2 Q-learning算法介绍

Q-learning算法是强化学习算法中价值本位(value-based)的算法。Q代表s和a的价值函数Q(s,a),即在某一时刻的状态(state)下,采取某一动作(action)能够得到的奖赏的期望。Q-learning算法的思想核心就是将某一时刻的状态和动作以及其能够得到的奖赏期望构建成为一张Q表来储存Q值。Q值如表1所示,a表示智能体可选择的动作,s表示智能体所处的状态,奖赏值为在该状态做出该动作时,环境所反馈的回报(reward)的估计值。例如,Q(s1,a1)= -1代表智能体在s1状态下做出a1动作,可获得的奖赏值为-1。

表1 Q值

Table 1 Q table

奖赏a1a2s1-12s2-24

3.3 Q表更新方法

Q表的更新以时间差分法的方式进行,其具体公式如下:

Q(s,a)←Q(s,a)+α[R+γmaxaQ(s′,a′)-Q(s,a)]

(2)

其中: γ为奖励性衰变系数(衰减因子),α为控制收敛的学习率。当0<α<1时,通过不断地尝试搜索空间,Q值会逐步地趋近最佳值。γ决定时间的远近对回报的影响程度,表示牺牲当前收益,换取长远收益的程度。

在下一个状态s′中选取最大的Q(s′,a′)值乘以奖励性衰变系数γ再加上真实回报值R作为Q的现实值,而把过往Q表里的Q(s,a)作为Q的估计值。以表1为例,具体实现步骤如下:

(3)

式中:QrQ的现实值;QgQ的估计值;Δ为现实值与估计值的差值。

具体实现代码如下[1]:

1) 构建并初始化Q表;

2) 初始化导弹运动状态参数 ;

3) 根据导弹状态基于策略选择动作;

4) 根据动作更新状态信息与反馈奖励;

5) 根据新的动作得到的反馈更新Q表;

6) 进入下一个状态,判断是否完成训练轮次;

7) 重复步骤2~6直到回合结束;

Q(s1)的估计不仅仅只有s2这个状态,按照同样的规则持续展开,可以发现,其与后续s3s4,…都有关系,这些都能够用来估计实际Q值,当衰减因子γ按以下3种情况取值,分别为:

Q(s1)=R2+γQ(s2)=R2+γ*[R3+γQ(s3)]=

R2+γ*[R3+γ[R4+γQ(s4)]]Q(s1)=

R2+γ*R3+γ2*R4+γ3*R5+γ4*R6+…

(4)

γ为1 时,相当于完全考虑未来的奖励,没有忽略,即:

Q(s1)=R2+1*R3+1*R4+1*R5+1*R6+…

(5)

γ在(0~1)范围内时,数值越大,对未来情况的重视程度越大,可以说智能体越有远见,即:

Q(s1)=R2+γ*R3+γ2*R4+γ3*R5+γ4*R6+…

(6)

γ为0时,完全不考虑将来的情况,只有当前的回报值,即:

Q(s1)=R2

(7)

3.4 基于Q-learning算法的简控弹道方程组

在对炮弹进行控制优化时,强化学习算法将弹载计算机作为智能体,将飞行过程中的炮弹的姿态、运动等外界信息视为环境,并以炮弹的飞行速度方向与水平方向间的夹角(弹道倾角)作为状态,智能体(弹载计算机)的动作为给炮弹施加垂直于速度方向的加速度,以此不断改变炮弹的飞行轨迹。

因此,基于Q-learning算法的简控弹道方程组可在参考弹道方程组的基础上得到,具体如下:

(8)

其中:a为智能体作用的加速度;其余变量与式(1)中相同。

4 仿真校验

假定空气密度为1.206 kg/m3,炮弹最大横截面积为0.018 86 m2,阻力系数[16]为0.25;炮弹质量为30 kg,直径为155 mm,出膛速度是800 m/s。

当出射角为45°时,基于Matlab采用四阶龙格库塔法对参考模型进行求解,可得到炮弹无控飞行轨迹如图1,射程是14 532.84 m,后文将通过与优化后射程进行对比验证Q-learning算法在弹道优化上的可行性:

图1 炮弹无控飞行轨迹曲线

Fig.1 The relationship between missile flight distance and time under uncontrolled condition

以最远距离为目标进行优化时,在30°、35°、40°、45°、50°、55°、60°初始弹道倾角进行3DOF弹道控制,其他初始参数与无控状态一致,测量无控情况下和在Q-learning模型中给法向过载进行控制的距离进行仿真,其中Q-learning算法的学习效率为0.05,贪婪度为0.8,奖励折扣为0.99,状态选择为速度与水平面间的夹角,动作为作用于垂直速度方向向上或向下,大小为5 m/s2的加速度,优化结果如表2所示。

表2 以最远距离为目标的优化与无控弹道的结果

Table 2 Comparison of the results of optimization with the longest distance as the goal and uncontrolled trajectory

初始弹道倾角x/mxm/m30°15 02615 674.2535°15 15215 618.8240°14 97815 533.7845°14 53315 673.9750°13 83515 187.4955°12 88714 528.9960°11 69813 991.63

x为炮弹在无控情况下落点处的距离;xm为Q-learning算法中有控(存在法向过载)情况下的落点距离。由表可知,针对不同的初始弹道倾角,Q-learning算法均能不同程度的提升炮弹的射程,可知Q-learning强化学习算法在以最远距离作为优化目标时具有较好的优化作用。

在有阻力情况下,当初始倾角为30°时以最远飞行距离为目标时,进行了1 000次Q-learning强化学习训练后的机器控制结果如图2所示。

图2 最远距离控制结果曲线

Fig.2 The control results based on the maximum range

图2中,横坐标x为炮弹的水平飞行距离,纵坐标y为导弹的飞行高度。炮弹从膛内以一定的初速度斜向射出去,可以看作水平方向上受外界阻力的直线运动和竖直方向上受重力的上抛运动的合成运动。由图2可知,与无控情况下进行对比,经过Q-learning强化学习训练后的最远飞行距离为15 674.25 m,大于无控状态下的最远飞行距离15 026 m,增加了4.3%。

图3表示了该次飞行过程中智能体进行1 000次强化学习过程中对炮弹做出的控制动作过程。图中以加速度a的离散数据a_mean作为纵坐标,以时间为横坐标。加速度为智能体每一次采取动作直接产生控制后炮弹的过载,加速度的波动曲线是在+5和0的离散动作区间内智能体所采取的动作集合。通过实时产生加速度指令,实现控制弹体姿态,进而控制弹道轨迹。

图3 飞行过程中的控制结果曲线

Fig.3 The control result during flight

以最大落点速度为目标进行优化时,同样在30°、35°、40°、45°、50°、55°、60°初始弹道倾角进行3DOF弹道优化控制,仿真计算无控情况下和在Q-learning算法中控制法向过载的最大落点速度,优化结果如表3所示。

表3 以最大落点速度为目标的优化与无控弹道的结果

Table 3 Comparison of optimization and uncontrolled trajectory results with the goal of maximum impact velocity

初始倾角v/(m·s-1)vm/(m·s-1)30°251.9264.4035°257.9268.0040°264.5271.5445°271.1279.1050°282.4281.7155°282.4287.1160°286.7290.06

如表3所示,v表示炮弹在无控情况下落点处的速度;vm表示在Q-learning模型中给法向过载的情况下的落点处的速度。由表3可以看出,优化后的炮弹落点速度均大于无控条件下的炮弹速度。

当初始倾角为30°时,以最大落点速度为目标,进行1 000次Q-learning强化学习后控制结果如图4所示。

图4 最大落点速度控制结果曲线

Fig.4 Maximum landing speed control result

其中横坐标x为炮弹飞行的水平距离,纵坐标v为炮弹的落点速度,由图4可以看出在炮弹抵达最高点前,由于空气阻力的存在炮弹的速度有减小的趋势,在开始下落后炮弹速度开始增大,图4曲线可以看出在速度降到最低(即飞行过程达到最高点)后有上扬的趋势。通过分析比较发现,经过优化学习后的最终落点速度大于无控状态下的落点速度。

初始倾角为30°的优化过程如图5所示,以加速度a的离散数据a_mean作为纵坐标,以控制时间作为横坐标,其加速度曲线波动原理与图3一致。

图5 飞行过程中的控制结果曲线

Fig.5 The control result during flight

5 结论

提出了一种基于强化学习中Q-learning算法的制导炮弹简控弹道优化控制方法,该方法效率高,能有效提升射程,具有通用性。以最远射程和最大落点速度为目标时,智能体经过学习后对弹道的优化控制能满足预期要求,能够通过Q-learning算法进行弹道优化。初步证实了机器学习在弹道优化上的可行性,为后期进一步探索打下基础。

对于不同的优化目标,该优化方法只需改变Q-learning算法中的环境约束条件,就能得到对应的弹道优化控制结果。

参考文献:

[1] 聂凯,曾科军,孟庆海,等.人机对抗智能技术最新进展及军事应用[J].兵器装备工程学报,2021,42(06):6-11,26.

Nie K,Zeng K J,Meng Q H,et al.Recent advances in intelligent technologies of human computer gaming and its military applications[J].Journal of Ordnance Equipment Engineering,2021,42(06):6- 11,26.

[2] 李先通,全威,王华,等.基于时空特征深度学习模型的路径行程时间预测[J/OL].吉林大学学报(工):1-8[2021-03-07].

Li X T,Quan W,Wang H,et al.Path travel time prediction based on spatiotemporal feature deep learning model[J/OL].Journal of Jilin University(Engineering),:1-8[2021-03-07].

[3] 赵绍东.基于机器学习的建筑能耗SVM模型降阶分析与研究[J].天津科技大学学报,2021,36(01):56 -61.

Zhao S D.Analysis and Research on SVM model reduction of building energy consumption based on machine learning[J].Journal of Tianjin University of science and technology,2021,36(01):56-61.

[4] 张蕾,崔勇,刘静,等.机器学习在网络空间安全研究中的应用[J].计算机学报,2018,41(09):1943-1975.

Zhang L,Cui Y,Liu J,et al.Application of machine learning in cyberspace security research[J].Journal of Computer,2018,41(09):1943-1975.

[5] 刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报.2018,41(01):1-27.

Liu Q,Zhai J W,Zhang Z C,et al.A review of deep reinforcement learning[J].Journal of Computer Science.2018,41(01):1-27.

[6] 周志华.机器学习[M].北京:清华大学出版社.2016.

Zhou Z H.Machine learning[M].Beijing:Tsinghua University Press.2016.

[7] Yaqoob U,Younis M I.Chemical gas sensors:Recent developments,challenges,and the potential of machine learning-a review[J].Sensors(Basel,Switzerland),2021,21(8):2877.

[8] Ye J J,Xu W J.Research on Machine Learning Algorithm Based on Contour Matching Modal Matrix[J].Journal of Physics:Conference Series,2021,1883:012006.

[9] 杨光宇,陈国光,王捷,等.基于PSO-SQP算法的空地导弹弹道优化[J].兵器装备工程学报,2021,42(05):153-157.

Yang G Y,Cheng G G,Wang J,et al.Trajectory optimization of air to ground missile based on pso-sqp algorithm[J].Journal of Ordnance and Equipment Engineering,2021,42(05):153-157.

[10] 何颖,杨新民,戴明祥,等.基于高斯伪谱法的钻地炸弹非线性最优弹道设计[J].弹箭与制导学报,2016,36(04):75-79.

He Y,Yang X M,Dai M X,et al Nonlinear optimal trajectory design of ground penetrating bomb based on Gaussian pseudospectral method[J].Journal of Missile and Guidance,2016,36(04):75-79.

[11] 陈琦,王中原,常思江.基于Gauss伪谱法的滑翔弹道快速优化[J].弹道学报,2014,26(02):17-21,28.

Chen Q,Wang Z Y,Chang S J.Fast optimization of glide trajectory based on Gauss pseudospectral method[J].Journal of Ballistics,2014,26(02):17-21,28.

[12] 王佳,曾庆华.基于伪谱法的神经网络制导控制器设计[J].兵器装备工程学报,2020,41(08):77-83.

Wang J,Zeng Q H.Design of Neural Network Guidance Controller Based on Pseudospectral Method[J]Journal of Ordnance Equipment Engineering,2020,41(08):77-83.

[13] 明超,孙瑞胜,白宏阳,等.基于HP自适应伪谱法的多脉冲导弹弹道优化设计[J].固体火箭技术,2015,38(02):151-155.

Ming C,Sun R S,Bai H Y,et al.Trajectory optimization design of multi pulse missile based on HP adaptive pseudospectral method[J].Solid Rocket Technology,2015,38(02):151-155.

[14] 曹红锦,葛致磊.滑翔增程弹弹道优化设计研究[J].四川兵工学报,2013,34(11):8-10+40.

Cao H J,Ge Z L.Study on trajectory optimization design of gliding extended range projectile[J].Journal of Sichuan Ordnance Industry,2013,34(11):8-10+40.

[15] 孔维杰.弹道-滑翔导弹无动力段弹道优化研究[D].长沙:国防科学技术大学,2016.

Kong W J.Trajectory optimization of ballistic glide missile in unpowered phase[D].University of Defense Science and Technology,2016.

[16] 钱杏芳,林瑞雄,赵亚男.导弹飞行力学[M].北京:北京理工大学出版社,2008.

Qian X F,Lin R X,Zhao Y N.Missile flight mechanics[M].Beijing:Beijing University of Technology Press,2008.

Research on trajectory optimization based on Q-learning

ZHOU Yixin1, CHENG Ketao1, LIU Limin1, HE Xianjun2, HUANG Zhengui2

(1.TSIEN HUSE-SHEN College, Nanjing University of Science and Technology, Nanjing 210094, China;2.National Key Laboratory of Transient Physics, Nanjing University of Science and Technology, Nanjing 210094, China)

Abstract: In order to improve the efficiency of ballistic optimization and shorten the combat response time, a simple control ballistic optimization method based on the Q-learning algorithm was proposed. In the vertical plane, the 3 degrees of freedom (DOF) particle projectile subject to gravity and air drag was used as the research object, and the uncontrolled ballistic equations were established as a reference model and solved by Runge-Kutta method. On this basis, the longest flight range and the maximum landing speed were introduced as a target, and the acceleration command was used as the direct control output, and a controlled trajectory optimization model was established. In the case of setting the initial velocity and the exit angle, the Q-Learning algorithm was used to output control instructions during the outer ballistic flight of the projectile, and the ballistic optimization goal was achieved through the iterative calculation of reinforcement learning. The simulation results show that the missile range under the reinforcement learning control was significantly increased than that under the uncontrolled one, which shows that the proposed optimization design method can effectively optimize the trajectory with high efficiency.

Key words:trajectory optimization; reinforcement learning; Q-Learning algorithm; external ballistics

本文引用格式:周毅昕,程可涛,柳立敏,等.基于Q-learning的弹道优化研究[J].兵器装备工程学报,2022,43(05):191-196.

收稿日期:2021-07-15;修回日期: 2021-08-26

基金项目:南京理工大学本科生科研训练“百千万”计划项目(201810288058)

作者简介:周毅昕(2000—),男,E-mail:1508673464@qq.com。

通信作者:黄振贵(1986—),男,博士,副研究员,E-mail:hzgkeylab@njust.edu.cn。

doi: 10.11809/bqzbgcxb2022.05.031

Citation format:ZHOU Yixin, CHENG Ketao, LIU Limin, et al.Research on trajectory optimization based on Q-learning[J].Journal of Ordnance Equipment Engineering,2022,43(05):191-196.

中图分类号:TJ714

文献标识码:A

文章编号:2096-2304(2022)05-0191-06

科学编辑 付强 博士责任编辑 何杰玲