变体飞行器先进制导与控制技术专栏

基于机器学习的巡飞弹气动优化与制导一体化设计

吴明雨1,何贤军1,郑 纯1,陈志华2

(1.南京理工大学 能源与动力工程学院, 南京 210094; 2.南京理工大学 瞬态物理重点实验室, 南京 210094)

摘要:针对巡飞弹末制导过程,提出了一种基于机器学习的气动优化与制导一体化设计方法。该方法首先以巡飞弹机翼为自由变形对象建立了基于全连接神经网络的气动参数代理模型,结合该模型提出了物理参数优化神经网络进行气动寻优,以此构建了在线气动优化模型;其次,耦合该优化模型和巡飞弹飞行动力学方程组,搭建了强化学习的制导环境,利用深度Q网络强化学习算法设计了智能制导律,实现了气动优化与制导一体化设计。通过打击地面静止目标的仿真实验,与无气动优化的制导律相比,表明:在线气动优化可使得巡飞弹以最优升阻比飞行,缩短了制导时间,节约燃料;一体化模型仅利用弹目视线角速率信息,可产生较连续的攻角制导指令,提高了制导精度。

关键词:气动优化;制导律;代理模型;一体化设计;机器学习;深度Q网络

0 引言

随着计算机技术和人工智能的高速发展,无人飞行武器系统的智能化成为其未来发展的重要方向[1-3]。一方面,根据飞行器当前的飞行条件实时确定最优气动外形使其以最优升阻比飞行,提升飞行能力,节约燃料[4-5];另一方面,为飞行器设计智能制导律可以赋予其自主决策能力,大大提升其对复杂战场形势的适应能力与精确打击能力[6-9]。研究基于机器学习的飞行器气动优化与制导一体化设计方法成为发展智能飞行器的必然要求。基于代理模型的气动优化在过去十几年内持续发展,有效缩短了气动外形优化设计的周期,降低了设计成本[10-12];传统制导律则大多基于数学建模和控制理论进行设计[13-14],虽能满足打击目的,但面对日益复杂多变的战场环境,其亟待进一步提高自主决策能力与精度。

近来,基于机器学习的气动外形优化与制导律设计逐渐崭露头角。为进一步提升气动外形优化效率与制导精度,本文中基于机器学习领域的深度学习和强化学习技术开展了飞行器气动优化与制导一体化研究,为无人飞行器智能飞行与作战提供基础方法与技术支撑。

1 巡飞弹模型与数值计算

巡飞弹模型参考Tomahawk巡飞弹的气动布局[15],不同之处在于:选用ONERA M6机翼作为巡飞弹的弹翼,弹头设置为半球形。巡飞弹几何参数尺寸如表1所示。其中D表示机翼弦长,其值为1 m。根据表1中的参数建立的巡飞弹几何模型俯视图如图1所示。图1中标注了全尺寸模型的几何尺寸。

图1 巡飞弹几何尺寸(俯视图)

Fig.1 The geometry of the cruise missile (top view)

表1 巡飞弹尺寸参数

Table 1 Dimensional parameters of the cruise missile

参数值参数值弹长5.56D机翼前缘后掠角30°弹身直径0.52D机翼翼根距弹顶距离2.64D机翼弦长1.00D尾翼翼梢长度0.50D机翼展长2.47D尾翼翼根长度0.75D尾翼展长0.525D尾翼厚度0.08D

考虑到巡飞弹关于弹体纵向对称面对称,因此采用巡飞弹对称面模型进行CFD气动系数模拟,从而在不影响计算结果的前提下缩短计算时间。巡飞弹计算域采用如图2所示的长方形计算域,以巡飞弹弹头顶点为流场坐标系原点,以弹头至弹尾的弹体纵轴方向为x轴,以垂直机翼翼面向上方向为y轴,z轴根据由右手系决定。计算域的长宽高分别为70D、20D、40D,且巡飞弹的头部顶点距离入口边界为20D。来流条件为亚音速无粘流动,因此巡飞弹对称面模型整体设置为欧拉壁面;由于只利用对称面模型进行CFD数值模拟,所以机翼右侧的壁面为对称边界条件;其他均为远场边界条件。此外,入口处的来流速度在竖直方向均匀分布。

图2 巡飞弹计算域

Fig.2 Computational domain of the cruise missile

数值计算过程采用斯坦福大学开发的开源CFD代码SU2程序求解欧拉方程实现。为了便于使用SU2程序,利用与之有良好网格接口的Pointwise软件生成.su2格式网格,网格总数为 654 136。如图3(a)所示,由于机翼表面附近的流动对于计算结果影响较大,因此对巡飞弹周围网格进行加密。此外机翼为升力主要来源,因此机翼部分的网格也进行了加密处理,加密后的网格如图3(b)所示。

图3 巡飞弹网格

Fig.3 The grid of the cruise missile

2 气动优化与制导一体化模型

基于机器学习的巡飞弹气动优化与制导一体化框架主要包含4个部分:基于全连接神经网络的巡飞弹气动系数代理模型、物理参数优化神经网络、巡飞弹与目标相对运动环境模型、深度Q网络(deep Q-network,DQN)算法框架。图4给出了巡飞弹气动优化与制导一体化的整体框架,其基本流程如下:首先,初始化巡飞弹与目标的运动参数,如巡飞弹自身参数(质量、弹径、转动惯量、特征面积等)、弹目位置,巡飞弹以及目标的弹道倾角、攻角。随后根据弹目相对运动模型进行迭代更新弹目运动参数,在此过程中需根据巡飞弹飞行速度和攻角调用物理参数优化神经网络,从而给出优化后的气动外形以及升阻力系数,用于下一个时间步的巡飞弹姿态更新和弹目相对运动。我们选择攻角作为改变巡飞弹姿态的动作指令,同时作为DQN算法的动作空间,并利用视线角速率和脱靶量构造奖励函数,使巡飞弹按照类似于平行接近法的原理攻击目标。

图4 基于机器学习的巡飞弹气动优化与制导一体化框架

Fig.4 Machine learning-based integrated framework for aerodynamic optimization and guidance of the cruise missile

2.1 气动参数代理模型

在亚音速无粘流动条件下,巡飞弹的气动系数主要与飞行速度、攻角、侧滑角以及机翼气动外形紧密相关,考虑到气动参数预测模型是服务于后续的智能制导律设计,为了简化研究,只研究巡飞弹纵向运动过程,因此在建立预测网络模型以及准备数据时不考虑侧滑角,仅使用飞行速度、攻角、机翼外形对气动系数进行建模。其中机翼外形参数化方法采用自由变形技术(free-form deformation,FFD)进行参数化。

如图5所示,黑色矩形框即为FFD控制体,其中,为了保持与巡飞弹弹身连接处的机翼网格不发生畸变以及机翼前后缘不变,我们保持前后缘以及与巡飞弹弹身连接处的控制点控制参数为零。图5中,机翼表面的黑色点为固定点,机翼表面的红色点为活动控制点,上下表面各分布12个。另外,为了保持机翼厚度不变,上下表面控制点参数保持相等,因此实际控制机翼变形的参数为12个。

图5 巡飞弹机翼的控制点

Fig.5 Control point of the cruise missile’s wing

巡飞弹气动系数预测模型的网络结构采用全连接神经网络,由4个全连接层组成。网络输入为马赫数、攻角、几何参数,输出为相应工况下巡飞弹的升阻力系数。由上述分析可知,几何参数尺寸为12,因此,网络输入尺寸为14×1,输出尺寸为2×1。巡飞弹预测网络结构的模型参数如表2所示。实际上,巡飞弹气动预测模型的泛函形式可表达如下

(CL,Cd)=f(Ma,AoA,Ck; W,b)

(1)

表2 巡飞弹气动系数预测网络模型参数

Table 2 Network model for predicting aerodynamic coefficients of the cruise missile

参数神经元维度激活函数输入—14×1—全连接层1512512×1ReLU全连接层1128128×1ReLU全连接层13232×1ReLU输出22×1—

式中:CLCd为升阻力系数;Ma为马赫数;AoA为攻角;CkFFD设计变量;Wb为巡飞弹气动系数预测网络的权重和偏差参数矩阵。

基于神经网络的巡飞弹气动系数建模实质上是一种数据驱动降维方法,即采用监督学习训练方法在大量的有标签数据上,利用优化器最小化网络预测气动系数和真实气动系数之间的均方误差,不断迭代更新网络参数,以逼近马赫数、攻角、设计变量与气动系数之间潜在的非线性映射。因此,训练巡飞弹气动系数预测网络,准备数据集是前期准备的关键环节。首先采用拉丁超立方采样方法对马赫数、攻角、设计变量分别在[0.5,0.74]Ma、[0°,18°]、[-1×10-4,1×10-4]范围内进行分层抽样,获得3 000组数据。然后,使用相应的设计变量对巡飞弹的ONERA M6机翼部分进行FFD变形,生成3 000个巡飞弹气动外形,利用Python脚本自动调用SU2程序进行亚音速巡飞弹无粘流动的CFD模拟,计算过程中保存气动系数。将每个案例的马赫数、攻角、设计变量和气动系数组合成一对数据集,共计3 000对数据集。为了高效训练神经网络,对数据进行最大-最小归一化:

(2)

式中:xi为原始数据;xminxmax分别是最小值和最大值;xnorm_i为归一化后的值,其值在[0,1]范围内。

最后,将这些数据按7∶2∶1的比例分成训练集、验证集和测试集。训练方法参照文献[10]进行。图6给出了巡飞弹气动系数预测网络的训练曲线,可见其经过10 000步迭代后,训练精度和验证精度收敛到了99%左右。

图6 巡飞弹气动系数预测网络训练精度

Fig.6 Training accuracy of network model for predicting aerodynamic coefficients of the cruise missile

2.2 物理参数优化神经网络

如图7,利用全连接神经网络构建了物理参数优化神经网络,目的是优化给定飞行马赫数和攻角下的机翼几何构型,在本文中即优化12个FFD设计变量。输入层包含12个神经元,其值为1~12的固定值,代表12个设计变量的索引;隐藏层包含两层,均具有128个神经元,激活函数为线性整流函数(rectified linear unit,ReLU);输出层为12个神经元,激活函数为Sigmoid函数,其值代表归一化后的12个设计变量。物理参数优化神经网络可看作:

(C1,C2,…,C12)=h(1,2,…,12)

(3)

图7 物理参数优化神经网络结构

Fig.7 Architecture of physical parameter’s optimization network

式中:h表示网络本身目的是找到一组最优的权重和偏差组合来表示给定马赫数和攻角下的最优的设计变量,使得升阻比最大。随机初始化物理参数优化网络的参数,然后将其输出作为2.1节中的巡飞弹气动系数预测网络的输入,预测出巡飞弹气动系数,计算巡飞弹升阻比。为使升阻比最大,将损失函数定义为

L=Cd/CL

(4)

此过程中,巡飞弹气动系数预测网络的参数被冻结,因此,优化问题就变成了训练物理参数的优化网络。一旦收敛,物理参数优化网络的输出即为给定马赫数和攻角下的巡飞弹机翼最优设计变量。需要强调的是,根据优化问题,输入和输出不是固定的,并且所提出的方法可以方便地扩展到其他领域。

2.3 DQN制导律

气动优化时段控制在制导阶段的前4 s内,这是由于制导过程中初期阶段需要迅速调整巡飞弹姿态,使之按规定制导律对准目标进行飞行,后期为保证稳定性与足够的动能,不宜进行变体飞行。为方便研究,假设巡飞弹机翼的变形可通过压电驱动柔性蒙皮等变形结构快速实现,而不考虑具体的机翼变形的工程实现。为简化研究,重点探究气动优化与制导一体化模型的效果,因此只关注巡飞弹与目标的纵向运动,其纵向运动方程组如下

(5)

式中:m为巡飞弹质量;g为重力加速度;VM为巡飞弹速度;P为发动机推力;X为阻力;Y为升力;αM为攻角;σM为弹道倾角;Jz为俯仰转动惯量;ωz为俯仰角速率;Mz为所有外力对巡飞弹质心的俯仰力矩;ϑ为俯仰角;xMyM为巡飞弹横向、纵向位移;mc为质量秒消耗量(视制导阶段巡飞弹质量恒定,取其值为0)。上述方程实际由7个方程组成,包含7个 未知参数:VM(t)、σM(t)、ωz(t)、xM(t)、yM(t)、ϑ(t)、αM(t),因此方程式封闭的,可独立求解。采用欧拉法[16]求解巡飞弹运动方程组,只需给定作为递推计算的初值,根据下式即可求得任意时刻的参数值。以打击地面静止目标为例,将目标简化为质点,巡飞弹与目标之间的相对运动关系如图8所示。由于目标为地面静止目标,则其弹道倾角为0,速度为0,弹目相对运动表达式简化为公式(6)。

(6)

图8 弹目相对运动

Fig.8 Relative motion of the cruise missile-target

式中:r为弹目相对距离;q为视线角;ηMηT为导弹、目标的前置角(导弹、目标速度矢量与目标线之间的夹角)。相对距离和视线角可通过下式求得。

(7)

(8)

式中:xTyT分别是目标的横纵坐标。

随后采用强化学习DQN算法设计制导律:以视线角角速率构建奖励函数,目的是使视线角速率趋近于零,实现类平行接近法。DQN算法细节已在文献[9]详细介绍,本文不再赘述,下面给出DQN强化学习算法的状态空间、动作空间和奖励函数。

1) 状态空间

为使巡飞弹以平行接近原理攻击目标,则要使视线角速率趋近于零,因此选用视线角速率作为状态空间,仿真过程中约束视线角速率不超过10(°)/s,视线角速率则限制在[-0.17,0.17]rad/s范围内。由于DQN中的动作空间是离散的,而状态空间在一定范围内是连续的,为得到连续的攻角制导指令,引入攻角αM作为状态空间的一个元素,并选择攻角变化率作为动作。因此,状态空间被定义为视线角速率和攻角组成的向量,即

2) 动作空间

对于巡飞弹制导任务,需产生连续的攻角指令,调整巡飞弹的姿态,以平行接近的原理攻击目标。以攻角变化率为动作空间,进一步利用欧拉法获得下一时刻的攻角指令。

(9)

式中:Δt为时间步长,其在相对距离小于100 m时设置为0.001 s以获得更高的计算精度,其余时刻为节省程序运行时间设置为0.01 s。攻角变化率限制在[-0.18,0.18](°)/s内,那么动作空间设置为

(10)

式中:的单位为(°)/s2。此外,考虑巡飞弹飞行稳定性,需对攻角进行约束,因此,选择攻角变化率计算出攻角之后,将攻角αM约束在[-18°,18°]内。

3) 奖励函数

以视线角速率和弹目相对距离构建复合奖励函数:

(11)

在此基础上,若脱靶量小于10 m,则给予终端奖励

R终端=20-r(t)

(12)

最终,奖励函数由过程奖励和终端奖励组成

R=R过程+R终端

(13)

3 仿真结果及分析

3.1 气动代理模型精度

图9直观地展示了测试集上升力和阻力系数的相对误差分布。可以观察到,约50%的升力系数预测相对误差落在-2.2%~1.1%的范围内,而约50%的阻力系数预测相对误差集中在-1.9%~1.3%之间。此外,对于2种系数的预测,相对误差的绝对值都不超过6%,平均预测精度为97.3%和97.4%。这些结果表明,巡飞弹气动系数模型预测的气动系数可以替代CFD结果,用于后续的翼型形状优化和设计。

图9升阻力系数预测的相对误差Fig.9 Relative error in predicted lift and drag coefficients

除了高准确的预测精度,巡飞弹气动系数预测模型还具有极快的预测速度。如表3所示,使用15个CPU核心并行计算,数据准备需要13 d,训练预测模型只需21 s,随后在显卡RTX 3080上预测每个巡飞弹外形的气动系数仅需8 ms,而CFD计算需要耗时1 581 s。因此,相较于CFD求解器,巡飞弹气动系数预测模型给出预测结果的时间快了5个数量级。

表3 时间成本对比

Table 3 Comparison of the time cost

方法数据准备训练成本预测成本CFD——1581s气动代理13d21s8ms

3.2 气动优化结果

分别利用遗传算法(genetic algorithm,GA)优化和物理参数优化神经网络对2个工况下的巡飞弹机翼进行优化,工况设置如表4所示。其中GA算法细节参见文献[10]。

表4 优化工况设置

Table 4 Setting of the optimization conditions

工况马赫数攻角10.78°20.515°

图10给出了GA和物理参数优化神经网络在2个工况下的升阻比最大化收敛历史曲线。

绿色为GA每代种群个体的升阻比,红色为其平均值

图10 GA与物理参数优化神经网络的升阻比收敛历史 Fig.10 Convergence history of the lift-to-drag ratio of GA and the physical parameter’s optimization neural network

从图10可以看出,基于物理参数神经网络优化收敛更快,且只需计算400个巡飞弹气动外形的升阻力系数,而GA优化收敛性较差,需要评估 24 000(种群规模为60)个巡飞弹气动外形的升阻力系数。造成这一现象的原因是:由于GA算法是启发式算法,属于无梯度优化算法,虽具有良好的全局搜索能力,但是与基于梯度的算法相比,算法相对复杂,且在执行优化时需评估大量不同的形状,收敛速度很慢;而物理参数优化神经网络是基于梯度的优化方法,迭代次数更少,收敛速度较快,缺点是有可能无法找到全局最优解。另外,无论是GA优化还是物理参数优化神经网络,它们结合巡飞弹气动系数预测网络模型,均可在2.5 s内实现的巡飞弹机翼的优化。由此看出巡飞弹气动预测网络模型大大节省了优化时间,极大地提高了优化设计效率。

3.3 一体化模型训练结果

本节针对地面静止目标,按照参考文献[9]中强化学习制导律框架的训练方法,进行了气动优化与制导一体化模型的仿真训练。弹目初始运动条件设置如表5所示。由于超参数对神经网络的性能有显著影响,分别选择了三组学习率和批量大小的值来训练该模型,以研究它们对模型性能的影响。

表5 弹目初始运动条件

Table 5 Initial motion conditions of the cruise missile-target

参数符号值速度VM238m/sVT0m/s位置xM0myM2000mxT[1000,2000]myT0m弹道倾角σM[-15°,15°]σT0°攻角αM[-15°,18°]

累计奖励和脱靶量的收敛历程如图11所示。图11(a)和(b)显示了不同学习率(在图中简称为“lr”)下的收敛曲线。可以看出,较小的0.000 5学习率前期使脱靶量较为平稳缓慢地下降,累计奖励平稳上升,后期则使奖励陷入局部最小值,脱靶量陷入局部最大值,因此训练模型可能需要更多时间或直接无法跳出局部最优点从而导致训练失败;较大的0.005学习率在初期明显加速了学习过程,但会导致严重的震荡,使网络难以快速收敛;对于中等的0.001学习率,脱靶量可以平稳降至较低的水平,累计奖励上升至较高水平,并且震荡较小,容易收敛。基于上述调参经验,我们选择了适当的学习率0.001来训练本节中的网络模型。

图11 巡飞弹DQN制导模型的收敛历史 Fig.11 Convergence history of the DQN guidance model for the cruise missile

此外,图11(c)和图11(d)显示了批量大小对模型收敛性能的影响。可以得出结论,随着批量大小的增加,脱靶量下降速度变快,但同时伴随着较大波动,这是由于较大的批量大小会导致相邻数据之间的梯度差异较小,容易陷入局部极值,模型难以收敛批;较小的小批量大小会导致相邻迭代之间梯度的振荡增加,且训练时间更长,收敛缓慢。因此,批量大小有一个最优值来平衡上述冲突,综合考虑这两个原因,我们选择了批量大小为16,使模型较快收敛且缩短训练时间。

3.4 一体化模型测试结果

为了验证基于物理参数优化神经网络的气动优化模型给巡飞弹制导带来的优势,我们还训练了另一个无气动优化,仅利用巡飞弹气动系数代理模型提供升阻力系数,搭建完整的DQN制导环境模型,并采用相同的初始条件和训练方法对其进行训练。随后,对2个训练好的模型进行离线测试,其测试结果的脱靶量对比如图12所示。其中,命中概率根据1 000次的蒙特卡罗仿真结果计算:若脱靶量小于1 m,则视制导任务成功完成。可见,大部分的脱靶量分布于0.3 m以内。这表明训练好的气动优化与制导一体化模型能够学到最优的攻角制导策略,并成功击中目标。表6还可说明气动优化模型提升了巡飞弹打击目标的命中率和打击精度。

图12 脱靶量分布的蒙特卡罗仿真结果(m)

Fig.12 Monte Carlo simulations results of miss-distance distribution (unit:m)

表6 巡飞弹DQN制导模型测试1 000次的脱靶量

Table 6 Miss-distance for 1 000 tests of the cruise missile’s DQN guidance model

参数制导模型脱靶量/cm值—<100cm(%)<50cm(%)<25cm(%)命中概率优化95.995.993.3无优化94.493.390.5

为了进一步展示气动优化与制导一体化模型的性能和效果,如表7所示,选择了由2个巡飞弹弹道倾角和攻角组成的4组边界条件工况,对其进行制导仿真测试,并对视线角速率、视线角、攻角指令和导弹-目标轨迹的曲线进行比较分析。目标距离设置为2 000 m。脱靶量统计结果如表8所示,可以清楚地看到,对于这4个边界工况,2种模型均能成功打击目标。

表7 4个边界工况条件设置

Table 7 Setting of the four boundary conditions

参数工况1工况2工况3工况4σM-15°15°-15°-15°αM-15°18°18°-15°

表8 4个边界工况的脱靶量

Table 8 Miss-distances of the four boundary conditions

工况脱靶量气动优化无气动优化工况10.33290.3715工况20.02280.0333工况30.01180.0489工况40.21380.2129

对于前3个工况,气动优化与制导一体化模型的脱靶量小于无气动优化的制导模型的脱靶量,表明气动优化模型一定程度上可以提升打击精度。图13(a)—图13(d)分别展示了这4组边界条件下制导过程的攻角、视线角速率、视线角和弹目轨迹。其中,M1、M3、M5、M7分别是4个边界下带有气动优化的制导巡飞弹,M2、M4、M6、M8分别是相应的无气动优化的制导巡飞弹。

图13 4个边界工况的制导结果
Fig.13 Guidance results for four boundary conditions

首先,从图13(a)可见,攻角在4 s后基本上收敛至零,并且有气动优化的巡飞弹攻角收敛更为平稳,而无气动优化的“超调”更大。从图13(b)的视线角速率来看,初始攻角为正的工况2和工况3,气动优化的视线角速率平稳的收敛至零,无气动优化的则先略有“超调”而后收敛至零;对于初始攻角为负的工况1和工况4,视线角速率均有“超调”,在攻角为负时,气动优化的“超调”大于无气动优化,反之在攻角为正时其“超调”小于无气动优化。结合图13(c)可见,有气动优化的制导模型视线角收敛性优于无气动优化,无气动优化的视线角无法很好地收敛。此外,还可知,气动优化使得巡飞弹打击相同目标时制导时间更短,而结合图13(d)可知,气动优化对应的巡飞弹射高大于无气动优化。因此可推出结论,气动优化产生的最优升阻比为巡飞弹制导带来了更好的飞行性能。

图14展示了工况2和工况3的制导过程中升阻比的变化。由于气动优化仅在整个制导阶段的前4 s内进行,因此4 s后,升阻比不再发生改变。可见,在飞行过程中,气动优化与制导一体化模型始终根据飞行速度和攻角保持着大于原始巡飞弹的升阻比,印证了前述结论。

图14 工况2和工况3制导过程的升阻比变化

Fig.14 Variations in the lift-to-drag ratio for the guidance process in conditions 2 and 3

4 结论

1) 基于全连接神经网络提出的巡飞弹气动系数预测模型,只需给定马赫数、攻角以及FFD设计参数,即可在8 ms内预测出相应的气动系数。此外,根据相对误差计算的该气动系数模型在测试集上的预测精度高达97.4%。因此,所提气动预测模型兼具快速性和准确性,适用于气动优化设计。

2) 结合巡飞弹气动系数代理模型,分别基于梯度的物理参数优化神经网络气动优化方法和无梯度的GA优化算法进行了巡飞弹翼型优化,均可在2.5 s内实现巡飞弹机翼的优化计算。巡飞弹气动预测网络模型节省了优化时间,提高了优化设计效率。另外,通过2个工况的优化对比实验发现,基于梯度的物理参数优化神经网络具有更好的收敛性能,更高的优化效率,且能找到更好的最优解。

3) 基于机器学习的巡飞弹气动优化与制导一体化模型,以弹目视线角速率和攻角为状态空间,以攻角变化率为动作空间,以视线角角速率和脱靶量构建过程奖励函数和终端奖励函数,实现了巡飞弹变体飞行和对地面目标的精确打击。与无气动优化的制导模型对比,仿真验证表明,该一体化模型仅利用视线角速率信息,可生成较连续的攻角变化率指令,提高了制导精度,缩短了制导时间,增加了射高,提升了攻角和视线角的收敛性能,也表明该模型有增大机动性和节省燃料的潜力。

参考文献:

[1] 桑晨,郭杰,唐胜景,等.基于DDPG算法的变体飞行器自主变形决策研究[J].北京航空航天大学学报,2022,48(5):910-919.SANG Chen,GUO Jie,TANG Shengjing,et al.Autonomous deformation decision making of morphing aircraft based on DDPG algorithm[J].Journal of Beijing University of Aeronautics and Astronautics,2022,48(5):910-919.

[2] 张远,黄万伟,聂莹,等.一种高速可变形飞行器智能变形决策方法[J].宇航学报,2022,43(12):1665-1675.ZHANG Yuan,HUANG Wanwei,NIE Ying,et al.An intelligent deformation decision-making methodfor high-speed morphing flight vehicle[J].Journal of Astronautics,2022,43(12):1665-1675.

[3] 方洋旺,邓天博,符文星.智能制导律研究综述[J].无人系统技术,2020,3(6):36-42.FANG Yangwang,DENG Tianbo,FU Wenxing.An overview on the intelligent guidance law[J].Unmanned Systems Technology,2020,3(6):36-42.

[4] 李帝辰,杨龙,魏闯,等.高亚声速低雷诺数翼型气动优化设计研究[J].飞行力学,2022,40(5):14-21.LI Dichen,YANG Long,WEI Chuang,et al.Optimal aerodynamic design of low Reynolds number airfoil under high subsonic condition[J].Flight Dynamics,2022,40(5):14-21.

[5] 陶福兴,张恒,李杰.一种小型单兵巡飞弹的气动外形设计[J].弹箭与制导学报,2015,35(6):114-114,118.TAO Fuxing,ZHANG Heng,LI Jie.The aerodynamic design of small man-portable loitering munition[J].Journal of Projectiles,Rockets,Missiles and Guidance,2015,35(6):111-114,118.

[6] 张秦浩,敖百强,张秦雪.Q-learning强化学习制导律[J].系统工程与电子技术,2020,42(2):414-419.ZHANG Qinhao,AO Baiqiang,ZHANG Qinxue.Reinforcement learning guidance law of Q-learning[J].Systems Engineering and Electronics,2020,42(2):414-419.

[7] 周锐,陈宗基.强化学习在导弹制导中的应用[J].控制理论与应用,2001,18(5):748-750.ZHOU Rui,CHEN Zongji.Application of reinforcement learning in missile guidance[J].Control Theory &Applications,2001,18(5):748-750.

[8] 陈中原,韦文书,陈万春.基于强化学习的多发导弹协同攻击智能制导律[J].兵工学报,2021,42(8):1638-1647.CHEN Zhongyuan,WEI Wenshu,CHEN Wanchun.Reinforcement learning based intelligent guidance laws for coordinated attack of multiple missiles[J].Acta Armamentrtii,2021,42(8):1638-1647.

[9] WU M,HE X,QIU Z,et al.Guidance law of interceptors against a high-speed maneuvering target based on deep Q-Network[J].Transactions of the Institute of Measurement and Control,2022,44(7):1373-1387.

[10] WU M Y,YUAN X Y,CHEN Z H,et al.Airfoil shape optimization using genetic algorithm coupled deep neural networks[J].Physics of Fluids,2023,35(8):1-19.

[11] 韩忠华,张瑜,许晨舟,等.基于代理模型的大型民机机翼气动优化设计[J].航空学报,2019,40(1):150-165.HAN Zhonghua,ZHANG Yu,XU Chenzhou,et al.Aerodynamic optimization design of large civil aircraft wings using surrogate-based model[J].Acta Aeronautica et Astronautica Sinica,2019,40(1):150-165.

[12] 韩忠华,许晨舟,乔建领,等.基于代理模型的高效全局气动优化设计方法研究进展[J].航空学报,2020,41(5):25-65.HAN Zhonghua,XU Chenzhou,QIAN Jianling,et al.Recent progress of efficient global aerodynamic shape optimization using surrogate-based approach[J].Acta Aeronautica et Astronautica Sinica,2020,41(5):25-65.

[13] 韩旭东,张鹏飞,张意,等.末制导弹药捷联制导控制一体化技术研究[J].兵器装备工程学报,2022,43(6):269-275.HAN Xudong,ZHANG Pengfei,ZHANG Yi,et al.Research on strapdown integrated guidance and control technology of terminal guided munitions[J].Journal of Ordnance Equipment Engineering,2022,43(6):269-275.

[14] 张西勇.基于变结构的鱼雷垂直命中导引律设计[J].兵器装备工程学报,2022,43(10):66-71.ZHANG Xiyong.Design of torpedo vertical hitting guidance law based on variable structure[J].Journal of Ordnance Equipment Engineering,2022,43(10):66-71.

[15] FEICKERT A.Missile survey:Ballistic and cruise missiles of foreign countries[C]//Congressional Research Service,Library of Congress,2004.

[16] 白卓,赵河明,杨晋伟.基于欧拉法的自寻的炮射导弹弹道建模与仿真[J].海军航空工程学院学报,2020,35(2):189-194.BAI Zhuo,ZHAO Heming,YANG Jinwei.Modeling and simulation of self-homing gun-launched missile trajectory based on Euler method[J].Journal of Naval Aeronautical and Astronautical University,2020,35(2):189-194.

Machine learning-based integrated design to aerodynamic optimization and guidance for cruise missile

WU Mingyu1, HE Xianjun1, ZHENG Chun1, CHEN Zhihua2

(1.School of Energy and Power Engineering, Nanjing University of Science and Technology, Nanjing 210094, China; 2.Key Laboratory of Transient Physics, Nanjing University of Science and Technology, Nanjing 210094, China)

AbstractA machine learning-based aerodynamic optimization and guidance integration design method is proposed for the terminal guidance of the cruise missile. Taking the cruise missile’s wing as the optimization object, the method firstly establishes a fully connected neural network-based aerodynamic parameter surrogate model, and combines the model with a physical parameter optimization neural network for aerodynamic optimization, thus constructing an online aerodynamic optimization model. Secondly, the guidance environment of reinforcement learning is constructed by coupling the optimization model with the flight dynamics equation set of the cruise missile, and an intelligent guidance law is designed by using the Deep Q-Network reinforcement learning algorithm, thus realizing the integrated design of aerodynamic optimization and guidance. Through the simulation experiments of hitting the ground stationary target, compared with the guidance law without aerodynamic optimization, it shows that online aerodynamic optimization can make the cruise missile fly with the optimal lift-to-drag ratio, which shortens the guidance time and saves the fuel; the integrated model can produce more continuous angle-of-attack guidance commands by using only the line-of sight angle rate, which improves the guidance accuracy.

Key wordsaerodynamic optimization; guidance law; surrogate model; integrated design; machine learning; Deep Q-Network

收稿日期:2023-09-22;修回日期:2023-10-29;录用日期:2023-12-17

作者简介:吴明雨(1996—),男,博士,E-mail:wmyy@njust.edu.cn。

通信作者:陈志华(1967—),男,博士,教授,E-mail:chenzh@njust.edu.cn。

doi:10.11809/bqzbgcxb2024.09.006

本文引用格式:吴明雨,何贤军,郑纯,等.基于机器学习的巡飞弹气动优化与制导一体化设计[J].兵器装备工程学报,2024,45(9):38-47.

Citation formatWU Mingyu, HE Xianjun, ZHENG Chun, et al.Machine learning-based integrated design to aerodynamic optimization and guidance for cruise missile[J].Journal of Ordnance Equipment Engineering,2024,45(9):38-47.

中图分类号:TJ765.3

文献标识码:A

文章编号:2096-2304(2024)09-0038-10

科学编辑 赵良玉 博士(北京理工大学 教授、博导)

责任编辑 唐定国