无人自主系统及智能决策专栏

基于深度强化学习的无人机通信抗干扰算法

张惠婷1,张 然1,2,刘敏提3,丁元明1

(1.辽宁省通信网络与信息处理重点实验室, 辽宁 大连 116622; 2.大连大学信息工程学院, 辽宁 大连 116622; 3.西安电子科技大学雷达信号处理国家实验室, 西安 710071)

摘要:针对军用无人机通信环境恶劣、信息传输可靠性要求较高的问题,提出一种基于深度双Q学习网络(DDQN)的多域联合认知抗干扰智能决策算法。首先通过能量检测法识别干扰信息,将干扰判别信息结果输入学习算法。然后利用DDQN算法与干扰环境交互感知,引入动态ε机制,根据奖励值与回合数动态调整ε值,如果决策失败则减小ε值,ε值可根据奖励和回合数计算,增加智能体选择最优动作的概率,如果决策成功则ε值不变,保持原有随机性,提高算法收敛速度。最后根据动态DDQN算法选择接入信道以及传输时间长度,传输时间长度根据当前信道受干扰程度进行动态调整。仿真结果表明,在不同传输时间和不同ε值的条件下,所提算法通信安全容量提升15%左右,收敛后平均决策成功率保持在95%左右,无人机通信系统整体抗干扰性能较好。

关键词:多域联合;认知抗干扰;深度强化学习;智能决策;无人机通信

1 引言

无人机作战是未来战场上至关重要的一部分,但是在通信环境面临智能性干扰的情况下,要确保信息安全可靠的进行传输就成为一项挑战[1],因此无人机通信系统抗干扰研究至关重要。

为了有效对抗智能干扰,提高无人机系统通信质量,目前研究热点方向为无人机认知抗干扰[2]。认知抗干扰目前主要通过智能决策算法对抗智能干扰[3],智能决策大致有两类:一类基于功率域抗干扰角度,智能体的发射功率可以根据干扰方发射功率进行调整来应对攻击。文献[4-6]在干扰功率不大的情况下,基于博弈理论,根据博弈双方的竞争关系,建立认知抗干扰网络模型,求出博弈均衡,获得用户最佳发射功率。另一类是基于频域抗干扰的角度,利用强化学习选择安全信道,规避干扰信道[7]。文献[8]将信道选择问题建模为多臂赌博机模型(MAB),选择最小的臂对应的信道进行通信,但是不满足信道非独立的实际情况,文件[9]在MAB理论的基础上提出碰撞规避上届置信算法(UCB)的信道选择改进,在电台频谱接入问题中有效降低了碰撞概率和悔恨值,但是前期训练碰撞需要耗时。文献[10]基于协作Q学习(Q learning,QL)进行信道选择,虽然提高了数据传输安全容量,但算法收敛速度较慢。文献[11]利用深度Q网络(deep Q network,DQN)进行安全信道选择,累计奖励值高于QL算法,但是DQN由于Q值估计过高导致收敛速度减慢、估值失真。文献[12]在集中式训练环境下通过竞争性深度Q网络算法和优先经验回放技术以提高信道选择算法的效率,但信道数量较多时碰撞效率提升较大。在信道数量较大的情况下,文献[13-14]基于演员-评论员(actor-critic,AC)算法选择安全信道,但该算法的Actor与Critic网络实时更新数据,导致2个网络依赖性较强,算法稳定性较低。

针对智能性干扰攻击灵活性较差的问题,多域联合抗干扰方式被提出[15]。文献[16]考虑功率域和频域,首先基于Stackelberg博弈从功率域判断受干扰情况,再分别利用频域进行MAB算法进行信道选择,文献[17]同样将受干扰分为是轻度、中度以及严重程度,中度干扰从功率域博弈论角度出发,轻度干扰从优化AC算法的频域角度进行信道选择避免干扰。但是以上算法从频域及功率域角度考虑,在干扰严重情况下,功率域抗干扰效果不佳,占用大量的频谱资源,并且用户传输时长固定,无法满足无人机高动态运行下对传输时间灵活性的要求。

基于以上抗干扰不同角度的分析,本文中将频域和时域结合,提出一种基于动态深度双Q学习(dynamic-deep double Q learning,D-DDQN)的无人机时频域联合认知抗干扰(time-frequency domain joint cognitive anti-jamming,TFDJ-AJ)算法。该方法首先利用能量检测法得到当前回合的干扰判别信息,然后优化DDQN的贪婪策略,将实际传输奖励反馈给贪婪因子,进行动态DDQN决策,最后把信道选择和传输持续时间决策问题转换为序贯决策问题,通过智能决策进行最佳传输,实现时频域联合抗干扰,有效提高无人机系统通信安全容量。

2 无人机通信模型

2.1 系统模型

无人机通信抗干扰模型如图1所示。考虑由一个无人机、一个接收机和一个干扰机组成的通信系统。无人机向接收机发送数据,干扰机释放干扰信号,进行无人机通信破坏[18]。系统模型中共有M(M>1)个信道,定义Ω={1,2,…,M}为信道集,在通信过程中,用户传输持续时间是可变的。

图1 通信抗干扰模型示意图
Fig.1 Communication model

2.2 干扰及检测模型

无人机通信系统的干扰端用J表示,干扰端通过不定期调整干扰方式来干扰和破坏用户通信网络。βj代表干扰频率范围,βu代表无人机传输频率范围。为了简化分析,设置βj=βu,并用bu代表用户传输带宽,则可以计算出无人机信道集的数量n,如式(1)所示。

(1)

基于能量检测法建立一个干扰检测模型,如式(2)所示。每个信道对应频率设置一个带通滤波器,对不同频率信号进行滤波,得到检测模型H,计算每个频率上的信号功率pn

(2)

其中: y[n]表示当前信号;s[n]表示通信信号; j[n]表示干扰信号。

通过宽带频谱感知中的能量检测法来检测干扰信息,D(y)代表每个频率信号能量,λ代表门限值,判别干扰信号能量,如式(3)所示。若D(y)高于λ则认为当前存在干扰,属于H3,否则属于H1或H2,然后将每个频率是否存在干扰信号的判别信息输入至D-DDQN智能决策模型。

(3)

2.3 信道模型

检测到信道中的干扰后,就可以在信道内避开干扰进行通信。在通信过程中,接收端根据能量检测感知干扰信道信息对安全信道和传输持续时间进行决策,然后将上一步完成的决策信息以确认字符(acknowledge character,ACK)的形式送回发射端,表示确认接收到正确决策成功通信[19]。最后,无人机发射端根据新的传输策略在下一个时隙进行通信。

将接收端信噪比定义如式(4)所示。

(4)

式中: ft表示传输信号在t时刻的中心频率;表示干扰信号在t时刻的中心频率;n(f)表示高斯白噪声功率谱密度函数表示干扰信号的PSD;pu表示信号传输功率;gt表示传输链路信道增益;gj表示干扰链路信道增益。

设无人机通信有M个子信道,总带宽为B,那么每个子信道均分为b,有可以定义传输过程中的通信安全容量Csec如下:

(5)

定义表示传输过程是否成功,如式(6)所示:

(6)

用户更换安全通道的开销为:

(7)

式中: c表示信道切换系数;a(t)表示用户在t时刻采取的动作。无人机优化目标是最大化累计效用值来选择抗干扰策略如下式所示:

(8)

式中,γ代表折扣因子,且γ∈(0,1)。

假设传输信道M=5,传输时间长度等级L=4,状态和动作时频传输如图2所示。横轴代表频率,竖轴代表时隙。

图2 干扰机与用户时频传输示意图
Fig.2 Schematic diagram of time-frequency transmission between jammer and user

在第k-1个时隙信道状态为[01100]。因为信道1足够安全,所以从k-2个时隙进入k-1个时隙时可从信道5跳转到信道1,可以持续传输较长时间,由于信道1在k时隙依然没有干扰,那么传输可以在2个时隙都保持成功,此时奖励最大;如果k-2跳转到k-1时选择信道4,那么持续传输时间等级依然保持最大,但在传输之后若不立即进行信道跳转就会受到干扰,即使下个时隙进行信道跳转也会消耗转换信道的能量。

2.4 传输时隙模型

现有的通信传输时隙模型全部都是固定传输时长,但在无人机通信过程中,若传输时间过长则信号会被干扰,若传输时间太短则系统吞吐量性能较差。针对此问题,本文中建立用户数传输时长可改变的时隙模型。

用户有L个传输持续时间可供选择且传输时间集为L={l1,l2,…,lL}。每个时隙可以根据信道状态选择传输等级,传输时隙结构如图3所示。

图3 数据传输时隙结构示意图
Fig.3 Schematic diagram of data transmission process

Tj代表干扰时长,Tu代表无人机的传输时长,TACK代表ACK传输的时间长度,Twbss表示进行能量检测的时间长度。在通信开始时隙中,用户根据获取的原始频谱信息随机选择传输信道和传输时长,接收端开始数据接收,接收完成后计算该操作的奖励值。在下一个Twbss时间,用户接收端进行能量检测,得到干扰信道信息。最后,用户根据该信息进行D-DDQN学习,确定下一个时隙要选择的传输信道和传输时长,并更新参数。在更新结束之后,接收端通过在TACK时间内发送ACK信号将判决信息反馈给无人机发射端。

3 多域联合认知抗干扰算法

3.1 基于ε动态更新D-DDQN优化算法

3.1.1 强化学习框架

无人机抗干扰过程中,无法得知下一步状态具体有哪几步,状态转移概率P未知,因此通常采用无监督学习的QL算法求解,但状态空间和动作空间较大时,搜索Q值的时间增加,收敛速度降低,很难对所有动作进行探索[20]。DQN算法引入神经网络代替QL中的Q值表格,解决了状态、动作空间不足的问题。式(9)表示值函数优化目标:

(9)

式(9)每次都要选择预测Q值最大的下一步动作,导致Q值估计过高。因此式(10)采用DDQN算法,更改DQN的网络参数设置,改善标签过估计。

(10)

3.1.2 动态ε-greedy更新的D-DDQN算法

传统DDQN一般将ε-greedy策略作为策略π进行训练更新,如式(11)所示。在该策略下,无人机随机选择动作的概率表示为ε,选择Q值最大所对应动作的概率表示为1-ε

(11)

然而,ε取值固定就表示算法随机性在所有回合中都相等。但是在实际过程中,起始状态所需的随机性和收敛状态是不一样的,ε固定取值的情况下,算法只能收敛到局部最优,并且不能维持稳定的收敛状态。

算法基于DDQN提出动态ε策略,根据奖励值与迭代次数动态调整ε值,得到D-DDQN算法,如式(12)所示。动态调整过程为:选择最大Q值所对应的动作时,增加选择对应动作的概率值;选择其他动作时,减少选择对应动作的概率值。首先ε初始化为1,在算法的每次迭代后,ε都相应动态调整1次,直到ε减少到0。若前一回合受到干扰,那么rm≤0,减少ε值,降低策略的随机性,加快算法的收敛速度;若前一回合安全传输,那么rm≥0,则ε值不变,原有的随机性继续保持。改进后的策略更新过程如式(13)所示。其中x表示在0~1内随机生成数。

(12)

(13)

如图4所示,优化后的D-DDQN算法包括2个网络。状态s的估计QQ(s,a;θk)由估值神经网络给出,以此选择最大Q值对应的动作。目标Q由目标神经网络给出,以此评估对应最优动作的Q值,达到避免发散的目的。其中,θk分别代表第k回合时估值神经网络和目标神经网络的权值参数。同时,把最近回合的经验样本e=(s,a,r,s′)存放在经验池E中,在更新θk时,从E中随机抽取一个小批量e更新网络,提升样本利用率、破除相邻数据相关性。更新网络时用式(12)、式(13)同步更新策略选取最优解。

图4 智能决策框图
Fig.4 Intelligent decision framework

定义误差函数L(θ),如式(14)所示。采用梯度下降法对估值神经网络进行更新。

(14)

3.2 基于D-DDQN的TFDJ-AJ算法

本文中将时频域选择同D-DDQN算法结合,将算法所需基本元素定义如下:

1) 状态空间

所有通道的当前状态定义为S,为1表示信道在当前时刻与干扰信号产生冲突,为0表示没有与干扰信号产生冲突,信道共有M个,则状态集大小则为2M

2) 动作空间

将发射端在第k个时隙的sk状态下完成的动作选择表示为ak=(fk,lk),其中fk是第k个时隙的传输信道,lk是第k个时隙的传输持续时间等级且满足l={1,2,…,L},因此,动作空间大小定义为M×L

A表示无人机选择信道的所有策略,根据当前状态sk和即时奖励Rk进行动作选择。信道索引如下式所示:

A={a1,a2,a3,…,an}, a(k)∈A

(15)

3) 状态转移概率

由于强化学习中相邻状态之间存在相关性,将用户在状态sk条件下,执行动作ak转移到新状态sk+1的转移概率定义为:

P={p(sk+1|sk,ak)},sk+1, skM×L

(16)

4) 奖励函数

即时奖励函数Rk=r(s,a,k)代表第k个时隙的状态sk中执行动作ak的奖励,用式(8)来表示。

算法设置初始状态s0,并根据输入的干扰判别信息,决策下一回合的传输动作ak+1。此时,估计价值为Q(sk,ak+1;θk),目标价值为式(14)可重新写为:

(17)

如式(18)和式(19)所示,通过梯度下降法更新θk,同时每经过G轮就同步回合目标神经网络与估值神经网络,由于不用实时更新目标价值,因此可以减少选取目标价值的相关性。

(18)

(19)

综上所述,提出的基于D-DDQN时频域联合的认知抗干扰算法(TFDJ-AJ)实现过程如下:

输入:干扰判别样式信息D(y),经验池E

输出:最优策略估计π,效用值函数

步骤1 建立估值神经网络和目标神经网络,经验池E,设置总回合数Z

步骤2 初始化权值参数θk,令

步骤3 随机选择通信频率和传输时长;

步骤4 kZ时,重复执行步骤5;

步骤5 获得信道状态集合Sk

步骤6 按照式(13)计算更新ε值;

步骤7 根据D-DDQN算法选择下一回合通信频率和通信时长ak+1

步骤8 根据所得的奖励r(sk,ak+1),决策下一回合的信道状态集合Sk+1

步骤9 将ek=(sk,ak+1,r(sk,ak+1,),sk+1)存入经验池E中;

步骤10 从E中随机选取经验样本NB个,代入到式(19)更新θk

步骤11 每经过G轮回合,

步骤12 k>Z时,程序结束。

算法流程如图5所示。

算法的基础网络结构为2个全连接神经网络,ReLU为激活函数。状态集合Sk的元素个数NS代表输入层神经元个数;动作集合Ak的元素个数NA代表隐藏层神经元个数;NF代表一个全连接神经元个数,则n个全连接神经元个数表示为(NS+NA+nNF)。隐藏层第1层有权重NSNF个,第n-1层有权重个,输出层有权重NANF个,每次迭代时算法复杂度如式(20)所示:

O(NF(NS+(n-1)NF+NA))

(20)

图5 基于D-DDQN的TFDJ-AJ算法流程框图
Fig.5 Flow chart of TFDJ-AJ algorithm based on D-DDQN

4 实验仿真与分析

为验证所提算法有效性,对系统获得效用值、通信安全容量、决策成功率、状态均方误差指标进行仿真,其中,系统获得效用值以及通信安全容量分别由式(8)和式(5)计算所得。仿真环境采用Pytorch 1.2.0深度学习框架与Matlab 2018a仿真平台。模型参数设置如表1所示。

表1 模型参数
Table 1 Model parameter settings

参数初始值信干比阈值βth/dB10干扰功率PJ/dBm-60传输功率PS/dBm-50信道转换系数c0.6神经网络学习速率α0.9折扣因子γ0.8用户传输频带βu/MHz80动作奖励rm1单级传输时间Ts/ms0.28时隙传输时长TuTs*L持续传输时间等级L4迭代总回合数Z10 000

经验池容量大小NE=10 000,小批量经验样本NB=32。设定传输带宽bu为5 MHz,则信道个数M=16。设定干扰模式有4种,一是扫频干扰,每个传输时隙扫频带宽为500 kHz;二是梳状谱干扰,每个传输时隙选择8个干扰谱,每个干扰谱带宽为1 MHz;三是左右扫频干扰,每个频带上的干扰带宽为250 kHz;四是智能型干扰,为以上3种干扰每隔20个传输时隙随机切换一种。

图6表示不同传输时间下智能决策获得的效用值。由图6可知,效用值根据不同的时间设定变化较大,因为持续传输时间较长会增加系统受干扰的可能,持续传输时间较短会加剧传输能量的消耗,实际应用中干扰机随机变化干扰策略,很难确定一个最佳持续传输时间。同样在D-DDQN算法架构下,持续传输时间的不同,算法到达效用值限值的收敛速度是大致相同的,但TFDJ-AJ算法由于自适应的选择持续传输时长,避免了频繁切换信道造成的能量损失,效用值表现最佳。

图6 不同时间传输策略下效用值曲线
Fig.6 Comparison of effective values under different time transmission strategies

图7表示在时频联合基础下4种决策算法的通信安全容量。由图7可知,提出的TFDJ-AJ算法要优于DQN-AJ与AC-AJ以及QL-AJ算法。TFDJ-AJ算法采用DDQN的架构,目标值神经网络和估计值神经网络分别更新,与DQN-AJ算法和未使用网络的QL-AJ算法相比,其算法收敛速度有明显的提升,通信安全容量提高;同AC-AJ算法相比,虽然AC-AJ算法可以同时实现值函数的估计和动作的选择,但是对于Actor和Critic网络之间的依赖性太强,收敛速度尽管有所提升,但网络稳定性较差。TFDJ-AJ算法利用动态ε策略将原本的贪婪策略进行改进,增强了全局寻优的能力,得到的数据可靠性更高,通信安全容量较AC-AJ算法提高了15%左右。

定义单个状态s的均方价值误差如式(21)所示,它表示近似价值函数Vθ(s)与真实Csec(s)差的平方[17],用该函数表示所提算法的稳定性。

(21)

式中,|S|为信道系统状态的个数。

图7 不同算法的通信安全容量曲线
Fig.7 Comparison of communication security capacity of different algorithms

图8表示4种决策算法10 000个回合下,每一百个回合的值。由图8可知,经过训练,DQN-AJ虽然相较于QL-AJ有明显提升,但是由于其Q值估计过高,不如AC-AJ算法。TFDJ-AJ算法既改善了DQN的缺点又增加了全局寻优能力,相较于AC-AJ算法更为稳定,最后得到的值更小,验证了所提算法的稳定性。

图8 状态价值均方误差曲线
Fig.8 State value mean square error curve

为了验证所提算法抗干扰后的通信传输性能,定义决策成功率Tsuccess,如式(22)所示。

(22)

式中,Tsuccessed为成功传输的总时长。

图9表示4种决策算法下的决策成功率。由图9可知,在前2 000回合左右,D-DDQN算法同AC算法相比,平均决策成功率相差不大,这是因为AC-AJ算法不需要经验池回放数据,更快决定抗干扰策略,但是由于状态不稳定,所以波动较大,决策成功率相对较低。而基于D-DDQN的TFDJ-AJ算法在2 500回合之后逐渐收敛至95%以上,这说明D-DDQN算法能够一定程度避免局部最优,达到较好的抗干扰性能。

图9 基于不同智能决策算法的决策成功率曲线
Fig.9 Comparison of decision success rate based on different intelligent decision algorithms

图10表示基于不同贪婪策略更新的决策算法在前 10 000回合下决策成功率。由图10可知,在不同的贪婪因子设定的情况下,在前2 000回合左右,基于D-DDQN的TFDJ-AJ算法低于利用固定ε值进行策略更新的决策成功率,这是因为算法动态调整ε值,前期具有较强的随机性,成功率相对较低,但是收敛速度加快。在固定ε值的决策下,随着ε值逐渐增大,收敛后的平均决策成功率逐渐降低,而在3 000回合之后,利用动态ε策略改进的D-DDQN算法性能提升至95%以上,这再次证明了D-DDQN策略较好的性能。

图10 基于不同ε策略的决策成功率曲线
Fig.10 Based on different ε comparison of decision success rate of strategies

为了验证算法的泛化性,评估算法在更复杂场景下的性能,仿真改变表1中的通信场景,设定无人机信号传输带宽bu为60 MHz,信道个数M=60。无人机传输功率PS为-10 dBm,干扰机功率PJ为-5 dBm。

图11表示在更加复杂的通信场景下4种决策算法的决策成功率。输入神经元数量根据信道变化大大增加,网络重新训练所需要的时间增加,因此决策算法在第3 000回合左右达到收敛状态,基于D-DDQN的TFDJ-AJ算法在 3 500回合之后逐渐收敛至92%以上。综合2个通信场景的决策成功率收敛性能对比,发现通信场景越复杂,本文中所提算法相较于AC-AJ算法优势越明显。因为复杂信道模型下,只要将D-DDQN网络的神经元参数进行调整,就能够解决当前的决策问题,虽然计算复杂度增加,但是算法仍然收敛较为快速准确,说明该模型运用到单个无人机通信一般场景依然有效。

图11 改变通信场景后决策成功率曲线
Fig.11 Comparison of decision success rate after changing the communication scenario

5 结论

1) 针对军用无人机面临高动态干扰时需要同时满足灵活控制时间传输长短和处理大规模状态空间的问题,提出时频域联合认知抗干扰算法。以D-DDQN算法为基础架构,根据奖励动态更新贪婪策略,提高了算法的收敛性,解决Q值过估计问题。

2) 在此基础上,将信道选择和传输持续时间联合调度,以通信效用值为优化目标,通过切换信道防止恶意干扰,选择最佳传输时间最大化系统利用率。

3) 通过仿真证明所提算法整体抗干扰性能较好,在抗干扰的同时避免了频繁切换信道造成的能量损失,较好地满足实际需求。

参考文献:

[1] Gupta L,Jain R,Vaszkun G.Survey of important issues in UAV communication networks[J].IEEE Communications Surveys & Tutorials,2016,18(02):1123-1152.

[2] Li H,Luo J,Liu C.Selfish bandit-based cognitive anti-jamming strategy for aeronautic swarm network in presence of multiple jammers[J].IEEE Access,2019,7(03):30234-30243.

[3] 王小青.认知抗干扰通信系统的智能决策技术研究[D].成都:电子科技大学,2018.

Wang X Q.Research on intelligent decision-making technology of cognitive anti-interference communication system[D].Chengdu:University of Electronic Science and Technology,2018.

[4] 张新宇.无人机网络抗干扰方法研究[D].北京.北京邮电大学,2019.

Zhang X Y.Research on anti-jamming method of UAV network[D].Beijing.Beijing University of Posts and Telecommunications,2019.

[5] Jia L,Xu Y,Sun Y,et al.A multi-domain anti-jamming defense scheme in heterogeneous wireless networks[J].IEEE Access,2018,6(08):40177-40188.

[6] Xu Y,Ren G,Chen J,et al.A one-leader multi-follower bayesian stackelberg game for anti-jamming transmission in UAV communication networks[J].IEEE Access,2018,6(06):21697-21709.

[7] Lin Y,Wang T,Wang S.UAV-assisted emergency communications:an extended multi-armed bandit perspective[J].IEEE Communications Letters,2019,23(05):938-941.

[8] Blasco P,Gündüz D.Multi-access communications with energy harvesting:A multi-armed bandit model and the optimality of the myopic policy[J].IEEE Journal on Selected Areas in Communications,2015,33(03):585-597.

[9] 仇启明,黎海涛,张昊,等.基于Bandit学习的航空集群认知抗干扰信道选择[J].华中科技大学学报:自然科学版,2021,49(05):6-13.

Qiu Q M,Li H T,Zhang H,et al.Cognitive anti-interference channel selection of aviation cluster based on bandit learning[J].Journal of Huazhong University of Science and Technology:Natural Science Edition,2021,49 (05):6-13.

[10] Slimeni F,Chtourou Z,Scheers B,et al.Cooperative Q-learning based channel selection for cognitive radio networks[J].Wireless Networks,2018,14(04):1-11.

[11] Wang S,Liu H,Gomes P H,et al.Deep reinforcement learning for dynamic multichannel access in wireless networks[J].IEEE Transactions on Cognitive Communications and Networking,2018,4(02):257-265.

[12] 赵知劲,朱家晟,叶学义.基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法[J].电子与信息学报,2022,44(06):1-10.

Zhao Z J,Zhu J S,Ye X Y.Intelligent anti-jamming decision algorithm for frequency hopping network based on multi-agent fuzzy deep reinforcement learning[J].Journal of Electronics and Information,2022,44(06):1-10.

[13] Nguyen P K H,Nguyen V H.A deep double-Q learning-based scheme for anti-jamming communications[C] //2020 28th European Signal Processing Conference (EUSIPCO).IEEE,2021:1566-1570.

[14] Bhowmik M,Malathi P.Spectrum sensing in cognitive radio using actor-critic neural network with krill herd-whale optimization algorithm[J].Wireless Personal Communications,2019,105(01):335-354.

[15] 田弘博.无线通信智能多域抗干扰决策方法研究[D].哈尔滨.哈尔滨工程大学,2019.

Tian H B.Research on intelligent multi domain anti-interference decision-making method for wireless communication[D].Harbin.Harbin Engineering University,2019.

[16] 李明,任清华,吴佳隆.无人机多域联合抗干扰智能决策算法研究[J].西北工业大学学报,2021,39(02):367-374.

Li M,Ren Q H,Wu J L.Research on intelligent decision algorithm of UAV multi domain joint anti-jamming[J].Journal of Northwest Polytechnic University,2021,39(02):367-374.

[17] 刘春玲,刘敏提,丁元明.基于多域联合的无人机集群认知抗干扰算法[J].计算机工程,2020,46(12):193-200.

Liu C L,Liu M T,Ding Y M.Cognitive anti-jamming algorithm for UAV cluster based on multi domain joint[J].Computer Engineering,2020,46(12):193-200.

[18] 王浩同,刘白林,刘智平,等.基于区块链的无人机集群抗干扰通信模型[J].火力与指挥控制,2022,47(01):72-79.

Wang H T,Liu B L,Liu Z P,et al.Anti-interference communication model of UAV cluster based on blockchain[J].Fire and Command and Control,2022,47(01):72-79.

[19] Li H,Li Y,He C,et al.Cognitive electronic jamming decision-making method based on improved-learning algorithm[J].International Journal of Aerospace Engineering,2021,21(04):1624-1641.

[20] Xu Y,Ren G,Chen J,et al.Interference-aware cooperative anti-jamming distributed channel selection in UAV communication networks[J].Applied Sciences,2018,8(10):1911-1926.

Anti-jamming algorithm of UAV communication based on deep reinforcement learning

ZHANG Huiting1, ZHANG Ran1,2, LIU Minti3, DING Yuanming1

(1.Liaoning Key Laboratory of Communication Network and Information Processing, Dalian 116622, China; 2.College of Information Engineering, Dalian University, Dalian 116622, China; 3.National Laboratory of Radar Signal Processing, Xi’an University of Electronic Science and technology, Xi’an 710071, China)

Abstract: To solve the problem of bad communication environment and high reliability of information transmission for military Unmanned Aerial Vehicle (UAV), this paper presented a multi-domain joint cognitive anti-jamming intelligent decision algorithm based on Deep Double Q Learning (DDQN). The interference information was identified by the energy detection method, and the result of the interference discrimination information was input into the learning algorithm. Then, DDQN algorithm was used to interact with interference environment to introduce dynamic ε mechanism, adjust dynamically according to reward value and number of rounds ε value, decreases ε value if the decision fails, which is calculated from the number of rewards an rounds, increases the probability that the agent will choose the best action, if the decision is successful, the original randomness is maintained and the convergence speed of the algorithm is improved. The access channel and transmission time length were selected according to the dynamic DDQN algorithm, and the transmission time length was dynamically adjusted according to the interference degree of the current channel. The simulation results show that different transmission times and different ε under the condition of value, the communication security capacity of the proposed algorithm is improved by about 15%, and the average decision success rate remains about 95% after convergence. The overall anti-jamming performance of the UAV communication system is better.

Key words: multi domain joint; cognitive anti-jamming; deep reinforcement learning; intelligent decision; UAV communication

收稿日期:2022-05-17;

修回日期:2022-06-07

基金项目:国家自然科学基金项目(61901079);装备发展部领域基金一般项目(61403110308)

作者简介:张惠婷(1998—),女,硕士研究生,E-mail: l296514837@qq.com。

通信作者:丁元明(1967—),男,博士,教授,E-mail: dingyuanming@dlu.edu.cn。

doi: 10.11809/bqzbgcxb2022.10.004

本文引用格式:张惠婷,张然,刘敏提,等.基于深度强化学习的无人机通信抗干扰算法[J].兵器装备工程学报,2022,43(10):27-34.

Citation format:ZHANG Huiting, ZHANG Ran, LIU Minti, et al.Anti-jamming algorithm of UAV communication based on deep reinforcement learning[J].Journal of Ordnance Equipment Engineering,2022,43(10):27-34.

中图分类号:TN975

文献标识码:A

文章编号:2096-2304(2022)10-0027-08

科学编辑 李波 博士(西北工业大学副教授、博导)责任编辑 周江川