基于Dueling-DDQN的星上带宽资源预留算法研究

刘治国1,2,张姣姣1,2,潘成胜3

(1.大连大学 信息工程学院, 辽宁 大连 116600; 2.大连大学 通信与网络重点实验室, 辽宁 大连 116600;3.南京信息工程大学 电子与信息工程学院, 南京 211800)

摘要:针对低地球轨道卫星点波束频繁切换过程中存在缺乏可用带宽导致用户连接中断,影响用户QoS问题,提出了基于Dueling-DDQN的星上带宽资源预留算法研究。通过建立Dueling-DDQN神经网络作为决策评估器,来为呼叫分配带宽,有效避免了人工干扰。Dueling-DDQN神经网络结构采用对偶网络,可以增加学习性能,并在目标网络函数构建时应用DDQN方法,解决Q值过高估计问题,与动作空间探索时采用的ε-贪心策略不同,通Noisy方法来实现探索过程,增加模型的探索能力,实现低轨卫星网络通信系统信道带宽资源的动态预留。仿真结果表明:所提出的星上带宽资源动态预留方法可以降低用户的切换失败率和新呼叫阻塞率,增加带宽利用率,来提高用户QoS满意度,且相对于传统的启发式方法有更优的结果。

关键词:卫星网络;用户服务质量;深度强化学习;带宽资源;动态预留

0 引言

卫星通信网络由于其覆盖广、部署快、不受地面情况影响的优点,已经被用于多个商用系统,同时在国家基础服务、抢险救灾、军事应用等方面也是最可靠的通信手段[1-2]。然而由于卫星高速运动,低地球轨道(low earth orbit,LEO)卫星经常发生点波束切换。新的点波束没有足够的可用带宽,可能会导致切换失败概率增加,降低用户服务(quality of service,QoS)满意度。因此本文中的重点在于如何利用合适的带宽预留策略来满足用户的高QoS需求。

Maral等[3]提出了允许保证切换(guaranteed handover,GH)策略,该策略实现了一个合适的信道预留过程,保证正在进行的呼叫所有切换的成功,仿真证明GH方案比排队方案获得了更好的服务质量。但是,造成信道资源严重浪费,锁定的信道无法为其他新的业务或者是切换业务使用。

Huang等[4]提出基于概率的动态信道预留(probability dynamic reservation,PDR)的通信接纳方案,根据实时业务的切换概率来动态预留带宽。仿真证明该方案不仅降低了新通信阻塞概率,而且在一定程度上减少了越区切换连接丢失概率,同时保持了较高的资源利用率。

Chen等[5]提出一种基于自适应概率的预留策略(reservation strategy based on adaptive probability,APRS),在一定的概率下,为前一个小区预留的带宽可以分配给新呼叫请求。仿真证明,通过这种方式,增加系统可以服务的用户数量并有效地使用带宽。

Li等[6]提出了一种多波束联合资源分配(multi-beam joint resource allocation,MJRA)方案,充分利用不拥挤的波束带宽资源,在保证QoS的同时提高系统性能。

虽然上述文献在一定程度上解决了频繁点波束切换缺乏可用带宽导致用户连接中断的问题,并降低了切换失败率和新呼叫阻塞概率,提高了用户服务质量,但是策略中关于相关参数的计算过度依赖人工先验条件,其策略缺少灵活性。

针对上述问题,提出基于Dueling-DDQN的星上带宽资源预留算法,可根据用户的业务特性进行带宽资源预留。该方法首先构建SDN卫星网络带宽资源预留模型来获取卫星资源情况,然后构建Dueling-DDQN(dueling-double deep Q-network)网络结构,并作为决策评估器,可以避免人为条件的干扰,其中在网络结构中引入Noisy方法,增加探索效率。最后通过Dueling-DDQN算法对带宽资源进行智能分配,有效提高用户的服务质量和带宽利用率。

1 SDN卫星网络带宽资源预留模型

SDN[7]卫星网络带宽资源预留模型由3个部分组成,包括GEO控制层、LEO转发层和用户请求接入层。

在图1中,利用深度强化学习(deep reinforcement learning,DRL)方法来解决星上带宽资源的动态预留问题[8-9],其中 SDN 控制器被部署为 GEO(geosynchronous earth orbit) 卫星中的智能体(Agent),对整个卫星网络的全局资源控制,为各类呼叫请求制定动态细粒度的预留方法。通信用户向LEO卫星发出呼叫请求,LEO卫星会将用户呼叫请求信息作为状态信息(State,s),传递给Agent以分配带宽,Agent处理呼叫请求总共有3种动作策略(Action,a)以最大带宽分配、以最小带宽分配和不分配,通过最小带宽分配和不分配来预留带宽。Agent将动作策略返回给LEO卫星,LEO卫星会返回给Agent一个奖励(Reward,r),为了评估当前动作的质量,通过环境状态和智能体之间的持续交互,最终获得奖励积累最大的策略,并将最终的带宽资源预留策略返回给用户。

图1 SDN卫星网络带宽资源预留模型图

Fig.1 SDN satellite network bandwidth resource reservation model diagram

关于模型的元素设置如下:

1) 状态信息。假设一颗LEO卫星的每个点波束对应的总带宽为Bm,可以为G种业务类型提供服务,类别属于Class Ⅰ或Class Ⅱ(G∈{Class Ⅰ, Class Ⅱ})[10-11]。业务优先级的权重定义为λ=[λ1,λ2,…,λG]。通信用户向低轨卫星网络系统发出呼叫请求P=[WS1,WS2,…,WSi…,WSn]T,n代表呼叫请求个数,其中WSi=[WBi,WCi]。WBi代表业务类型WBi∈{1,2,…,G},WCi表示呼叫类型WCi∈{0,1}(0代表新呼叫,1代表切换呼叫)。

相应的状态信息包含呼叫请求信息WSi,si可以表示为

si=WSi

(1)

2) 动作策略。在Dueling-DDQN算法中,输入一个状态State,会对当前的呼叫请求进行带宽分配,接着便会执行这个动作ai。本文中对呼叫请求处理有3种带宽分配方式,定义为

(2)

式(2)中:Bmax表示以最大带宽接入,Bmin表示以最小带宽接入,Failed表示接入失败。因为Bmin和Failed会影响信道预留,可以通过动作Bmin和Failed来处理呼叫请求,以预留带宽。

3) 奖励。以动作ai处理呼叫信息后,需要根据实际环境来检验信道带宽分配方式ai的有效程度。环境会向Agent提供奖励反馈,反映Action所执行的正确性。如果所执行的Action是一个拒绝操作,那么环境状态便会提供一个负反馈。本文中关于3种动作,对应的初始奖励ri定义如下:

(3)

以最大带宽处理呼叫请求,获得的奖励最大,以最小带宽处理呼叫请求获得第二奖励,拒绝获得负奖励,所以r0>r1>0>r2。此外,WSi的呼叫类型对策略的绩效有不同的影响,如式(4)所示。σ0反映切换连接的优先级,σ1表示新连接的优先级。

(4)

2 卫星网络带宽资源预留策略

2.1 Dueling-DDQN网络结构

本文中算法采用的网络结构是Dueling-DDQN,在Dueling-DDQN中Q网络的神经网络可以将输入一个状态得到的动作映射到它的值,即这个映射过程完全由神经网络实现,没有任何人工限制。在图2中,Q网络和目标Q网络结构相同采用Dueling Network,同时目标Q网络函数构建的时候应用DDQN方法。环境状态si输入到Q网络中,得到Q网络的Q和返回给环境的动作ai,环境状态获取下一个状态si+1和当前动作的奖励ri,并将<si,ai,ri,si+1>放到经验池中。从经验池获得状态si输入到Q网络中,得到动作ai对应的Q值。将状态si+1输入到目标Q网络中,同时在Q网络中选择si+1状态时最大Q值对应的动作amax,用amax来寻找目标网络中的Q最后,Q网络和目标Q网通过loss函数反向传播来更新网络参数

图2 Dueling-DDQN网络结构

Fig.2 Dueling-DDQN network structure

2.2 Dueling-DDQN策略

1) 决策目标。星上资源预留过程,是根据卫星带宽资源利用情况和呼叫信息,以分配信道带宽,并根据获得的累积奖励确定最优的资源预留策略。由于卫星带宽有限,不能以最高奖励处理每一个业务请求,本文中方法的最终目标是确定一个长期性能增益最大、最优的动态星上资源策略π*,π*定义如下:

(5)

式(5)中: γ表示奖励重要性的折扣因子,Eπ[·]表示带宽预留策略π*的期望。

2) Dueling-DDQN函数构建。在Dueling-DDQN算法框架中Dueling DQN将Q网络分成2部分[12],第1部分只与si有关,与具体的ai无关,这部分称为价值函数(value function)部分,记做第2部分与siai都有关。这部分称为优势函数部分(benefit function),记为所以网络的输出由一个价值函数和一个优势函数组成,数学上表示为式(6):

(6)

但是在原始的Dueling DQN算法中采用的epsilon-greedy(ε-greedy)是通过根据行动的最佳概率来选择行动,从而提高探索效率。但是,ε-greedy实际上对于很多问题[13]都是无效的,在某些情况下,由于探索空间有限[14],可能永远无法通过ε-greedy学习到最优策略。因此将Noisy[15]方法应用于Dueling-DDQN框架中,解决ε-greedy存在探索效率低效的问题。Noisy与传统的探索启发式方法ε-greedy策略不同,引入参数噪声Noisy提高探索效率。

所以本文中关于价值函数和优势函数的计算,加入Noisy方法,最终动作值函数可以表示为式(7):

(7)

式(7)中: 价值函数和优势函数可以表示为式(8)—式(10)所示:

(8)

(9)

(10)

由于无法通过学习Q函数来唯一确定价值函数和优势函数,通过优势函数的平均值来解决可识别性问题,如式(11)所示:

(11)

式(11)中:表示公共部分的网络参数其中是价值函数和优势函数的网络参数。

Dueling-DDQN算法中DDQN算法[16]是在原有的DQN算法模型基础上,通过解耦目标Q值动作的选择和目标Q值的计算,消除由于神经网络预测的最大Q值导致的误差,每次更新也将神经网络向误差最大的目标Q值进行改进,导致存在过度估计问题。在动作选择时,不是在目标Q网络里面找各个动作中最大Q值,而是先在当前Q网络中找出最大Q值对应的动作,具体表达为式(12):

(12)

利用式(12)选择出的amax去计算目标Q值,如式(13):

(13)

DDQN的最终目标Q值,可由式(12)和式(13)可得:

(14)

3) 损失(Loss)函数构建。Dueling-DDQN算法基于Q-Learning来确定Loss函数,函数表达式为

(15)

式(15)中: si为当前LEO卫星网络系统资源状态,ai为当前用户所采取的动作,si+1为LEO卫星网络系统下一次资源状态,ai+1即为该状态下用户所采取的动作。表示目标Q网络函数的参数,本文中所有参数使用梯度下降法中的Adam[16]方法逐步更新网络参数。

2.3 Dueling-DDQN算法流程

Q网络通过最小化Loss函数持续更新神经网络参数,基于Dueling-DDQN的卫星带宽资源预留算法流程如下:

算法:基于Dueling-DDQN的卫星带宽资源预留算法

1.初始化记忆池容量D,遍历次数M

2.初始化卫星系统相关参数

3.随机权重初始化函数QQtarget

4.统计用户业务的请求情况和卫星当前带宽资源利用情况;

5. for episode=1, M do

6. 初始化卫星资源状态信息si

7. for i=1, n do

8. 以Noisy方法使得Q值随机化

9. 执行带宽分配动作ai,更新状态信息si,并获取卫星下一资源状态信息si+1

10. 获得当前奖赏ri

11. 将转换transition<si,ai,ri,si+1>存储到记忆池中

12. if D>5 000 then

13. 随机从记忆池中选择一批数据进行训练

14. 代入式(15)更新Q网络;

15. end if

16. end for

17.end for

18.返回最优策略

2.4 性能评估指标

为了衡量信道带宽预留策略的性能,通过3个部分来定义性能评估指标。Pe1作为用户通信过程中的系统整体性能评估的参考指标。具体式(16)所示:

(16)

式(16)中:为业务类型g的新连接阻塞率,为业务类型g的切换连接失败率,λg为业务类型g的优先级权重。

Pe2为通信速度的效益评估指标,具体表示为式(17):

(17)

式(17)中:属于以最大请求带宽通信的服务类型g的呼叫比例。

Pe3为带宽利用率评估指标,具体表示为式(18):

(18)

式(18)中:是实际已分配给服务类型g的带宽数,是可用总带宽。

3 仿真

考虑卫星在环绕地球的圆形轨道上周期性和固定的轨道运动所带来的轨道可预测性,可以将单颗卫星覆盖模型简化为小区模型[18-20],并且卫星覆盖范围内的用户满足均匀分布[21]。模拟了G种典型的多媒体服务[10],这些多媒体应用的业务参数定义在表1中。在仿真模型中,卫星方面的模拟参数[22],定义如表2所示。根据各类优先级情况和中断正在进行的连接更加影响用户QoS,优先级权重和权值参数[4,8]定义如表3所示。文中方法所涉及的深度强化学习参数也定义在表3中。经过多次实验不同的学习率获得不同的性能,收敛速度也会不同,所以表3中学习率设置为0.01[23],学习速率为0.01时收敛的速率最快,稳定性高。

表1 数据相关参数

Table 1 Data related parameter

Traffic ClassBavg/(kb·s-1)Bmin/(kb·s-1)Bmax/(kb·s-1)Tm/sTmin/sTmax/sI-a30303018060600I-b256256256300601 800I-c3 0001 0006 0006003001 800II-a105203010120II-b256645121803036 000II-c5 0001 00010 000120301 200

表2 卫星相关参数

Table 2 Satellite related parameter list

参数价值卫星高度780 km卫星总带宽Bm=30 Mb/s矩形边长2R425 km连接到达率0.02~0.16个请求/s

表3 方法相关参数

Table 3 Method related parameter list

参数价值动作定义a0=0,a1=1,a2=2奖励定义r0=1,r1=0.5,r2=-1优先级权重λ=[0.2,0.8]权值参数σ0=0.2、σ1=0.8损失因子γ=0.9学习率0.01记忆池容量D=5 000迭代次数M=50 000批量200

在仿真模型中,针对不同的连接到达速率,我们比较了不同接入策略下的系统性能,包括基于无优先接入策略(NPS)、基于概率的动态信道预留策略(PDR)、基于DQN的卫星信道带宽资源预留策略(DBR)和基于Dueling-DDQN的星上带宽资源预留策略(DDBRR),最终仿真图如图3、图4和图5所示。

图3分析了系统整体服务质量,按照式(16)所示,可以看出Pe1越大,用户服务质量越低,Pe1越小,用户服务质量越好。显然,本文中所提出的基于DDBRR策略性能最好,因为DDBRR策略避免了人工干扰,通过建立Dueling-DDQN神经网络结构来做决策。DBR策略因为过估计等问题性能低于DDBR策略,而NPS策略性能最差,因为NPS策略没有为高优先级的业务呼叫保留信道。

图3 Pe1用户整体服务质量

Fig.3 Pe1overall service quality of users

图4显示了性能评估指标Pe2的仿真结果,从图4中可以看出,本文中提出的DDBRR策略的Pe2值在所有方案中最低,但是从用户通信速度满意度方面,DDBRR策略性能优于NPS、PDR和DBR策略。

图4 Pe2用户通信速度服务质量

Fig.4 Pe2 user communication speed and service quality

带宽利用率是衡量系统的一个重要参数,通过资源利用率来衡量系统性能。图5表示了4种策略的带宽利用率与连接到达速率的关系,性能评估指标Pe3。与其他3种策略相比DDBRR策略带宽利用率最高,说明本文中所提出的策略可以更加有效的利用系统带宽资源。

图5 Pe3带宽利用率

Fig.5 Pe3 bandwidth utilization

4 结论

针对波束频繁切换缺乏可用带宽导致用户连接中断问题,提出基于Dueling-DDQN的星上带宽资源预留算法,可以根据当前的卫星资源状态来做出最佳的带宽分配策略。基于Dueling-DDQN算法,利用Dueling Network提高学习性能,通过DDQN保证无偏估计,其中加入Noisy来增加探索空间,通过不断的学习探索来为请求动态分配带宽。

通过仿真证明所提出的星上带宽资源预留算法,可以保障用户整体服务质量、用户通话质量满意度和最大化提高带宽资源利用率。下一步的研究工作中将针对Dueling-DDQN算法模型中经验池采样方法进行优化,降低经验相关性。

参考文献:

[1] 张沛,刘帅军,马治国,等.基于深度增强学习和多目标优化改进的卫星资源分配算法[J].通信学报,2020,41(6):51-60.

ZHANG Pei,LIU Shuaijun,MA Zhiguo,et al.Satellite resource allocation algorithm based on deep reinforcement learning and multi-objective optimization[J].Journal of Communication,2020,41(6):51-60.

[2] 邵烨荣.基于Kalman滤波和APNN的卫星网络节点故障定位方法[J].兵器装备工程学报,2022,43(2):191-196.

SHAO Yerong.Fault location method of satellite network nodes based on Kalman filter and APNN[J].Journal of Weapon and Equipment Engineering,2022,43(2):191-196.

[3] MARAL G,RESTREPO J,DEL RE E,et al.Performance analysis for a guaranteed handover service in an LEO constellation with a “satellite-fixed cell” system[J].IEEE Transactions on Vehicular Technology,1998,47(4):1200-1214.

[4] HUANG F,WU S,XU H,et al.Probability based dynamic channel reservation strategy for reliable handoff in multimedia LEO satellite communications[C]//2005 IEEE International Symposium on Microwave,Antenna,Propagation and EMC Technologies for Wireless Communications.IEEE,2005,2:1567-1570.

[5] CHEN L M,GUO Q,WANG H Y.A handover management scheme based on adaptive probabilistic resource reservation for multimedia LEO satellite networks[C]//2010 WASE International Conference on Information Engineering.IEEE,2010,1:255-259.

[6] LI Y,WANG S,ZHOU W.A novel dynamic resource optimization method in LEO-MSS downlink with multi-service based on handover forecasting[C]//2019 IEEE 5th International Conference on Computer and Communications (ICCC).IEEE,2019:809-814.

[7] 赵杰.基于SDN的VDES卫星网络路由关键技术研究[D].成都:电子科技大学,2017.

ZHAO Jie.Research on key technologies of VDES satellite network routing based on SDN[D].Chengdu:University of Electronic Science and Technology of China,2017.

[8] LI Z,XIE Z,LIANG X.Dynamic channel reservation strategy based on DQN algorithm for multi-service LEO satellite communication system[J].IEEE Wireless Communications Letters,2020,10(4):770-774.

[9] WANG X,WANG X.The research of channel reservation strategy in LEO satellite network[C]//2013 IEEE 11th International Conference on Dependable,Autonomic and Secure Computing.IEEE,2013:590-594.

[10] NISHIYAMA H,KUDOH D,KATO N,et al.Load balancing and QoS provisioning based on congestion prediction for GEO/LEO hybrid satellite networks[J].Proceedings of the IEEE,2011,99(11):1998-2007.

[11] MNIH V,KAVUKCUOGLU K,SILVER D,et al.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529-533.

[12] WANG Z,SCHAUL T,HESSEL M,et al.Dueling network architectures for deep reinforcement learning[C]//International conference on machine learning.PMLR,2016:1995-2003.

[13] OSBAND I,VAN ROY B,WEN Z.Generalization and exploration via randomized value functions[C]//International Conference on Machine Learning.PMLR,2016:2377-2386.

[14] OSBAND I,ASLANIDES J,CASSIRER A.Randomized prior functions for deep reinforcement learning[J].Advances in Neural Information Processing Systems,2018,31(4):77-86.

[15] FORTUNATO M,AZAR M G,PIOT B,et al.Noisy networks for exploration[J].arXiv preprint arXiv:1706.10295,2017.

[16] VAN HASSELT H,GUEZ A,SILVER D.Deep reinforcement learning with double q-learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2016.

[17] 胡先童.基于平均场博弈的超密集5G小蜂窝网络下行功率管理[J].重庆工商大学学报(自然科学版),2022,39(6):105-111.

HU Xiantong.Downlink power management of ultra-dense 5G small cellular networks based on mean field game[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2022,39(6):105-111.

[18] WANG J,SUN L,ZHOU J,et al.A dynamic channel reservation strategy based on priorities of multi-traffic and multi-user in LEO satellite networks[J].Journal of Circuits,Systems and Computers,2020,29(5):2050082.

[19] 汤辉,邹钦羊,朱立东,等.卫星通信系统多优先级信道预留分配策略[J].太赫兹科学与电子信息学报,2019,17(5):765-770.

TANG Hui,ZOU Qinyang,ZHU Lidong,et al.Multi-priority channel reservation allocation strategy for satellite communication system[J].Journal of Terahertz Science and Electronic Information,2019,17(5):765-770.

[20] FEI H,ZHU Lidong,WU Shiqi.A novel probability-based handoff strategy for multimedia LEO satellite communications[J].Journal of Electronic Science and Technology,2007,5(1):7-12.

[21] DUAN C,DUAN R,FENG J,et al.A novel channel allocation strategy in low earth orbit satellite networks[C]//2020 IEEE 6th International Conference on Computer and Communications (ICCC).IEEE,2020:8-13.

[22] DEL RE E,FANTACCI R,GIAMBENE G.Efficient dynamic channel allocation techniques with handover queuing for mobile satellite networks[J].IEEE Journal on Selected Areas in Communications,1995,13(2):397-405.

[23] LENG T,XU Y,CUI G,et al.Caching-aware intelligent handover strategy for LEO satellite networks[J].Remote Sensing,2021,13(11):2230-2248.

On-board bandwidth resource reservation algorithm based on Dueling-DDQN

LIU Zhiguo1,2, ZHANG Jiaojiao1,2, PAN Chengsheng3

(1.School of Information Engineering, Dalian University, Dalian 116600, China; 2.Key Laboratory of Communication and Network, Dalian University, Dalian 116600, China; 3.School of Electronics and Information Engineering, Nanjing University of Information Science and Technology, Nanjing 211800, China)

AbstractAiming at the problem that the lack of available bandwidth leads to the interruption of users’ connection and affects users’ QoS in the process of frequent spot beam switching of LEO satellites, research on on-board bandwidth resource reservation algorithm based on Dueling-DDQN is proposed. By establishing Dueling-DDQN neural network as a decision evaluator, bandwidth is allocated for calls, which effectively avoids human interference. Dueling-DDQN neural network structure adopts dual network, which can improve the learning performance. In addition, DDQN method is applied to construct the objective network function to solve the problem of over-estimation of Q value. Different from ε-greedy strategy used in action space exploration, Noisy method is used to realize the exploration process, increase the exploration ability of the model, and realize the dynamic reservation of channel bandwidth resources in LEO satellite network communication system. The simulation results show that the proposed dynamic reservation method of on-board bandwidth resources can reduce the handover failure rate and new call blocking rate of users, increase bandwidth utilization rate, and improve users’ QoS satisfaction, and it has better results than the traditional heuristic method.

Key wordssatellite network; user service quality; deep reinforcement learning; bandwidth resources; dynamic reservation

收稿日期:2022-12-13;

修回日期:2023-01-09

基金项目:国家自然科学基金项目(61931004)

作者简介:刘治国(1974—),男,博士,教授,E-mail:liuzhiguo_dldx@163.com。

doi:10.11809/bqzbgcxb2023.12.036

本文引用格式:刘治国,张姣姣,潘成胜.基于Dueling-DDQN的星上带宽资源预留算法研究[J].兵器装备工程学报,2023,44(12):272-277,284.

Citation format:LIU Zhiguo, ZHANG Jiaojiao, PAN Chengsheng.On-board bandwidth resource reservation algorithm based on Dueling-DDQN[J].Journal of Ordnance Equipment Engineering,2023,44(12):272-277.

中图分类号:TN927.2

文献标识码:A

文章编号:2096-2304(2023)12-0272-06

科学编辑 揭晓 博士(94860部队工程师)

责任编辑 徐佳忆