无人自主系统及智能决策专栏
专栏主编:李波(西北工业大学副教授、博导)
导语:自主无人系统是一个新兴的跨学科领域,依靠大数据、人工智能以及其他科学技术的进步来创造具有集成任务、运动规划、决策和推理能力的无人系统,具有自主性、智能性和协作性等特征。当前,围绕自主无人系统仍有智能态势感知、智能态势认知、智能指挥决策、智能协同控制等诸多关键科学问题亟待深入研究。
为了探讨和交流无人自主系统及智能决策的新理论、新方法和新应用,本专栏收录了领域内相关研究机构的10篇论文,内容涵盖多无人平台空战任务规划、协同围捕规划、区域侦察规划,无人平台路径规划、自主跟踪控制、作战效能评估,无人平台健康退化建模、装置动态参数模拟等等方面,希望能够促进业内相关科研人员的深入合作与交流,推动智能无人系统的前沿技术创新与高质量发展。
随着无人机性能的提升,利用多架无人机相互协同执行无人机对抗无人机、无人机对抗有人机等复杂空战任务已得到各国军方的关注[1-2]。任务规划方法是多无人机协同空战过程中的核心关键技术之一,有效的任务规划方法能够使多无人机形成有效的战术战法[3]、采取合理的目标分配方案[4],从而提高多无人机协同的整体作战效能。
为验证多无人机协同空战任务规划算法的有效性,若采用真实无人机用于任务规划算法的演练与验证,将会面临维护费用高、运行风险大、保障措施复杂等一系列问题[5],对此,研究人员主要通过数值实验方式对运筹优化[6-7]、博弈决策[8]、强化学习[9-11]等不同类型的多无人机协同空战任务规划算法进行有效性验证。然而,上述数值实验的验证方式对无人机的飞控、火控模型做出了较大简化,难以精细模拟多架无人机协同空战的实际过程。因此,研发多无人机协同空战任务规划仿真系统,在虚拟的空战环境中构建交战双方的飞机、武器等实体,模拟多无人机的协同飞行、战术执行和目标分配等空战过程,对节约研究成本、有效验证任务规划算法具有重要意义。
目前已有一些针对空战仿真系统的研究。在有人机空战仿真系统研究方面,王领等[12]基于开源仿真软件FlightGear和通用仿真软件Matlab,研发了一种空战任务可视化仿真系统,通过网络将各模拟座舱连接,能够实现多架有人机的对抗仿真。Gosse等[13]研发了一种嵌入式训练空战仿真系统,该系统能够采集飞行员的操作信号并输入到各种航电设备,最后反馈给仿真环境,使飞行员能够通过对抗多类虚拟部队进行空战训练。在无人机对抗有人机的空战仿真系统研究方面,Shin等[14]在商用飞行模拟器X-Plane基础上进行二次开发,实现了1架无人机对抗1架有人机的空战仿真。Yuan等[15]研发了空战战术决策仿真系统,该系统包含多种战术机动、火控模型,能够实现1架无人机对抗1架有人机的空战战术机动仿真。在无人机空战仿真系统研究方面,卢锐轩等[16]在传统空战仿真系统基础上,通过改造智能体与仿真平台的交互接口,构建了1对1的无人机空战智能自博弈平台,能够支持对基于人工智能的机动决策算法的训练和验证。王国强等[17]基于VR-Forces仿真引擎,构建了一种分布式的无人机编队协同任务规划仿真系统,能够仿真无人机对抗无人机的协同空战任务规划过程,支持多类的任务规划算法的验证,并提供仿真过程的二维场景展示。
然而,上述空战仿真系统的用途相对比较聚焦、功能相对有限,难以满足多种复杂场景下的多无人机协同空战任务规划仿真需求,例如:既能支持无人机对抗无人机、又能支持无人机对抗有人机;既能支持不同语言开发的任务规划算法的验证,又能支持基于人工智能的任务规划算法的训练。对此,基于VR-Forces仿真引擎,设计了一种通用的多无人机协同空战任务规划仿真系统,主要创新点如下:
1) 设计并开发了算法库模块,能够对多类、多种算法进行统一管理,可以兼容多种编程语言实现的算法,具备算法的封装、调用、添加和修改等功能。
2) 在红、蓝、白三方子系统的基础上,设计并开发了强化学习算法子系统,建立了强化学习算法子系统与红方/蓝方子系统间的数据交互机制,能够支持基于强化学习的多无人机协同空战任务分配算法的训练与验证。
3) 提出了人机交互关键技术,实现了使用模拟座舱物理连接的人在环路仿真,能够真实有效地模拟飞行员操控有人机飞行和攻击目标,从而支持无人机对抗有人机的空战模式。
多无人机协同空战是一个复杂的博弈过程,中间涉及到多个决策环节,包括战术决策、目标分配和重决策等等。记红方为R方,蓝方为B方,R方有m个无人机,B方有n个无人机,具体任务规划过程分析如下。
战术决策是多无人机协同空战中重要的宏观性决策环节,一般发生于目标分配之前。在战术决策时,需要在对整个空战态势深入分析和对作战对象威胁程度充分理解的前提下,采取如包夹攻击、诱敌等战术策略以保证我方无人机安全、高效地完成作战任务[7,18]。基于博弈的思想,将多无人机协同空战战术决策问题构建为一个博弈模型G=(SR,SB,U),具体如下:
①表示R方的博弈策略空间,R方的一个博弈策略对应为R方的一个战术决策方案。
②表示B方的博弈策略空间,B方的一个博弈策略对应为B方的一个战术决策方案。
③ U=[(urij,ubij)]p×q:为战术策略的支付矩阵。urij和ubij分别为博弈策略组合下R方和B方的博弈支付值。
当对抗双方执行所决策的战术方案进入彼此的探测范围后,红方无人机需要通过解析对抗过程中获取到的数据,计算敌我双方空战态势,在此基础上,制定红方无人机的目标分配方案,以指导每个无人机在后续对抗过程中对抗相应的目标[19-22]。基于纳什均衡博弈的思想,将R方和B方作为博弈的参与人,将多无人机协同空战目标分配问题建模为双矩阵博弈模型G=(SR,SB,U),具体如下:
①表示R方的博弈策略空间,R方的一个博弈策略对应为R方的一个目标分配方案。
②表示B方的博弈策略空间,B方的一个博弈策略对应为B方的一个目标分配方案。
③ U=[(urij,ubij)]nm×mn:为博弈的支付矩阵。urij和ubij分别为博弈策略组合下R方、B方的支付值。
由于多无人机协同空战环境中存在大量的动态性和不确定性,导致先前制定好的决策方案可能随着对抗的进行不再适用当前环境,需要根据复杂的战场环境找准改变当前决策的关键时机点T,在T时刻进行重决策并进行后续对抗,从而在对抗过程中占据优势,重复上述过程直至对抗结束[23-25]。基于马尔可夫决策过程理论,将多无人机协同空战重决策问题建模为马尔可夫决策模型M=〈S,A,Ps,a,F〉,具体如下:
① S:为无人机状态空间,包含了所有可能达到的状态s∈S,其中s=(sR1,sR2,…,sRm,sB1,sB2,…,sBn),由m个红方无人机状态数据和n个蓝方无人机状态数据组成。
② A:为重决策动作空间,包含了可能采取的重决策动作a∈A,其中a=1表示进行重决策,a=0表示不进行重决策,即保持当前决策方案不变。
③ Ps,a:为执行动作a时由当前状态s转移到下一状态s′的概率。
④ F:为当前状态s下采取某个重决策动作a后的期望奖励回报E[F|s,a]。
VR-Forces仿真引擎是美国MAK公司开发的国际领先仿真工具,具备简单易用的图形接口、大量仿真实体模型和一套面向对象的API程序接口,并且支持分布式交互仿真;同时,自带成熟的地形建模工具,可以根据需求灵活创建仿真场景,为多无人机协同空战仿真提供了有力支持[26]。针对多无人机协同空战任务规划仿真系统的实际需求,本研究结合VR-Forces仿真引擎特点,设计了多无人机协同空战任务规划仿真系统体系架构,如图1所示。
图1 多无人机协同空战任务规划仿真系统的体系架构
Fig.1 Architecture of multi-UAV cooperative air combat task planning simulation system
该系统架构由红方子系统、蓝方子系统、白方子系统以及强化学习算法训练子系统等4部分构成,支持无人机对抗无人机、无人机对抗有人机等多种空战模式。其中,红方子系统和蓝方子系统拥有相同的架构,可以根据空战模式灵活配置,所有子系统采用分布式架构在同一局域网下进行通信。
红方/蓝方子系统负责对己方无人机或有人机的仿真,其内部模块具体内容如下:
1) VR-Forces仿真引擎:作为仿真系统的核心基础组件,负责无人机/有人机的动力学、感知、毁伤等模型的仿真,仿真时间同步以及子系统间的网络通信。
2) 红方/蓝方视景展示模块:以红方/蓝方的视角,展示双方无人机/有人机的状态信息以及双方对抗过程。
3) 算法库:支持对任务规划算法的封装、选择、调用以及新算法的添加,现有任务规划算法包括战术决策、目标分配和重决策等算法。
4) 战术决策模块:通过调用算法库中的战术决策算法,得到相应的战术方案,并发送给VR-Forces仿真引擎去执行。
5) 目标分配模块:通过调用算法库中的目标分配算法,得到相应的目标分配方案,并发送给VR-Forces仿真引擎去执行。
6) 重决策模块:调用算法库中的重决策算法,确定战术决策、目标分配等模块的调用时机。
7) 人机交互模块:通过屏幕和VR眼镜,以驾驶舱第一视角的方式向操作员展示有人机自身、友机与敌机的状态信息;同时,通过油门杆、驾驶杆、触摸屏等输入设备,操作员可以实时地对仿真系统中的有人机进行飞行控制、选择目标进行攻击等操作。
白方子系统负责仿真的全局配置和展示,通过运行VR-Forces仿真引擎和系统内部模块实现对红蓝双方对抗全过程的仿真。白方子系统内部模块的具体内容如下:
1) 白方视景展示模块:在仿真过程中,以二维或者三维的方式实时展示红蓝双方对抗过程,同时可以查看双方有人机/无人机的全部信息。
2) 场景管理模块:负责对任务场景的创建、加载、修改以及保存。针对不同任务需求创建不同的任务场景文件,以实现对多无人机协同空战进行仿真。每个场景文件包括仿真地形、红蓝双方实体状态等信息。
3) 批处理模块:通过设置任务场景、仿真次数以及单局对抗时间,可以实现在无人工干预的情况下,多次对同一场景进行仿真。通过与强化学习算法训练子系统搭配使用可以实现对强化学习算法进行大批量的训练学习。同时,批处理模块包含日志回放功能,可以实现对仿真过程的数据记录及回放。
4) 仿真控制模块:可以控制仿真的开始、暂停和退出,也可以控制仿真的加速和减速,支持在0.5倍速至16倍速间的仿真。
5) VR-Forces仿真引擎:根据场景管理、批处理和仿真控制等模块中的参数配置对仿真过程进行管理;获取无人机、有人机的状态信息;驱动白方视景展示模块展示仿真对抗全过程。
强化学习算法训练子系统基于python语言开发,负责对强化学习算法进行训练与学习,并集成了TensorFlow、PyTorch等工具。该子系统由以下5个模块组成:
1) 数据接收模块:接收红方/蓝方子系统发送的数据,提取数据并进行格式转换。
2) 数据预处理模块:对数据进行预处理,包括数据过滤、数据归一化和数据补全等功能,处理后的数据作为强化学习算法模块的输入。
3) 奖励计算模块:对获取数据进行解析,采用预设的奖励计算方法得到奖励回报值,用于对强化学习算法参数的迭代更新。
4) 强化学习算法模块:加载待训练的强化学习算法,通过切换不同算法实现对多个强化学习算法的训练学习,负责输出决策方案到数据发送模块以及算法的迭代更新等。
5) 数据发送模块:将数据进行格式转换,并发送到红方/蓝方子系统中。
本研究中设计的多无人机协同空战任务规划仿真系统中主要包括3个关键技术,具体介绍如下。
为了便于大量算法的统一管理以及新算法的添加,在红方/蓝方子系统中设计了一种具有多层逻辑架构的算法库,如图2所示。
图2 算法库的多层逻辑架构示意图
Fig.2 The illustration of the multi-level logical architecture of the algorithm library
多无人机协同空战任务规划仿真系统算法库中的算法在逻辑架构上分为4层。其中,第1层为算法库的入口;第2层为解决空战过程中某个关键决策问题的算法;第3层为求解相应关键决策问题的不同种类的算法;第4层为某个类型算法下的多个具体算法。其中,第4层中相同类型的算法具有统一的输入输出接口,可直接进行相互替换,例如,在图2中,LH算法、GA算法和PSO算法的输入均为博弈双矩阵,输出为目标分配方案的编号。
为了对算法进行统一管理以及方便战术决策、目标分配等模块的调用,在对算法库进行实现时,针对图2中第3层的每类算法,设计了相应的算法原型,定义了该类算法的输入和输出规范。例如,基于优化方法的目标分配算法原型、基于双矩阵博弈的目标分配算法原型。第4层的算法则可以根据相应的算法原型进行实现和封装。其中,在实现具体的算法时,除了算法的实现接口,还定义了算法类型、名称、初始化等多个管理接口,以便算法库管理。图3给出了算法库的实现架构示意图。
图3 算法库的实现架构示意图
Fig.3 The illustration of the implementation architecture of the algorithm library
在图3中,将LH算法、GA算法和PSO算法添加到算法库时,只需要根据基于双矩阵博弈的目标分配算法原型封装成相应的动态链接库,再将其添加到指定文件夹即可。同时,若要添加新的算法类型,例如添加基于贝叶斯博弈的战术决策算法,则直接定义该类型的算法原型,并封装成动态链接库,再将其添加到指定文件即可。并且,LH算法、GA算法和PSO算法的动态链接库的具体实现过程中,可以采用 C/C++/Python/Matlab等多种编程语言进行,具有很好的兼容性。
上述算法库的多层逻辑架构和实现架构可以减少算法与具体决策问题之间的耦合性,增强算法的复用性,避免仿真系统中算法的冗余,提高仿真系统的运行效率。同时,可以根据需要向算法库中添加某类或某种算法,扩展仿真系统的功能。在该架构下,多无人机协同空战任务规划仿真系统的算法库具备对算法的封装、选择、调用和添加等功能。
为了支持对基于强化学习的多无人机协同空战任务规划算法的训练,在上述仿真系统体系架构的基础上,本文提出了一种强化学习算法训练技术。训练时红方/蓝方子系统将无人机状态信息以特定数据格式传输给强化学习算法训练子系统,在强化学习算法训练子系统中进行解算将决策信息返回到红方/蓝方子系统中,进行仿真对抗。在仿真系统中经过大量训练后,可以使算法的性能稳定提升。以训练红方的重决策算法为例,该强化学习算法训练技术的框架如图4所示。
图4 强化学习算法训练技术框架
Fig.4 Reinforcement learning algorithm training technology framework
在此框架下,训练的基本步骤如下:
步骤1:在白方子系统的场景管理模块中创建或者加载任务场景,在白方子系统的批处理模块中设置仿真时长、仿真次数等参数,然后发送给红方子系统。
步骤2:根据当前对抗情况,红方子系统中的VR-Forces仿真引擎将无人机的状态信息以JSON格式发送到强化学习算法训练子系统的数据接收模块中。
步骤3:强化学习算法训练子系统的数据接收模块提取无人机状态信息并发送到数据预处理模块中;数据预处理模块对无人机状态信息进行数据筛选、数据归一化、数据补齐等处理后发送到奖励计算模块和强化学习算法模块中。
步骤4:强化学习算法训练子系统的奖励计算模块将无人机状态信息作为输入,根据奖励函数得到奖励回报值发送到强化学习算法模块中;强化学习算法模块一方面将无人机状态信息作为神经网络输入得到重决策结果,另一方面根据奖励回报值的大小对网络参数进行迭代更新。
步骤5:强化学习算法训练子系统的数据发送模块将重决策结果转换成JSON格式发送到红方子系统的目标分配模块或战术决策模块中,相应模块调用算法库中的算法得到决策方案。
步骤6:红方子系统的VR-Forces仿真引擎根据决策方案进行仿真对抗,同时将实时的无人机状态信息发送给白方子系统,白方子系统的视景展示模块进行仿真过程的实时展示。
步骤7:重复步骤2—步骤6,直至达到预设仿真次数,白方子系统的仿真控制模块控制整个仿真结束。
为了真实有效地模拟飞行员操控有人机,实现无人机对抗有人机的空战模式,结合VR-Forces仿真引擎的特点,提出了一种人机交互技术,基本框架如图5所示。
图5 人机交互技术框架
Fig.5 Human computer interaction technology framework
在仿真过程中,人机交互模块实时解析操作员通过油门杆和驾驶杆发送的速度控制信息、姿态控制信息以及火力控制信息,并发送到VR-Forces仿真引擎中实现对有人机的控制。同时,人机交互模块还需要解析由VR-Forces仿真引擎发送的状态信息,并分类同步展示在3个不同的屏幕中。下面从人机交互模块接收的信息和发送的信息两方面进行详细说明:
1) 人机交互模块接收的信息
人机交互模块接收的信息具体包括状态信息、速度控制信息、姿态控制信息和火力控制信息。
① 状态信息:由自身状态信息、友机状态信息和敌机状态信息3部分组成。自身状态信息和友机状态信息包括位置坐标、速度、角度、余弹和油量等基本信息;敌机状态信息包括位置坐标、速度和角度等基本信息。
② 速度控制信息:通过速度控制信息可以调整有人机的飞行速度。在仿真过程中,人机交互模块实时监测油门杆的控制方向,当操作员调整油门杆方向时,人机交互模块会接收到相应的速度控制信息。
③ 姿态控制信息:通过姿态控制信息可以调整有人机的飞行方向。在仿真过程中,人机交互模块实时监测驾驶杆的控制方向,当操作员调整驾驶杆方向时,人机交互模块会接收到相应的姿态控制信息。
④ 火力控制信息:通过火力控制信息可以控制有人机对选定目标发射导弹。在仿真过程中,人机交互模块实时监测驾驶杆的控制按键,当操作员按下目标选择按键或发射导弹按键时,人机交互模块会接收到相应的火力控制信息。
2) 人机交互模块发送的信息
人机交互模块发送的信息包括决策信息、控制信息、待决策信息、第一视角信息和相对态势信息。
① 决策信息:当人机交互模块接收到火力控制信息后,会将该信息转换为有人机需要执行的决策信息,包括对目标的选择以及发射导弹等,并将决策信息发送到VR-Forces仿真引擎中,实现对有人机的目标选择以及发射导弹控制。
② 控制信息:当人机交互模块接收到速度控制信息和姿态控制信息后,会将该信息转换为有人机需要执行的控制信息,包括对速度的控制和方向的控制等,并将控制信息发送到VR-Forces仿真引擎中,实现对有人机的飞行控制。
③ 待决策信息:待决策信息包括自身的剩余导弹信息和目标选择信息。在仿真过程中,屏幕一中将同步显示本机的剩余导弹数量;当敌机进入我方攻击范围时,敌机的编号将进入目标选择信息栏中,此时操作员可以通过驾驶杆上的目标选择按键选择需要攻击的敌机,并通过驾驶杆上的发射导弹按键向该敌机发射导弹。
④ 第一视角信息:在仿真过程中,人机交互模块会将把本机状态信息转换为第一视角信息在屏幕二中同步显示,以模拟有人机飞行员在真实空战中所能看到的画面。同时,当敌机进入我方探测范围时,还会显示敌机的相对方位信息。
⑤ 相对态势信息:在仿真过程中,人机交互模块会根据VR-Forces仿真引擎中的自身状态信息、友机状态信息和探测到的敌机信息,转换得到相对态势信息,并同步展示在屏幕三中。
围绕上述提出的算法库、强化学习算法训练以及人机交互等关键技术,结合本文中设计的系统体系架构,开发实现了多无人机协同空战任务规划仿真系统。本仿真系统可以灵活支持无人机对抗无人机、无人机对抗有人机等多种空战模式。现以无人机对抗有人机的空战模式为例,介绍本仿真系统。
图6展示了本仿真系统的实物图。图中的右边为多架无人机构成的红方子系统和强化学习算法训练子系统,左边为两架有人机构成的蓝方子系统,中间为白方子系统。
图6 多无人机协同空战任务规划仿真系统实验环境
Fig.6 Physical picture of the multi-UAV cooperative air combat task planning simulation system
红方子系统的软件界面如图7所示。其中,算法库的算法参数配置界面如图7(a)所示,其中包括战术决策、目标分配和重决策3类算法,同时展示了具体算法的名称、描述和参数;算法库的算法选择如图7(b)所示,其中显示了红方无人机的战术决策算法、目标分配算法以及重决策算法的具体选择情况。
图7 红方子系统的软件界面
Fig.7 Software interface of the red square subsystem
白方子系统的软件界面如图8所示。其中,包括场景管理、仿真控制和状态查看等功能,同时还能实时展示了仿真对抗的二维界面。
图8 白方子系统的软件界面
Fig.8 Software interface of the white square subsystem
蓝方子系统的软件界面分别展示在3块显示屏上,如图9所示。其中,屏幕一用于展示待决策信息,包括有人机自身的剩余导弹数量以及当前可以攻击的敌方目标信息,如图9(a)所示;屏幕二用于展示操作员可以看到的第一视角信息,包括有人机座舱中的各种仪表信息以及探测范围内的敌方目标方位信息,如图9(b)所示;屏幕三用于展示相对态势信息,包括友机的状态信息,探测到的敌机信息,如图9(c)所示。
图9 蓝方子系统的软件界面
Fig.9 Software interface of the blue square subsystem
蓝方子系统主要通过油门杆和驾驶杆实现对有人机的控制,如图10所示。
图10 基于油门杆和驾驶杆的有人机控制
Fig.10 Unmanned aerial vehicle control based on throttle and joystick
仿真过程中,操作员使用驾驶杆的前后方向①、左右方向②和按键③分别控制有人机的俯仰角、航向角和滚转角,使用油门杆的前后方向④控制有人机的飞行速度;若对方飞机进入我方探测范围内,屏幕一中的待决策信息列表将出现被探测到的敌机编号(如图9(a)所示),操作员可使用驾驶杆上的按键⑤选择需要攻击的目标,目标确定后可使用按键⑥对目标发射导弹。
本文所研发的多无人机协同空战任务规划仿真系统能够根据不同的实验需求,通过自定义参数配置生成相应的空战任务场景,并通过加载不同的多无人机协同空战任务规划算法对算法的性能进行测试,同时能够对基于强化学习的多无人机协同空战任务规划算法进行训练。接下来,通过2个应用实例进行进一步的说明。
为对多无人机协同空战目标分配算法进行测试,本文中设置了3种仿真场景,每个仿真场景中均包含2架红方无人机,2架蓝方无人机,每架无人机具有相同的毁伤概率且搭载4枚空对空导弹。红蓝双方的战术决策算法和重决策算法均使用算法库中的相应规则类算法,蓝方的目标分配算法使用算法库中的LH算法,红方的目标分配算法先使用算法库中的LH算法进行200次仿真,再使用算法库中的GA算法进行200次仿真。具体的测试流程如下:
步骤1:分别启动红方子系统、蓝方子系统和白方子系统。
步骤2:在白方子系统的批处理模块中设置仿真时长为3 min,仿真次数为200次。
步骤3:在白方子系统中加载仿真场景。
步骤4:在红方子系统中配置红方使用的战术决策算法、目标分配算法和重决策算法。
步骤5:在蓝方子系统中配置蓝方使用的战术决策算法、目标分配算法和重决策算法。
步骤6:在白方子系统中开始仿真,仿真过程中的数据自动保存到数据库中。
步骤7:仿真结束后,对数据库中保存的仿真过程数据进行统计分析。
其中,保存仿真过程数据的数据库界面如图11所示。其中,可以查看每局对抗的各种数据文件,并可以根据数据筛选需求对数据进行筛选。
图11 仿真结果的统计界面
Fig.11 Statistical interface of simulation results
基于仿真过程数据,还可以进一步对比分析LH或GA算法的求解时间、求得解的收益值,以及每个仿真场景下红方和蓝方获胜的次数、失败的次数、平均的次数以及摧毁的目标数量和损耗的无人机数量等。例如,在每种场景下,红方使用LH算法和GA算法进行目标分配取得的胜率如图12所示。
图12 不同场景下的获胜率对比
Fig.12 Comparison of winning rates in different scenarios
在5.1节的仿真场景的基础上,对基于强化学习的多无人机协同空战重决策算法进行训练。在每种仿真场景下,红蓝双方的战术决策算法和目标分配算法均使用算法库中的相应规则类算法,蓝方的重决策算法使用算法库中的规则类算法,红方的重决策算法使用Actor-Critic算法(一种强化学习算法)。分别在不同仿真场景下各进行400次仿真对抗,具体的训练流程如下:
步骤1:依次开启红方子系统、蓝方子系统、白方子系统和强化学习算法训练子系统。
步骤2:在白方子系统的批处理模块中设置仿真时长为 3 min、仿真次数为400次,在白方子系统的仿真控制模块中设置仿真速度为1。
步骤3:在白方子系统中加载仿真场景。
步骤4:在红方子系统中配置红方使用的战术决策算法、目标分配算法。
步骤5:在强化学习算法训练子系统中加载Actor-Critic算法作为红方的重决策算法,并配置算法学习率,本次实验学习率取0.1、0.01、0.001、0.000 1和0.000 01。
步骤5:在蓝方子系统中配置蓝方使用的战术决策算法、目标分配算法和重决策算法。
步骤6:在白方子系统中开始训练,训练过程中的数据自动保存到数据库中。
步骤7:训练结束后,对数据库中保存的仿真过程数据进行统计分析。
训练结束后,对保存在数据库中的训练过程数据进行统计分析,结果如图13所示。
图13 重决策算法的训练结果
Fig.13 Training results of the redecision algorithm
图13(a)展示了重决策算法在不同学习率下的对抗结果,通过分析采取不同学习率对获胜率、平局率和失败率的影响,能够为重决策算法确定合适的学习率;图13(b)展示了红方在3种仿真场景下的获胜场数、失败场数和平局场数,通过分析重决策算法在不同仿真场景下的获胜、失败和平局场数变化,可以验证重决策算法的有效性;图13(c)展示了在3种仿真场景下,随着训练次数的增加,红方获胜率的变化情况,通过分析获胜率的变化趋势,可以验证重决策算法的稳定性、收敛性。当算法训练完成后,符合预期效果的强化学习算法可以添加到算法库中。
本文中基于VR-Forces仿真引擎,设计和实现了一种分布式的多无人机协同空战任务规划仿真系统。该系统由红方/蓝方子系统、白方子系统和强化学习算法训练子系统构成,并集成了算法库、强化学习训练和人机交互等多个关键技术。该系统能够支持无人机对抗无人机、无人机对抗有人机等多种空战模式,支持基于强化学习的任务规划算法的训练,支持多语言多种类任务规划算法的管理和测试,并能实时展示空战对抗过程,仿真展示度高。在后续工作中,将进一步研发人机交互、算法辅助决策等模块,实现有人机无人机协同对抗的空战模式,以支持有人机无人机协同空战任务规划方法的测试和验证。
[1] 牛轶峰,沈林成,李杰,等.无人-有人机协同控制关键问题[J].中国科学:信息科学,2019,49:538-554.
NIU Yifeng,SHEN Lincheng,LI Jie,et al.Key scientific problems in cooperation control of unmanned-manned aircraft systems[J].Sci Sin Inform,2019,49:538-554.
[2] 孙智孝,杨晟琦,朴海音,等.未来智能空战发展综述[J].航空学报,2021,42(8):525799.
SUN Zhixiao,YANG Shengqi,PIAO Haiyin,et al.A survey of air combat artificial intelligence[J].Chinese Journal of Aeronautics,2021,42(8):525799.
[3] 施伟,冯旸赫,程光权,等.基于深度强化学习的多机协同空战方法研究[J].自动化学报,2021,47(7):1610-1623.
SHI Wei,FENG Yanghe,CHENG Guangquan,et al.Research on multi aircraft cooperative air combat method based on deep reinforcement learning[J].Acta Automatica Sinica,2021,47(7):1610-1623.
[4] 马滢滢,王国强,胡笑旋,等.超视距空战中的多无人机武器目标分配方法[J].中国管理科学,2022,30(3):248-257.
MA Yingying,WANG Guoqiang,HU Xiaoxuan,et al.Weapon target assignment method for multiple uavs in beyond-visual-range air combat[J].Chinese Journal of Management Science,2022,30(3):248-257.
[5] 常晓飞,蒋邓怀,姬晓闯,等.无人作战系统仿真发展综述[J].无人系统技术,2021,4(6):28-36.
CHANG Xiaofei,JIANG Denghuai,JI Xiaochuang,et al.Summary of simulation development of unmanned combat system[J].Unmanned Systems Technology,2021,4(6):28-36.
[6] 周同乐,陈谋,朱荣刚,等.基于狼群算法的多无人机协同多目标攻防满意决策方法[J].指挥与控制学报,2020,6(3):251-256.
ZHOU Tongle,CHEN Mou,ZHU Ronggang,et al.Attack-defense satisficing decision-making of multi-uavs cooperative multiple targets based on wps algorithm[J].Journal of Command and Control,2020,6(3):251-256.
[7] ERNEST N,CARROLL D,SCHUMACHER C,et al.Genetic fuzzy based artificial intelligence for unmanned combat aerial vehicle control in simulated air combat missions[J].Journal of Defense Management,2016,06:1-7.
[8] 赵明明,陶翔,李恒,等.基于QPSO的模糊策略博弈的多无人机空战策略[J].兵工自动化,2021,40(5):14-17.
ZHAO Mingming,TAO Xiang,LI Heng,et al.Multi uav air combat strategy based on qpso fuzzy strategy game[J].Ordnance Industry Automation,2021,40(5):14-17.
[9] 朱星宇,艾剑良.多对多无人机空战的智能决策研究[J].复旦学报(自然科学版),2021,60(4):410-419.
ZHU Xingyu,AI Jianliang.Research on intelligent decision making of many to many unmanned aerial vehicle air combat[J].Journal of Fudan University (Natural Science),2021,60(4):410-419.
[10] 左家亮,杨任农,张滢,等.基于启发式强化学习的空战机动智能决策[J].航空学报,2017,38(10):217-230.
ZUO Jialiang,YANG Rennong,ZHANG Ying,et al.Intelligent decision-making in air combat maneuvering based on heuristic reinforcement learning[J].Chinese Journal of Aeronautics,2017,38(10):217-230.
[11] 韩统,崔明朗,张伟,等.多无人机协同空战机动决策[J].兵器装备工程学报,2020,41(4):117-123.
HAN Tong,CUI Minglang,ZHANG Wei,et al.Multi-UCAV cooperative air combat maneuvering decision[J].Journal of Ordnance Equipment Engineering,2020,41(4):117-123.
[12] 王领,张斌,左星星.一种空战任务可视化仿真系统的开发[J].计算机仿真,2012,29(5):42-46.
WANG Ling,ZHANG Bin,ZUO Xingxing.Development of visual simulation system for air fight missions[J].Computer Simulation,2012,29(5):42-46.
[13] WEDZINGA G.E-CATS:First time demonstration of embedded training in a combat aircraft[J].Aerospace Science and Technology,2006,10(1):73-84.
[14] SHIN H,LEE J,KIM H,et al.An autonomous aerial combat framework for two-on-two engagements based on basic fighter maneuvers[J].Aerospace Science and Technology,2018,72:305-315.
[15] YUAN K G,LIU D D,JIANG D G,et al.Design of target aircraft auto air-combat tactics decision system[J].Communications in Computer and Information Science,2016,644:288-296.
[16] 卢锐轩,孙莹,杨奇,等.基于人工智能技术的智能自博弈平台研究[J].战术导弹技术,2019(2):47-52.
LU Ruixuan,SUN Ying,YANG Qi,et al.Research on intelligent self-game platform based on artificial intelligence technology[J].Tactical Missile Technology,2019(2):47-52.
[17] 王国强,罗贺,胡笑旋.无人机编队协同任务规划仿真系统研究[J].系统仿真学报,2014,26(8):1856-1862.
WANG Guoqinag,LUO He,HU Xiaoxuan.Research on UAV formation coordinated task planning simulation system[J].Journal of System Simulation,2014,26(8):1856-1862.
[18] SHAW R L,FIGHTER COMBAT.Tactics and maneuvering[M].United States Naval Institute Press.USA,1988.
[19] XU J,DENG Z,SONG Q,et al.Multi-UAV counter-game model based on uncertain information[J].Applied Mathematics and Computation,2020,366:124684.
[20] BABEL L.Coordinated target assignment and UAV path planning with timing constraints[J].Journal of Intelligent &Robotic Systems,2019,94:857-869.
[21] CHANG T,KONG D,HAO N,et al.Solving the dynamic weapon target assignment problem by an improved artificial bee colony algorithm with heuristic factor initialization[J].Applied Soft Computing,2018,70:845-863.
[22] MA Y Y,WANG G Q,LUO H.Two-stage hybrid heuristic search algorithm for novel weapon target assignment problems[J].Computers &Industrial Engineering,2021,162,107717.
[23] LI N,HUAI W,WANG S.The solution of target assignment problem in command and control decision-making behaviour simulation[J].Enterprise Information Systems,2017,11(7):1059-1077.
[24] SUMMERS D S,ROBBINS M J,LUNDAY B J.An approximate dynamic programming approach for comparing firing policies in a networked air defense environment[J].Computers &Operations Research,2020,117:104890.
[25] HAN Q,SHI D,SHEN T.Joint optimization of multi-UAV target assignment and path planning based on multi-agent reinforcement learning[J].IEEE Access,2019,7:146264-146272.
[26] 王勃,潘长鹏,张媛,等.VR-Forces开发[M].北京:国防工业出版社,2011:1-349.
WANG Bo,PANG Changpeng,ZHANG Yuan,et al.Development of VR-Forces.[M].Beijing:National Defense Industry Press,2011:1-349.