随着武器装备技术的发展,无人机在现代战争发挥越来越重要的角色。快速准确地检测出无人机集群目标,是对其成功拦截的前提,也是迫切需要解决的现实问题。目前对于无人机集群的检测,有许多优秀的算法,例如R-CNN[1]、Fast R-CNN[2]、SSD[3]、YOLO[4]等,这些算法都有各自的优缺点,主要是由于检测精度和检测速度是一对矛盾体,高的检测精度意味着网络结构复杂,网络结构复杂意味着检测速度受限。
为了平衡检测精度与检测速度,提出了系列改进的YOLO[4]算法,如YOLOv2[5]、YOLOv3[6]、YOLOv4[7]等,其中YOLOv4算法结合了许多优秀的目标检测算法,加以组合并进行创新,实现了检测速度和检测精度的平衡,但在未来对空防御无人机集群作战中,考虑到武器反应时间,还需要进一步提高无人机集群的检测速度。为了提高检测速度,目前轻量化网络得到快速发展,该类网络旨在保持模型精度基础上进一步减少模型参数量和复杂度,进而实现网络模型加速。该类网络主要有网络结构设计和模型压缩等2类,其中模型压缩主要是对已有的网络进行剪枝、知识蒸馏等方式使网络结构简单,而另一类是直接采用轻量化思想进行网络结构设计,例如MobileNet系列[8]。相比于已训练好的模型上进行处理,轻量化模型模型设计是另辟蹊径,主要思想在于设计更高效的网络计算方式,从而使网络参数减少的同时,不损失网络性能。
YOLOv4算法采用3个特征层进行分类和回归预测,主要由3个部分组成:主干特征提取网络CSPDarknet53、加强特征提取网络SPP+PANet和预测网络Yolo Head。具体网络模型结构如图1所示。
图1 YOLOv4网络模型结构示意图
Fig.1 YOLOv4 network model structure
主干特征提取网络CSPDarknet53主要有2个方面改进:在YOLOV3中Darknet53的Resblock_body加入CSPnet结构;同时DarknetConv2D的激活函数改为Mish激活函数。在特征金字塔方面,主要是采用了SPP+PANet的结构,其中SPP结构是对最后一个特征层经过3次卷积结果进行不同尺度的最大池化处理,其对应的池化核大小分别为1×1、5×5、9×9、13×13,可以极大提高感受野,分离出显著目标特征。而PANet结构主要是通过2次上采样和下采样来进行特征反复提取,进而完成多次特征融合。在预测网络Yolo Head方面,主要是通过2次3×3和1×1的标准卷积,来完成预测框的生成,同时还包括判断预测框中是否包含目标以及目标的种类。
2.1.1 MobileNetV3网络
YOLOv4网络结构过于复杂,虽然检测精度高,但是检测速度相对较低,为了在保持相同检测精度的同时,进一步提高精测速度,采用轻量化的深度学习网络对主干特征提取网络进行优化。其中MobileNet系列是轻量化网络的典型代表,主要有MobileNetV1、MobileNetV2和MobileNetV3等3个版本,其中MobileNetV3网络是在MobileNetV2的基础上使用神经架构搜索技术生成的结构,其主要有以下2个方面改进[9]:① 引入轻量级的注意力模型,该模型的作用是用于调整每个通道的权重;② 利用h-swish激活函数代替swish函数,减少运算量,提高性能。
2.1.2 改进PANet结构
对于PANet网络而言,整个网络的参数运算量主要集中在3×3的标准卷积上,为了进一步减少网络参数量,将该结构中标准卷积全部使用深度可分离卷积代替,深度可分离卷积实质是将标准卷积转化为一个深度卷积和一个逐点卷积进行运算[10],其具体卷积过程如图2所示。
图2 深度可分离卷积过程框图
Fig.2 Deep separable convolution
图2中,左侧为标准卷积、右侧为深度可分离卷积。假设图片输入特征图大小为DK×DK×M,卷积核大小为DK×DK×M×N,输出特征图大小为DF×DF×N。对于标准卷积而言,其参数量为:DK×DK×M×N,计算量为:DK×DK×M×N×DF×DF;而深度可分离卷积,其参数量为:DK×DK×M+M×N,计算量为:DK×DK×M×DF×DF+M×N×DF×DF。将两者所对应的数据进行对比分析,在参数量对比上有如下关系:
计算量对比有如下关系:
由对比结果可以发现,使用深度可分离卷积之后,其对应的参数量和计算量均下降为原来的一般卷积核采用3×3,同时N>>9,因而深度可分离卷积的参数量和计算量均为标准卷积的1/8-1/9。
2.1.3 改进思路
在YOLOv4的主干特征提取网络中,使用MobileNetV3网络分别获得5个有效特征层来代替原网络。同时为了进一步减少网络参数量,使用深度可分离卷积来代替PANet结构和YOLOv4原网络中其余的标准卷积,其具体的优化网络结构如图3所示。
图3 优化网络结构示意图
Fig.3 Optimizing network structure
2.2.1 K-means聚类先验框
在目标检测的任务中,先验框的选择至关重要,先验框选择的合理与否,直接影响着检测模型性能的好坏。YOLOv4的先验框在特征图上分布情况如表1所示,其默认基于COCO数据集,该数据集中包含80类物体。
表1 YOLOv4默认先验框在特征图上分布情况
Table 1 Distribution of YOLOv4 default a priori frame on characteristic graph
特征图大小感受野先验框13*13大(142*110)(192*243)(459*401)26*26中(36*75)(76*55)(72*146)52*52小(12*16)(19*36)(40*28)
该先验框对无人机目标检测针对性不强,容易出现漏检或者定位不准的问题,影响检测精度,需要对先验框做适应性设计,这里采用数据集的格式为VOC。在YOLOv3算法中有文献采用K-means[11]对数据集进行聚类初始化得到先验框,定义了距离公式为:
d(box,centroid)=1-IOU(box,centroid)
(1)
式(1)中:centroid表示聚类中心;box表示样本;IOU表示真实框和样本框的重合程度。该方法也可运用到YOLOv4的无人机集群检测中,利用该方法仿真可得K-means先验框在特征图上分布情况,如表2所示。
表2 K-means先验框在特征图上分布情况
Table 2 distribution of K-means a priori frame on characteristic graph
特征图大小感受野先验框13*13大(281*211)(356*174)(363*274)26*26中(198*253)(211*113)(249*344)52*52小(47*41)(126*59)(151*180)
由表2知,先验框分布比较集中,不利于无人机多尺度检测的输出,同样的默认数据的先验框也存在类似的问题。
2.2.2 改进K-means聚类先验框
为了进一步解决K-means计算先验框分布集中的问题,发挥多尺度检测的优势,可对先验框进行线性尺度缩放,使无人机的检测输出范围更加宽广,增加算法的鲁棒性。由K-means计算,可得无人机的先验框共有9个,因而具体线性尺度缩放公式为:
(2)
(3)
(4)
(5)
式(2)~式(5)中:i=2,…,9; γ表示最小先验框的缩放倍数;μ表示最大先验框的扩大倍数;(xi,yi)分别代表线性尺度缩放前对应先验框的宽和高;代表缩放后先验框的宽和高。经过仿真实验,其先验框在特征图上的分布情况如表3所示。
表3 改进K-means先验框在特征图上分布情况
Table 3 Distribution of improved K-means a priori frame on characteristic graph
特征图大小感受野先验框13*13大(408*306)(532*260)(544*411)26*26中(271*347)(293*157)(356*491)52*52小(23*20)(153*71)(194*231)
为了衡量目标检测的效果,引入检测精度和检测速率作为评价指标。引入IOU指标,表示真实框和样本框的重合程度,如图4所示,且IOU∈(0,1]。
图4 IOU示意图
Fig.4 IOU description
当IOU的值大于某个阈值时,该预测框确定为正样本;反之则为负样本。在一定IOU指标下,定义查准率指标[12]为:
(6)
式(6)中:TP代表正确分类的正样本;FP代表错误分类的正样本。
定义查全率指标[13]为:
(7)
式(7)中,FN代表错误分类的负样本。
引入平均精度AP[14](average precision,AP)为:
AP=PdR
(8)
式(8)中,AP50表征当IOU值为50%时的AP值,AP60、AP70等类似定义。
定义所有目标类对应的AP值的平均值mAP为:
(9)
式(9)中,N表示目标的种类数。采用mAP值作为目标检测精度评价指标[15]。
在进行目标检测时,查全率和查准率是一对矛盾体,为了平衡查全率和查准率的权重,引入正负样本分类指标为:
(10)
式(10)中:当β=1时,P和R同等重要;当β>1时,R比P重要;当β<1时,P比R重要。
选取β=1来定义目标正负样本分类评价指标,此时记第k类正负样本分类指标为:
(11)
式(11)中,Pk和Rk分别为第k类目标的查准率和查全率。记F1为所有目标类对应F1k的平均值为:
(12)
F1指标可以用于表征正负样本分类难度,F1越小,正负样本分类难度越高,检测难度也将随之增加。
将每秒处理图片的帧数FPS[16]作为目标检测速率评价指标。该值越大则目标检测速率越快。
在实验仿真中,使用Windows10操作系统,深度学习框架为pytorch, CPU为Intel(R)Core(TM)i5-8300H,GPU为NVIDIA GeForce GTX 1050,CUDA为10.1版本,CUDNN为7.4.15版本。
实验在公共数据集和构建的无人机数据集中分别开展,其中公共数据集样本量大、丰富,能可靠验证方法的有效性,构建的无人机数据集则有针对性地解决无人机目标检测的具体问题。
RSOD-Dataset数据集,由武汉大学进行标注的公共数据集,用于遥感图像的对象检测,数据集包括飞机、油桶、操场和立交桥。 该数据集中有4 993架飞机、191个操场、180个立交桥和1 586个油桶。
在公共数据集上,相同条件下验证上述改进算法的效果,其中具体的训练损失如图5所示,检测效果图以飞机为例,具体的检测效果如图6,有关检测精度如表4所示。
表4 不同改进方法下对应检测精度(%)
Table 4 Corresponding detection accuracy under different improved methods
类别YOLOv4轻量化YOLOv4K-means+轻量化YOLOv4改进K-means+轻量化YOLOv4飞机86.0486.2986.0186.73油桶96.1095.0695.6096.32立交桥73.3971.7679.9187.57操场95.8398.9299.1799.37mAP87.8488.0190.1792.50
图5 公共数据集训练损失曲线
Fig.5 Training loss of public data set
图6 公共数据集飞机检测效果图
Fig.6 Aircraft detection effect of public data set
由图5可以看出,当训练到第50代时,训练损失已经收敛,达到目标检测的精度要求。
由图6和表4可以看出,针对样本量丰富的公共数据集,改进K-means且轻量化YOLOv4的检测精度较原算法提高了5.3%,验证了本文改进算法的有效性。
4.2.1 无人机数据集
无人机数据集所需图片来源于网络爬虫和手机拍摄,通过数据增强的方式增加图片的数量,包括翻转、旋转、缩放比例、裁剪、移位、加入高斯噪声和颜色增强[17]。并运用图像标注工具labelimg进行数据集的制作[18],数据集格式为Pascal VOC,数据集分为UAV和UAV1等2类,共1 000张图片,2类各有500张。数据集制作情况如图7所示。
图7 数据集制作图
Fig.7 Data set production
4.2.2 无人机数据集实验结果及分析
1) YOLOv3和YOLOv4检测结果及分析。
分别利用传统的YOLOv3和YOLOv4算法在单无人机(UAV)和无人机集群(UAV1)等2种情况下进行检测,检测结果如图8和图9所示。
图8 YOLOv3无人机的检测结果图
Fig.8 Test results of YOLOv3 UAV
图9 YOLOv4无人机的检测结果
Fig.9 Test results of YOLOv4 UAV
由图8和图9可以看出,在无人机检测中出现漏检和误检情况,进一步结合表5、表6可见,当IOU的数值由小变大时,F1指标不断降低,表明无人机集群的正负样本分类难度增加,无人机集群的检测难度越来越大,对应的mAP值越来越低。而在相同条件下,YOLOv4相比YOLOv3算法有更高的平均检测精度。
表5 不同IOU下YOLOv3算法AP值和mAP值
Table 5 AP value and mAP value of YOLOv3 algorithm under different IOU
类别APAP60AP70AP80AP90UAV77.06%65.57%56.58%42.01%33.59%UAV188.74%74.78%61.51%49.48%36.92%F1-UAV0.790.590.430.300.23F1-UAV10.920.670.530.370.25mAP82.90%70.17%59.05%45.75%35.25%
表6 不同IOU下YOLOv4算法AP值和mAP值
Table 6 AP value and map value of YOLOv4 algorithm under different IOU
类别APAP60AP70AP80AP90UAV91.56%88.50%85.35%74.99%60.35%UAV188.27%88.78%85.29%76.17%54.11%F1-UAV0.890.840.780.490.34F1-UAV10.920.870.680.520.33mAP89.91%88.64%85.32%75.58%57.23%
2) 基于轻量化网络的YOLOv4检测结果及分析。
使用轻量化网络和YOLOv4默认先验框,进行无人机检测所得结果如图10和表7所示。
对比图9、图10和表6、表7可知,使用轻量化的检测网络进行集群检测试验,可以看出与原网络检测精度基本保持不变。
图10 基于轻量化网络的YOLOv4无人机的检测结果图
Fig.10 Detection results of YOLOv4 UAV based on lightweight network
表7 轻量化网络下不同IOU所对应的AP值以及mAP值
Table 7 AP values and mAP values corresponding to different IOUs under lightweight network
类别APAP60AP70AP80AP90UAV95.02%96.54%93.27%80.66%68.17%UAV184.63%84.38%78.18%72.02%58.04%F1-UAV0.880.880.790.530.37F1-UAV10.890.870.770.640.51mAP89.82%90.46%85.73%76.34%63.10%
3) 基于改进K-means聚类先验框的YOLOv4检测结果及分析。
在YOLOv4基础上分别利用K-means和改进K-means聚类先验框改进算法,检测结果分别如图11、图12和表8、表9所示。
图11 基于K-means聚类先验框的改进YOLOv4检测结果图
Fig.11 Improved YOLOv4 detection results based on K-means clustering a priori box
图12 基于改进K-means聚类先验框改进YOLOv4检测结果图
Fig.12 Improved YOLOv4 detection results based on improved K-means clustering a priori box
表8 K-means先验框下不同IOU所对应的AP值以及mAP值
Table 8 AP values and mAP values corresponding to different IOUs under K-means a priori box
类别APAP60AP70AP80AP90UAV92.00%91.85%88.61%77.18%64.22%UAV194.67%91.03%85.50%78.15%68.05%F1-UAV0.920.920.840.610.43F1-UAV10.950.870.670.460.34mAP93.33%91.44%87.05%77.67%66.14%
表9 改进K-means先验框下不同IOU对应AP值及mAP值
Table 9 AP values and mAP values corresponding to different IOUs under the improved K-means a priori frame
类别APAP60AP70AP80AP90UAV96.15%96.01%93.03%77.38%66.38%UAV196.88%96.48%94.10%81.92%68.10%F1-UAV0.960.960.920.590.42F1-UAV10.950.900.710.490.35mAP96.51%96.25%93.57%79.65%67.24%
由图11、图12可以看出,利用改进K-means先验框使算法,在单无人机检测中获得了更好的检测效果。由表5—表9可以看出,改进的K-means先验框使无人机检测精度相比传统Yolov4和基于K-means先验框的改进YOLOv4算法分别提高了7.3%和3.4%,相比YOLOv3提高了16.4%,表明改进K-means先验框可有效提高无人机检测效果。
4) 检测精度与漏检率、误检率关系及分析。
由图8—图12可以清晰看出,在单无人机和无人机集群检测时,出现无人机的漏检和误检情况,并随着算法的改进,漏检和误检情况得到明显的改善,为了进一步定量分析,进行实验可得检测精度与漏检率、误检率关系,如表10所示。
表10 检测精度与漏检率、误检率关系(%)
Table 10 Relationship between detection accuracy,missed detection rate and false detection rate
类别mAP漏检率误检率YOLOv382.909.6217.91YOLOv489.913.2314.31轻量化YOLOv489.827.6115.5K-means+轻量化YOLOv493.333.708.90改进K-means+轻量化YOLOv496.513.035.41
由表10可以看出,当检测精度为96.51%,改进的YOLOv4算法,相比较YOLOv3和YOLOv4算法,漏检率分别降低了68.5%、6.25%,误检率分别降低了69.8%、62.2%,有效地解决了无人机检测中误检、漏检情况。
5) 综合2种改进策略下的检测结果及分析。
使用轻量化网络,并同时采用改进K-means聚类先验框2种手段对YOLOv4算法进行改进,对无人机集群进行检测实验,相同条件下,比较算法训练的检测模型、处理图片所需时间、检测速率FPS以及检测精度mAP,其具体的实验结果如表11所示。
表11 融合实验无人机集群检测实验结果
Table 11 test results of UAV cluster detection in fusion experiment
类别检测模型/MB时间/sFPSmAP/%YOLOv32350.06814.7682.90YOLOv42440.08411.8489.91改进YOLOv453.60.03726.8796.51
由表11可得,改进YOLOv4算法得到的检测模型大小约为原算法的1/9,有效提高了检测速率,其中改进YOLOv4分别为YOLOv3和YOLOv4的1.82倍、2.27倍;同时在保证检测速率的前提下,检测精度则分别提高了16.4%、7.3%。
6) 基于不同检测算法的检测结果及分析
为了进一步对比基于深度学习不同目标检测算法在无人机集群检测中的效果,分别利用SSD、Centernet、YOLOv4和改进YOLOv4算法,基于uav1组成简单无人机集群进行目标检测实验,具体的实验结果如图13所示。
图13 不同深度学习算法检测结果直方图
Fig.13 Comparative analysis of different depth learning algorithms
由图13可以看出,改进YOLOv4算法同时提高了检测精度和检测速率,与其他深度学习算法SSD和Centernert相比,检测精度分别提高了15.4%、19.4%,检测速率分别提高了16.4%、52.1%。
相比传统YOLOv3和YOLOv4算法,改进的YOLOv4算法使无人机集群检测提高了检测精度和检测速度。算法能有效解决无人机集群检测中出现的误检和漏检等问题,能够较好地满足无人机集群对空作战需求。
[1] Lmez E,Akdoan V,Korkmaz M,et al.Automatic segmentation of meniscus in multispectral MRI using regions with convolutional neural network(R-CNN)[J].Journal of Digital Imaging,2020,33(30):916-929.
[2] Jain P K,Gupta S,Bhavsar A,et al.Localization of common carotid artery transverse section in B-mode ultrasound images using faster RCNN:A deep learning approach[J].Medical & Biological Engineering & Computing,2020,58(03):471-482.
[3] Chen X,Yu J,Wu Z.Temporally Identity-Aware SSD With Attentional LSTM[J].IEEE Transactions on Cybernetics,2020,50(06):2674-2686.
[4] Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[C]//Proc. of the Computer Vision & Pattern Recognition.IEEE,2016.
[5] Redmon J,Farhadi A.YOLO9000:Better,Faster,Stronger[C]//Proc. of the IEEE Conference on Computer Vision & Pattern Recognition.IEEE,2017:6517-6525.
[6] Redmon J,Farhadi A.YOLOv3:An incremental improvement[EB /OL].[2021-08-14].https://arxiv.org./pdf/1804.02767.pdf.
[7] Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:Optimal speed and accuracy of object detection[EB/OL].[2021-08-14].https://arxiv.org/abs/2004.10934v1.
[8] Cai K W,Miao X Y,Wamg W,et al.A modified YOLOv3 model for fish detection based on MobileNetv1 as backbone[J].Aquacultural Engineering,2020,91:102117.
[9] Kundu S,Nazemi M,Pedram M,et al.Pre-defined sparsity for low-complexity convolutional neural networks[J].IEEE Transactions on Computers,2020,69(07):1045-1058.
[10]Back S,Lee S,Shin S,et al.Robust skin disease classification by distilling deep neural network ensemble for the mobile diagnosis of herpes zoster[J].IEEE Access,2021,9:20156-20169.
[11]Chao G.Discriminative K-means laplacian clustering[J].Neural Processing Letters,2019,49(01):393-405.
[12]Zhu Q,Zheng H,Wang Y,et al.Study on the evaluation method of sound phase cloud maps based on an improved YOLOv4 algorithm[J].Sensors,2020,20(15):4314.
[13]Li X,Tian M,Kong S,et al.A modified YOLOv3 detection method for vision-based water surface garbage capture robot[J].International Journal of Advanced Robotic Systems,2020,17(03):172988142093271.
[14]Yilmazer R,Birant D.Shelf auditing based on image classification using semi-supervised deep learning to increase on-shelf availability in grocery stores[J].Sensors,2021,21(02):327.
[15]Li Y,Guo J,Guo X,et al.A novel target detection method of the unmanned surface vehicle under all-weather conditions with an improved YOLOv3[J].Sensors,2020,20(17):4885.
[16]Yulin T,Jin S,Bian G,et al.Shipwreck target recognition in side-scan sonar images by improved YOLOv3 model based on transfer learning[J].IEEE Access,2020,8:173450-173460.
[17]Park M J,Ko B C.Two-step real-time night-time fire detection in an urban environment using static ELASTIC-YOLOv3 and temporal fire-tube[J].Sensors(Basel,Switzerland),2020,20(08):2202.
[18]Tian D,Lin C,Zhou J,et al.SA-YOLOv3:An efficient and accurate object detector using self-attention mechanism for autonomous driving[EB/OL].(2020-12-17)[2021-08-14].https://ieeexplore.ieee.org/document/9298480.
Citation format:QI Jiangxin, WU Ling, LU Faxing, et al.UAV cluster detection based on improved YOLOv4 algorithm[J].Journal of Ordnance Equipment Engineering,2022,43(06):210-217.