人工智能正在飞速发展,在军事和民用领域都已获得广泛应用。其中,基于机器视觉的目标检测技术已经是无人化装备的标准配置。最近发生在纳卡地区的冲突表明,无人化装备的落后将导致极度的军事被动和重大损失。
与民用目标检测领域不同,军事目标的自动检测面临数据集少,文献也贫乏的困难局面。尽管如此,研究人员还是设法构建了一些数据集,并开展了相关研究。这些研究表明,基于深度学习的目标自动识别系统在识别效率上有惊人的表现,必须引起高度关注。Zheng等[1]构建密集反卷积网络提取目标深层次的语义信息对伪装人员进行检测;邓小桐等[2]通过改进RetinaNet检测网络,对伪装人员进行检测。
本文注意到,文献上关于军事目标的自动检测研究,在方法上和民用目标的自动检测一致。这些方法除了强调检测模型的科学性,也非常强调数据集的完整性。很多研究者甚至相信,当机器视觉技术发展到一定水平后,数据集的质量最终决定着目标检测模型的优劣。然而,在军事领域,军事目标的数据集天然就是非常不完整的,毕竟军事目标的探测方和被探测方是敌对的双方,瞬息万变的局势和各种隐身对抗措施必然导致军事目标探测的不确定性。本文引入目标和背景的不确定性,试图分析典型的目标检测模型对这些不确定性因素的适应性。
当前基于深度学习的图像目标检测模型,可将其分为三大类: 基于候选区域的two-stage的目标检测算法,如R-CNN[3]、SPP-Net[4]、Fast R-CNN[5]、Faster R-CNN[6]、Mask R-CNN[7]和R-FCN[8]等。此类算法第一步先对输入图像提取若干个目标候选区域,第二步利用非极大值抑制消除多余的目标框,并对候选区域进行分类和预测。 基于回归的one-stage目标检测算法,如YOLO[9]、YOLOv2[10]、YOLOv3[11]、YOLOv4[12]、SSD[13]、DSSD[14]和RetinaNet[15]等。此类算法对输入图像直接进行分类和回归预测。 基于anchor-free的目标检测算法。此类检测模型包含基于关键点和基于分类和回归进行改进的检测这2种,如CornerNet[16]、CenterNet[17]和FCOS[18]等。
本文以Faster R-CNN、YOLOv4和CenterNet这3种不同类别的目标检测算法为基础,将该3种模型在单个目标场景下进行多轮迭代训练,以迭代损失最小的权重值作为测试的权重。之后的测试过程中,权重不再调整。通过对比引入不确定性因素前后系统的目标检测效率,以此揭示战场环境不确定性因素对不同检测模型的影响。本文所用的数据集均是在野外现地收集,并在该数据集的基础上进行了数据增强。
为尽可能贴近实际的战场侦察环境,根据地面军事目标的检测任务,在野外单一目标场景条件下,采集了309张军事车辆目标图片数据,图像尺寸大小为5 472×3 048,此图片数据库满足以下2个特点:
1) 图片数据包含不同亮度,不同角度,不同遮挡程度的目标。
2) 图片数据包含不同尺度的目标,即从不同高度,不同距离对图像数据进行采集。
采用一些几何变换的数据增强方式,例如翻转,旋转,裁剪,变形,缩放等方式,将原图片数据库扩展至1 591张,采用PASCAL VOC数据集标注格式,扩展数据集的军事目标统一标注为Car这一类,扩充的图像及其标注如图1所示,其中图1(a)和图1(b)为选取的训练集中的两张图片,图1(c)和图1(d)分别为其对应的标注图片。
图1 训练集及其标注图像
Fig.1 Training set annotation
战场环境下,目标出现的区域往往不断变化,难以预测。比较符合实际的情况是,参战双方对战场的大致区域可以有一定的判断,但对具体的目标出现区域却无法事先判断。考虑这一点,本文的数据集中,同一个目标会出现在多个背景中。在对目标检测模型进行训练时,本文刻意让有些背景的图片不出现。而在模型训练完成之后,先通过系统对检测数据集(其中的背景是包含在训练数据集中的)进行检测。随后更换检测数据集,更换后的数据集包含相同的目标,但包含的4个背景却是之前不曾出现的。原数据集中的测试集及其标注如图2所示,其中图2(a)和图2(b)为测试集中的两张标注图片。
图2 测试集及其标注图像
Fig.2 Test set annotation
更换背景后的测试集及其标注如图3所示。其中图3(a)、图3(b)、图3(c)和图3(d)为不同背景测试集下的标注图片。
图3 不同背景测试集数据及其标注图像
Fig.3 Different background data annotation
战场环境中,敌对双方都会对自己的目标进行必要的伪装,然而却都不知道对方究竟会采取什么样的伪装措施,而这就导致了目标特性的不确定性。考虑一点,本文从2个方面对目标特性进行改变,以形成新的测试数据集。
1) 改变军事目标的颜色。将其统一调整为亮绿色图片,并放在上述4个不同的背景中。这种处理效果相当于军事对抗中目标所属方采取的隐身措施。
2) 对军事目标进行遮挡,改变其原有形貌。利用上述4个不同背景中,车辆停放位置周围背景对车辆进行不完全遮挡。这相当于伪装技术中的利用地形地物进行遮蔽伪装。
改变为亮绿色的军事目标在背景一、背景二、背景三和背景四中的图像标注如图4所示,其中图4(a)、图4(b)、图4(c)和图4(d)为不同背景下颜色改变的测试集下的数据标注图片。
图4 不同背景颜色改变测试集数据及其标注图像
Fig.4 Data annotation with different background color changes
不完全遮挡后的军事目标在4个背景中的图像标注如图5所示。其中图5(a)、图5(b)、图5(c)和图5(d)为不同背景测试集下的不同遮挡下的标注图片。
图5 不同背景不完全遮挡测试集数据及其标注图像
Fig.5 Data annotation of incomplete occlusion in different backgrounds
本文实验均在Windows操作系统下完成,基于Tensorflow深度学习框架,使用Faster R-CNN、YOLOv4 和CenterNet 3种目标检测模型,电脑配置内存128 GB,CPU为i9-10980XE,使用两块NVIDIA TITAN V显卡进行深度学习的加速并行运算。在此基础上的模型计算速度大大提升,模型训练误差能够较快的收敛。
3个目标检测模型的训练,为保证模型在不同背景测试集下进行预测时,具有较好的识别准确率。选择模型多轮迭代训练后的最低损失权重作为该检测模型的预测权重[19]。
Faster R-CNN检测模型经过多轮迭代训练后,损失最低值在0.452左右,损失收敛曲线如图6。
图6 Faster R-CNN训练损失曲线
Fig.6 Training loss ofFaster R-CNN
YOLOv4检测模型经过多轮迭代训练后,损失最低值在3.185左右,损失收敛曲线如图7。
图7 YOLOv4训练损失曲线
Fig.7 Training loss of YOLOv4
CenterNet模型经过多轮迭代训练后,损失最低值在0.469左右,损失收敛曲线如图8。
图8 CenterNet训练损失曲线
Fig.8 Training loss of CenterNet
将数据集中的军事车辆目标统一标注为Car这一类,通过将在同一背景下的数据集上训练好的Faster R-CNN、YOLOv4和CenterNet 3个目标检测模型,在同一测试集上进行识别检测。利用平均精度值(Mean Average Precision,MAP)作为模型检测结果的评价指标。MAP值越高,即该模型的检测精度越高。由于本文中的军事车辆统一标注为Car这一类。因而在本文中,仅用AP值作为评价指标,也可以描述模型的检测精度。
1) 实验1
扩展后的军事目标数据集1 491张,测试集选择100张。分别在上述的4个不同背景中,将原测试集中的军事车辆调整至每个背景中选定的位置。每个背景下的测试集数量均为100张,在训练好的Faster R-CNN、YOLOv4和CenterNet 3个目标检测模型上进行检测,在不同背景下测试集的检测结果如表1所示。
从表1的检测结果可知,Faster R-CNN、YOLOv4和CenterNet 3个目标检测模型在原测试集、背景1、背景2、背景3和背景4测试集上的检测结果没有明显变化。从此检测数据可以看出,在检测模型对目标特征充分训练学习的情况下,将特征目标变换在不同的背景中,而不改变目标本身特性的情况下(即引入背景不确定的情况下),背景对目标检测模型检测结果的影响有限。检测模型训练时,更多的是针对目标本身的特征所进行的充分学习。
表1 不同背景数据集的目标检测结果
Table 1 Target detection results of different background datasets
模型MAP/%原测试集背景1背景2背景3背景4Faster R-CNN59.2548.1247.0457.9056.56YOLOv496.4384.2889.6955.5247.15CenterNet94.3283.2472.1548.2758.76
2) 实验2
分别在4个不同背景中,对军事车辆颜色进行改变。统一将其颜色更改为亮绿色。每个背景下的测试集数量均为100张。
利用训练好的Faster R-CNN、YOLOv4和CenterNet 3个目标检测模型在不同背景下色彩改变的测试集上进行检测,测试结果如表2所示。
表2 亮绿色数据集的目标检测结果
Table 2 Target detection results of bright green datasets
模型MAP/%原测试集背景1背景2背景3背景4Faster R-CNN59.2518.9314.2322.069.86YOLOv496.4348.2352.1547.1652.37CenterNet94.3262.5138.7619.494.5
在表2的检测数据中,模型在不同背景下色彩改变的测试集上的检测结果变化明显。可以看出,将目标变换在不同背景下,通过对目标本身所采取的隐身措施(目标颜色特性的改变),即目标特性不确定的情况下,对检测模型的检测结果具有明显的影响。
3) 实验3
将原测试集中的军事车辆统一变换到上述4个不同的背景中选定的位置,并选择周边林地植被对该背景下的军事车辆进行不完全遮挡。变换过后,每个背景下的测试集数量均与原测试集一致,即为100张。Faster R-CNN、YOLOv4和CenterNet 3个目标检测模型在4个不同背景下的遮挡数据集上的检测结果如表3所示。
表3 遮挡数据集的目标检测结果
Table 3 Object detection results of occlusion datasets
模型MAP/%原测试集背景1背景2背景3背景4Faster R-CNN59.250.9424.20 14.64 3.72YOLOv496.430.2415.10 9.81 0.50CenterNet94.320.4933.49 20.78 0.16
不难发现,检测模型在4个不同背景下的遮挡数据集上的检测效率急剧下降。可以看出,通过对目标进行一定的遮蔽伪装措施(周围背景对目标的不完全遮挡),所导致的目标局部特性的改变,对模型的检测结果具有显著的影响。
为考察目标自动检测模型对战场环境的适应性,本文通过在测试数据集中引入背景不确定性和目标不确定性的方法,对比分析了不确定性引入前后,检测目标的检测效率的变化情况。所得的主要结论如下:
1) 背景不确定性对自动检测模型的检测效率影响程度有限。这可以理解为检测模型在训练中对目标特性有了很好的把握,而这些模型检测目标更多的是基于目标的特性,而不是目标背景的相互关系。
2) 目标不确定性的引入大幅度降低了检测模型的检测效率,很多情况下,几乎完全失效,检测准确率甚至降到了1%以下。这说明通过隐身技术措施增加目标特性的不确定性,是非常有效的对抗机器视觉目标探测的手段。
3) 本文研究工作得出的结论不具普遍意义,因为本文对系统的训练和测试只是针对本实验构建的数据集进行的。不过,这些研究证实了由于军事行动的特殊性,军事目标自动检测模型无法得到充分的训练,因此战场环境中的不确定性因素一定会对目标的自动检测效果产生重要的影响。这一点无论对于目标检测还是军事伪装,都有重大意义。
[1] ZHENG Yunfei,ZHANG Xiongwei,CAO Tieyong,et al.Detection of people with camouflage pattern via dense deconvolution network[J].IEEE Signal Processing Letters,2019,26(01):29-338.
[2] DENG Xiaotong,CAO Tieyong,FANG Zheng,et al.Research on detection of people with camouflage pattern via improving retinaNet[J].Computer Engineering and Applications,2021,57(05):190-196.
[3] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich featurehierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 27th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Press,2014:580-587.
[4] HE K,ZHANG X,REN S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,37(09):1904-1916.
[5] GIRSHICK R.Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision.Washington:IEEE Computer Society Press,2015:1440-1448.
[6] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(06):1137-1149.
[7] HE K,GKIOXARI G,GIRSHICK R,et al.Mask R-CNN[C]//Proceedings of the 2017 IEEE International Conference on Computer Vision.Piscataway:IEEE,2017:2980-2988.
[8] DAI J,LI Y,HE K,et al.R-FCN:Object detection via region-based fully convolutional networks[EB/OL].[2020-08-15].https://arxiv.org/abs/1605.06409.
[9] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recog-nition.Washington:IEEE Computer Society Press,2016:429-442.
[10] REDMON J,FARAFADI A.YOLO9000:better,faster,stronger[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recongnition.Piscataway:IEEE Press,2017:6517-6525.
[11] REDMON J,FARHADI A.YOLOv3:an incremental improvement[EB/OL].[2020-09-25].http://arxiv.org/pdf/1804.02767.pdf.
[12] BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:Optimal Speed and Accuracy of Object Detection[J].arXiv preprint arXiv,2020(01):105-112.
[13] LIU W,ANGUELOV D,ERHAN D,et al.SSD:Single shot multibox detector[C]//Proceedings of the 14th European Conference on Computer Vision.Berlin:Springer,2016:21-37.
[14] Fu C Y,Liu W,RANGA A,et al.DSSD:Deconvolutional single shot detector[C]//Computer Vision and Pattern Recognition2017.Honolulu,Hawaii:IEEE,2017.
[15] LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for dense object detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017(99):2999-3007.
[16] Law H,Deng J.CornerNet:Detecting objects as paired keypoints[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:734-750.
[17] DUAN K,BAI S,XIE L,et al.CenterNet:Keypoint triplets for object detection[C]//Proceedings of International Conference on Computer Vision.Piscataway:IEEE Press,2019:6568-6577.
[18] TIAN Z,SHEN C H,CHEN H,et al.FCOS:fully convolutional one-stage object detection[C]//Proceedings of IEEE/CVF International Conference on Computer Vision.Piscataway:IEEE Press,2019:9626-9635.
[19] 王雪丽,李昕.基于相关滤波和卷积神经网络的目标跟踪算法[J].重庆工商大学学报(自然科学版),2020,37(01):19-24.
WANG Xueli,LI Xin.Target tracking algorithm based on correlated filters and convolutional neural network[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2020,37(01):19-24.