【信息科学与控制工程】
随着干扰技术的发展和对战场环境、敌我对抗态势认知的深入,使得导弹进攻面临由箔条、角反射体、舰载干扰机及舷外有源、无源干扰设备等构成的复杂电磁环境[1],现代舰艇普遍装备电子战反导装备并且其发展越来越具有针对性,不仅数量大、种类多,而且功率不断增大,战场电磁环境日趋密集复杂[2]。反舰导弹作为当前及未来海战主要作战武器,干扰已对反舰导弹作战效能发挥造成了严重威胁,其遂行精确打击任务的能力需求与实际作战能力差距较大,急需寻求途径提升反舰导弹在复杂环境下对目标的精细化选择能力,全面提升反舰导弹在复杂电磁环境下作战效能发挥,提高导弹突防能力。
精确打击不仅能达到威慑和遏制敌人的目的,实现不战而屈人之兵的境界,也能通过对目标的精准选择直接摧毁敌重要军事、政治以及经济目标,瘫痪敌作战体系,进而影响乃至决定战争的进程和结局。随着人工智能的深入发展,作为计算机视觉领域的一个重要分支——基于深度学习的目标检测技术得到迅猛发展并日渐成熟。2015年由微软研究院何凯明等4名华人提出的ResNet神经网络对目标的识别率为96.3%,达到了与人眼相媲美的水平。基于深度学习的目标检测技术已广泛应用于人脸识别、车辆检测、无人驾驶、医疗手术等多个领域,其对目标检测识别精度高、判读速度快,已覆盖经济社会的方方面面。
实现反舰导弹对目标的精细化选择,保证不打错、打得准,要求在诸如港口、岛岸等复杂背景下精细区分判定我方、敌方、友方目标,能够区分军船、民船等相似目标以及编队目标等。将基于深度学习的目标检测技术应用于反舰导弹目标检测与识别环节,符合光学或雷达/光学多功能导引头作用机理,能够大幅提升复杂环境下对舰船目标的检测与识别精度,能够为反舰导弹实现精确化打击提供技术支撑和可行的技术途径,满足现代高技术战争的需要,具有重要的军事意义及战略意义。
当前,海上作战形式空前激烈,战争形态复杂多变,反舰导弹作为海战中实施精确打击的主要武器,对其适应复杂环境的性能提出更高要求。海上自然环境对反舰导弹实现对目标的精准检测与识别方面存在较多影响因素。
一是海洋环境要素众多。主要包括海洋水文要素:海水温度、盐度、潮汐、海浪等;以及复杂天气环境:雨雪、云雾、水汽、光照、雷暴等气象要素都对反舰导弹目标检测与识别提出较高的要求。
二是地物地貌复杂。近岸的山峰、树林、港口码头以及错综分布的岛屿、岛礁等自然背景和建筑物、铁架、码头等海上设施设备等人为背景,进一步加大了目标检测与识别难度。舰船航行至近岸岛礁附近时,海岸线、树林、层峦叠嶂的山体、建筑物等形成了复杂的背景从而直接影响目标的检测与识别[3]。
由于丰富的海洋资源及运输、物流的发展,海上船舶分布众多,海域中分布各类客船、货船、渔船、商船等民用或中立目标以及各类军舰,多种类型船舶密集分布,军船、民船交织排列,使传统常规的目标检测识别手段面临较大挑战。
维基百科中把舰船类别分为:护卫舰、航空母舰/舰队航空母舰、潜艇/潜舰、驱逐舰、两栖战舰、战舰、巡防舰、巡洋舰、导弹快艇、鱼雷快艇、巡逻舰、扫雷舰、登陆舰、补给舰、近岸战斗舰。百度百科根据不同的舰艇航行状态把战斗舰艇分为水下战斗舰艇、水面战斗舰艇,水面战斗舰艇按基本任务分为航空母舰、巡洋舰、战列舰、驱逐舰、导弹艇、布雷艇等,水下战斗舰艇即潜艇分为常规动力和核动力潜艇。
海上作战环境复杂多变,水文、气象要素、地物地貌等多方面因素都对反舰导弹作战提出了严峻考验。
目标检测技术是机器视觉领域关注的焦点问题,在图像内容理解和场景分析中发挥着重要作用。目标检测包含2个核心子任务:目标定位和目标分类[4]。
传统目标检测算法包括3个步骤:一是选择候选区域,采用穷举法滑动窗口遍历图像所有像素,通过设置不同窗口的不同长宽比将所有可能的区域穷举出来,得到一切可能的尺寸和位置,这样的做法计算量庞大,产生过多冗余候选区域,带来了巨大的资源浪费;二是人工特征提取,即人工设计重构原图像,但由于图像中待检测目标类别不定,并且受到环境影响,增大了设计通用、鲁棒性的难度,影响结果的准确性。目前较为经典的特征有:Haar特征、LBP特征、HOG特征、SIFT特征等;三是分类器分类:常见的机器学习分类器有Adaboost、SVM等。经过大量理论和研究证明,采用“Haar特征+Adaboost算法”进行人脸检测,或者利用“Hog特征+SVM算法”组合进行车辆、行人检测效果较好。
深度学习诞生之后,以其优越特性,使目标检测技术由传统的机器学习迅速向基于深度学习的方式转变。基于深度学习的目标检测技术广泛应用于目标定位、交通道路标识识别、智能安防系统、军事目标侦察监控、医疗手术器械、导航海事维权、卫星图像分析等领域[5]。
2014年之后基于深度学习的目标检测技术逐步成为学术界和工业界的主流,目前比较流行的5种目标检测算法是R-CNN、Fast R-CNN、Faster R-CNN、SSD、YOLO[6-8]; 按各方法目标定位及分类方式的不同,将目标检测分为一阶段(one-stage)目标检测算法:SSD、YOLO;二阶段(two-stage)目标检测算法:R-CNN、Fast R-CNN、Faster R-CNN。早期的目标检测方法大多是二阶段目标检测算法,属于先定位后分类的目标检测模式。对于一般的目标定位问题,在某些特定场景下,如目标的特殊运动状态或目标背景信息较为简单的情况,能够直接确定目标位置,甚至可以根据关键特征实现对目标实时跟踪。一阶目标检测算法相较于二阶目标检测算法在速度上更胜一筹,能够通过单次训练共享目标的位置及类别特征再回归的方式得到最终的检测结果,不需要进行交替训练,而二阶目标检测算法,特别发展到Faster R-CNN,其检测精度显示出更高优势。
Girshick等[9]于2016年提出了二阶目标检测网络Faster R-CNN,使用区域生成网络(region proposal networks,RPN)代替了Selective Search算法,解决了R-CNN、Fast R-CNN网络运行速度较慢的问题,真正实现了网络的端到端训练。相比二阶目标检测算法如YOLO、SSD等精度更高。并且Faster R-CNN实现了区域生成网络与特征提取网络卷积层共享,节约了区域生成功能的时间,大大提高了网络效率。整个模型可以分为区域生成网络(RPN)和Fast R-CNN检测网络2个模块。Faster R-CNN网络整体结构如图1所示。
图1 Faster R-CNN网络结构示意图
Faster R-CNN检测分为4步:① 给定输入图像,通过CNN提取特征图; ② 通过区域生成网络RPN对候选区域进行特征信息提取; ③ 通过RoI Pooling层将不同尺度的特征图转换为固定长度的特征向量; ④ 将特征向量送入全连接层进行分类和回归。
区域生成网络(region proposal network,RPN)即提取候选框,首次在Faster R-CNN网络中得到应用,相比于R-CNN、Fast R-CNN的Selective Search提取候选框的方法,RPN提取候选框效率更高并且真正意义上实现了将物体检测融入到一个神经网络中。图2是RPN结构示意图,通过特征提取网络生成的共享特征图,并通过滑动窗口处理得到256维特征图尺寸是H×W,H×W的特征图可以看作是H×W个向量,每个向量是256维经过2次全连接操作(分类、回归)相当于对整个特征图做2次1×1的卷积操作得到一个2×H×W和4×H×W大小的特征图,相当于得到H×W个结果,其中每个结果中有2个分数和4个坐标,2是指物体前景和背景分数,4是指4个坐标相对于原图坐标的偏移。K的值为9,即锚(Anchor)的数量,H×W个点每个都生成9个不同大小的框(尺度为1282、2562、5212,长宽比为1∶1、1∶2、2∶1),结合预先定义的锚及分数和坐标,经过后处理得到候选框。同时还是用了非极大值抑制法NMS使得到的候选框更加精确。
图2 RPN网络结构示意图
RPN的损失函数包括分类损失与回归损失两部分,表示为:
(1)
式(1)中:i表示锚点序号; pi表示锚点i为目标的预测概率;为对应真实区域预测值; ti为预测框4个参数化坐标向量;为对应真实区域框坐标向量; Lcls为分类损失; Nreg和Ncls为规范化参数,分别由锚点的大小和锚点的位置数量决定。
Lcls包含目标与非目标两类:
(2)
(3)
式(3)中: Lreg为回归损失;R表示鲁棒损失函数[10]。
采用以下4个坐标的参数化进行边框回归:
(4)
式(4)中:x、y、w、h为预测框的中心坐标及宽、高;x、xa、x*分别代表预测框、锚点、真实区域边框的坐标x(y、w、h相同)。
感兴趣区域池化层(roI pooling layer,RPL)是感兴趣区域池化操作,从图1中可以看到RoI层有2个输入:一是特征提取网络得到的特征图;二是区域建议网络生成的候选框proposal.其操作流程如下: ① 根据输入图像将感兴趣区域RoI映射到特征图的对应位置; ② 将映射后的区域划分为大小相同的块(块的数量与输出的维度相同); ③ 对每个块进行最大池化(max pooling)操作。
不同大小的感兴趣区域RoI经过上述操作后固化为相同大小的特征池化图,再通过2个连续的全连接层将这个特征池化图转化为4 096维的感兴趣区域特征向量,一方面通过全连接层,利用Softmax函数计算分类得分,得到预测类别的概率;另一方面也通过一个全连接层,利用边框回归Bbox regression输出位置偏移,得到更精准的目标检测框。
分类器分类后会在目标周围产生多个候选区域框,这些框间会有重合,通过非极大值抑制方法将这些候选框中的最大值挑选出来,而对非极大值元素进行抑制,算法步骤如下:
步骤1 将所有候选框得分由高到低排序,选出最高分框;
步骤2 设定一个阈值,将其余框与最高分框的交并比(IOU)与阈值进行比较,当IOU值大于阈值时删除这个框;
步骤3 从剩下的除最高分框的所有框中再选择一个得分最高的重复前2个步骤,最终得到一个最优框。
(5)
式中:A、B分别表示2个预测框。
NMS的损失函数定义为:
Lnms=Lcls(p,u)=-logpu
(6)
式中:真实分类u为对应的损失,p为N个类别预测概率。
目前针对可见光舰船目标图像暂没有开源数据集,本文为实现舰船目标检测任务,人工构建了包含一定类别船只的数据集。目前尚无一个统一标准对舰船类别进行划分,不同国家和地区对类别的划分差别较大,本文根据实验需求选取不同分类中比较常见且样本较为丰富的类别,将数据集种类分类,包括:各类军舰、航空母舰、气垫船、客船、货船、帆船、渔船等7类。但在实际采样过程中,有些类别样本难以搜集,容易造成各类别数量不均,影响实验结果,因此对样本进行合并整理选取有代表性的3类:航空母舰、军舰、帆船,3个样本图像数量多并且特征明显,能够较好地验证目标检测网络对舰船目标的检测识别效果。通过网络搜索、现场采集等方式采集.jpg/.jpeg格式图片,将图片大小统一为500×500并命名为000001格式,利用精灵标注助手进行图像标注,标注基本原则是对数据集中每个样本的前景目标使用最接近舰船目标的矩形框进行标定,对舰船目标整体轮廓不全特别是针对有遮挡物的图像目标也进行矩形框标定,保证网络训练的准确性及可靠性。
本文制作的是VOC2007格式数据集,在原始的VOC2007数据集中将数据集中所有样本划分为测试集(test)、训练集(train)、验证集(val)、训练和验证集(trainval)等4项,trainval占整个数据集的50%,test同样占50%,训练集、验证集大约为trainval的50%,样本数据图像如图3所示。
图3 部分数据集图像
本试验在Ubuntu 16.04操作系统下进行,使用深度学习框架Tensorflow,硬件环境为:Intel Xeon(R) CPU,Nvidia Gforce GT705;使用python语言实现编程操作。
1) Precision
Precision是准确率/查准率,表示所有被检测为正类的样本中真正属于目标类别的比例。
2) Recall
Recall是召回率/查全率也称检测率,即目标被检测为正类的数量占所有被检测为目标类的总数的比例。
3) AP(average precision)
AP即Precision-recall曲线(PR曲线)与X轴之间的图形面积,PR曲线反映了分类器对正例的识别准确度和对正例的覆盖力之间的权衡,曲线横轴为Recall召回率反映了分类器对正例的覆盖力,纵轴是准确率反映分类器预测正例的准确度。
(7)
4) mAP(mean average precision)
mAP即所有查询结果排序的AP的平均值。
式中Q为查询的总次数。
即预测正确的部分占预测结果的比例。
即预测正确的部分占真实结果的比例。
其中TP(True Positive):真的正样本,即正样本被正确分为正样本;TN(True Negatives):真的负样本,即负样本被正确分为负样本;FP(False Positive):假的正样本,即负样本被错误分为正样本;FN(False Negative):假的负样本,即正样本被错误分为负样本。
5) 识别速度FPS
FPS是每秒识别图像的数量,单位帧/s。数值越大则单位时间内识别的图像数越多,算法运行速度越快,反之表示算法运行速度越慢。
实验前利用VOC2007数据集和vgg16网络对Faster R-CNN网络进行训练测试,得到成熟网络后再通过自建舰船目标数据集对网络进行训练,将训练得到的权值模型对测试集中样本进行测试,设置检测框概率阈值为0.5。网络对VOC2007数据集的测试结果如表1所示。为检验网络性能及对舰船目标数量、分类对检测精准度的影响,分别将数据集分为军船、民船2类和航母、军船、帆船3类,迭代次数分别为200、2 000、20 000次,比较不同分类标准网络对舰船目标检测性选取部分网络的识别效果如图4所示。
表1 VOC2007测试结果
MethodBackboneTraining setTesting SetmAPR-CNNVGG-6VOC2007VOC2007Fast R-CNNVGG-16VOC2007VOC200766.9Faster R-CNNVGG-16VOC2007VOC200769.9
针对自建舰船图像数据集,将舰船目标分为航空母舰(ac)、军船(warship)、帆船(sailboat)等3类。
由图4实验结果可以看出,Faster R-CNN网络能够实现对舰船目标准确高效的识别,并且:① 迭代20 000次效果较好准确度高,而迭代200次时,对网络训练次数较少,对舰船图像测试效果则较差;② 将图像分为军船、民船2类的测试效果优于分为军船、航空母舰、帆船3类的效果;③ 网络对小目标、遮蔽目标的检查效果不理想。相比于Fast R-CNN网络,Faster R-CNN网络使用区域建议网络RPN代替Selective Search方法能够有效地从原图像中提取候选区域,真正实现端到端训练,能够达到实时检测的目的。但Faster R-CNN 算法对感兴趣区域RoI只做取整计算,会导致感兴趣区域对应到原图时产生位置不匹配的问题,并且在分类时Faster R-CNN算法采用NMS算法[11],该算法将所有交并比IOU大于设定阈值的框全部删除导致了置信度的降低。
图4 测试效果和不同迭代次数的MAP值
海上环境瞬息万变,反舰导弹在对目标进行识别、跟踪、打击过程中会从目标区域多角度进行目标判读,海洋复杂自然背景下各舰船目标多样且分布密集多样,为实现更精细化的目标检测,可以通过图像语义分割技术(image semantic segmentation),遍历图像所有像素,对像素进行语义信息标记,将感兴趣目标从图像中分割出来,语义分割仅输出对图像预测的某类结果,不对图像实例进行区分;实例分割(instance segmentation)对像素级图像进行密集区分同时还在预测类别前提下对不同实例进行区分,通过实例分割可以对类的个体进行区分从而实现对遮挡舰船目标的检测。
图5展示了图像检测技术的分支,图5中有2只不同类型的舰船,经语义分割后只显示舰船类,用粉色区域表示,而经过实例分割后显示的 结果则包含了2个不同的个体(通过不同深浅颜色表示)。
图5 图像检测的分支
2017年何凯明等提出的Mask R-CNN网络[12]可以实现像素级别图像的实例分割,在不加任何设计技巧及训练的前提下,相比FCIS(fully convolutional instance-aware semantic segmentation)[13]——COCO 2016分割挑战的冠军,Mask R-CNN的检测性能优势显著,将目标检测与分割并行处理,摒弃传统的先分割再分类的传统图像分割方法,在实例分割领域取得了明显成效。
Mask R-CNN网络在Faster R-CNN网络基础上增加了全卷积网络 (fully convolutional network,FCN)和RoI Align将掩膜(mask)预测和分类预测区分为网络中的2个分支,分类预测分支对感兴趣区域进行预测生成类别标签和矩形框位置坐标,与Faster R-CNN网络相同;掩膜分支对每个类别独立预测,生成的二值掩膜依赖分类预测的结果以此分割出物体,避免了类别间的竞争。
Mask R-CNN网络结构如图6所示,通过区域生成网络提取候选区域,结合不同尺寸的anchor和非极大值抑制方法得到分数最高的anchor并输出对目标前景或背景类别的预测以及位置信息得到感兴趣区域。得到的感兴趣区域通过RoIAlign层对尺寸进行统一规定,一方面通过Faster R-CNN网络预测类别和位置信息,另一方面通过FCN网络进行像素级别分割,预测并输出m×m二值掩膜(Binary Mask),m×m为局部小特征图的尺寸。将m×m特征图再次通过RoIAlign网络映射到原始输入图像上,以减少计算量并取得较好的分割效果。
图6 Mask R-CNN网络结构示意图
传统卷积神经网络前5层是卷积层,第6、7层输出长度为4 096的一维特征向量,第8层得到长度为1 000的向量。FCN网络称为全卷积网络,其将传统卷积网络中的全连接层替换为卷积层(4 096,1,1),(4 096,1,1),(1 000,1,1),由于采用RoIAlign层能够精确地得到感兴趣区域与特征图的对应关系,感兴趣区域在特征图上的位置更为精确,这样可以直接对特征图卷积,FCN网络结构如图7所示。
图7 FCN网络结构示意图
FCN网络在卷积层后周期性插入池化层,经过5次卷积层与池化层组合后,图像分辨率依次降为1/2、1/4、1/8、1/16、1/32。FCN网络对最后一层通过添加反卷积层(deconvolution layer)实现对输出结果的32倍上采样(up sample)操作,得到与原图同尺寸的输出,并且特征图的分辨率得到了提升。FCN网络不限制输入图像的尺寸,并且不使用CNN网络方式将像素块输入网络,避免了重复存储,网络效率更高。
Faster R-CNN网络采用RoIPool层[14]对特征图上不同大小的感兴趣区域统一尺寸,并转化成不同细粒度的特征图,再通过最大池化层提取特征。RoIPool采用最近邻插值法,对缩放后感兴趣区域的位置信息进行四舍五入,赋给目标点最近像素点的像素值,如图8所示,原图像中15×15的区域对应到特征图上尺寸为2.93×2.93(15×25/128),RoIPool采用最近邻插值进行四舍五入处理得到3×3的特征区域,这会导致区域和真值间产生偏差。
图8 最邻近插值法原理示意图
Mask R-CNN网络加入RoIAlign层改进池化操作,使用双线性插值法(bilinear interpolation),将感兴趣区域归一化到一定尺寸在池化成统一尺寸,避免了像素错位。
表2展示了各目标检测网络在VOC2007及COCO数据集中的性能表现,Mask R-CNN网络在不加任何优化手段情况下超过各种数据增强加持下的COCO2016分割挑战冠军FCIS,网络检测精度较高。Mask R-CNN网络根据图片大小及硬件性能处理时间需0.3~0.5 s,虽然比Faster R-CNN、YOLO系列等网络相比速度不高,但基本能满足实时性需求,且其对目标精准的识别分类,能够很好的适应复杂背景,对实现复杂战场环境中舰船目标的精准选择具有重要意义。
表2 网络性能对比图
VOC 2007mAP/%COCOmAP/%检测速度/每秒帧数R-CNN66.4-45SPP-Net76.8-59Fast R-CNN78.6-40Faster R-CNN-33.045.4Mask R-CNN-39.15
将Mask R-CNN网络用于海上舰船目标的检测与识别,实现对重叠、遮挡目标的较好检测,有效规避复杂海上电磁环境及自然环境影响,精细区分各类船只、岸岛等相邻、相近及编队目标,为进一步实现反舰导弹对目标的精确打击提供了可行的理论途径。
通过实验数据及理论分析,基于深度学习的目标检测网络,能够实现对自建数据集中舰船目标的精准检测与识别,尤其是在复杂自然环境及区域分布目标较多情况下具有较好的适应性。基于人工智能的舰船目标检测技术实现对目标的精细化选择与识别,对目标识别精度高、判读速度快,且受自然及电磁环境影响较小。在反舰导弹末端制导阶段,面对海上多变自然环境,要实现对目标的精确打击可以采用光学制导与人工智能技术相结合的方式。利用可见光图像与人工智能目标检测技术相结合的末端制导实现对目标的灵活精准确定。
[1] CHRZANOWSKI E J.Radar active counter measures[M].Artech House,1990.
[2] 姚德金.21世纪电子战技术发展展望[J].舰船电子对抗,2006,29(03):10-12.
[3] 悠苡译.反舰导弹面临的新问题[J].飞航导弹,2001(09):1-4.
[4] COLLOBERT R.Natural language processing from scratch[J].Journal of Machine Learning Research,2011(8):2493-2537.
[5] HE K,ZHANG X,REN S,SUN J.Deep residual learning for image recognition[C]//Proc.of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),27-30 June 2016.IEEE,2016.
[6] 尹宏鹏,陈波,柴毅,等.基于视觉的目标检测与跟踪综述[J].自动化学报,2016,42(10):1466-1489.
[7] 尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015(01):48-59.
[8] 周晓彦,王珂,李凌燕.基于深度学习的目标检测算法综述[J].电子测量技术,2017,40(11):89-91.
[9] LIU W,ANGUELOV D,ERHAN D,et al.Ssd:Single shot multibox detector[C]//Proc.of the European conference on computer vision.Springer,Cham,2016,2016:21-37.
[10] GRISHICK R.FastR-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision,2015,2015:1440-1448.
[11] MCCULLOCH W S,Pitts W.A logical calculus of the ideas immanent in nervous activity[J].The bulletin of mathematical biophysics,1943,5(04):115-133.
[12] HE K,GKIOXARI G,DOLLAR P,et al.Mask R-CNN[C]//IEEE International Conference on Computer Vision,2017.IEEE,2017:2980-2988.
[13] LI Y,QI H,DAI J,et al.Fully Convolutional Instance-Aware Semantic Segmentation[J].IEEE Computer Society,2016:1-3.
[14] 张伟,张殿友.舰载雷达无源对抗系统对反舰导弹的干扰应用[J].电子对抗,2009,125(02):18-22.
Citation format:WANG Yao, XU Huiqi, JIANG Yi, et al.Application Research of AI Target Detection Networks[J].Journal of Ordnance Equipment Engineering,2021,42(06):236-242.