基于改进Faster R-CNN的海上弹着点水柱目标检测算法

王永生,姬嗣愚,杜彬彬

(海军航空大学,山东 烟台 264001)

摘要:结合海上弹着点水柱信号多尺寸、多形态的特点,对Faster R-CNN算法进行改进,提出了ST-Faster R-CNN算法。利用Swin Transformer作为骨干网络,提高特征提取能力,同时结合多尺度特征融合的方式,改善漏检误检问题。在目标数据集上的实验结果表明,改进后的ST-Faster R-CNN算法平均准确率提高4.5%,达到96.18%,速度达到18.57帧/s,相比其他算法优势明显,可以更好地完成海上弹着点水柱信号的检测要求。

关键词:目标检测;Faster R-CNN;Swin Transformer;多尺度特征融合

1 引言

在执行海上演练、作战等任务时,快速地获取武器射击弹着点的准确位置,有利于实时评估射击结果,对提高部队战斗力水平具有重要的指导意义。

现阶段主要依靠雷达号手观察弹着点处水柱信号评判射击效果,从使用角度来看,这种依靠人工检测弹着点的方法主要存在测量精度不准、测量时间长、弹着点重叠时无法辨别等问题。近年来,目标检测技术取得了巨大的成功,已在海防监视、精确制导、视频监控等多个领域得到广泛应用[1],为弹着点的检测提供了新的方向。当前的目标检测算法主要通过引入卷积神经网络自动提取高层特征[2]。根据检测过程中是否包含候选区域推荐,主要分为基于候选区域思想的two-stage[3-6]算法和基于回归思想的one-stage[7-12]算法。前者的典型算法包括R-CNN系列、R-FCN等,突出优点是检测精度较高;后者的典型算法包括YOLO系列、SSD、DSSD等,优势在于检测速度快。然而,虽然这些算法都在不断地完善目标检测的精度和速度,但是对于海上弹着点水柱信号的检测并不完全适用。Faster R-CNN算法是精度非常高的一种two-stage目标检测算法,但在实际应用过程中,仍然存在特征信息提取有限、检测速度过慢的问题,本文以Faster R-CNN作为基础模型,结合采集到的水柱信号尺寸变化大、形态变化多的特点,提出改进的Faster R-CNN模型——ST-Faster R-CNN,以Swin Transformer作为骨干网络,结合深浅层特征融合,对摄像头捕获到的弹着点处的水柱信号进行目标检测,为后续获得弹着点的位置及距离信息奠定基础。

2 Faster R-CNN算法原理

2.1 网络整体架构

Faster R-CNN是在Fast R-CNN算法基础上改进得到的,主要解决的是由选择性搜索(selective search)生成候选区域耗时耗力的问题。Faster R-CNN算法采用RPN(region proposal networks)网络代替选择性搜索[5],将特征提取、生成候选区域、边框回归、分类都整合在了一个网络中,在精度和速度方面都有很大提升,其整体结构如图1所示。

图1 Faster R-CNN整体结构框图
Fig.1 Overall structure diagram of Faster R-CNN

Faster R-CNN的整体流程可以分为以下3步:

1) 提取特征:从VOC或COCO数据集中得到输入图片,经过VGG16或其他骨干网络(backbone)提取图片特征;

2) 生成候选区域:利用提取到的图片特征,经过RPN网络,获取一定数量的感兴趣区域(region of interests,RoI);

3) 分类与回归:将感兴趣区域和图像特征输入到RoI头部,对这些感兴趣区域进行分类,判断其属于什么类别,同时对位置进行微调。

2.2 RPN网络

RPN网络作为Faster R-CNN最大的创新点,其主要作用是实现目标的精确定位,本质上是利用一个卷积神经网络代替选择性搜索生成候选区域,使得输入任意尺寸的图片信息可以输出待检测目标的候选框矩阵及其得分[13]。候选框在原始图像上的映射被称为锚点框(anchor),RPN结构如图2所示。

图2 RPN结构框图
Fig.2 RPN structure diagram

通过设置不同比例尺度和面积的anchor,得到k(原算法取值为9)个不同的锚框,将每个anchor映射为512维的低维特征向量,分别输入到分类层和回归层中,以端到端的方式进行训练。分类层负责预测锚框内是否含有目标,得到2k个置信得分,回归层负责回归边界框的位置,得到4k个坐标位置参数,最后综合分类层和回归层输出的结果,得到目标区域建议框,再输入到后面的检测网络中进行目标检测。

2.3 边框回归

在Faster R-CNN中,采用边框回归来实现锚点框(anchor)到真实标注框(ground truth box,GT)的过渡,使得原始预测框经过映射得到一个跟真实值更加接近的回归窗口。给定原始anchor为A=(Ax,Ay,Aw,Ah),GT=(Gx,Gy,Gw,Gh),当二者相差较小时,近似认为这是一种线性变换,并用线性回归模型来对回归检测框进行微调,达到接近真实值的目的[14]。相应的坐标参数回归为:

(1)

式(1)中:xywh分别表示预测的目标边界框的横纵坐标以及宽高值;xayawaha分别表示候选目标建议框的横纵坐标以及宽高值;x*y*w*h*分别表示真实的目标边界框的横纵坐标以及宽高值;为对应的平移因子;为对应的缩放因子。通过公式(1),将anchor box拟合回归到附近的真实边界框,最后输出为预测框。

3 改进的ST-Faster R-CNN算法

海上弹着点水柱信号具有尺寸变化大、形状不规则的特点,原来的Faster R-CNN模型无法充分满足检测需求。因此,本文提出改进的ST-Faster R-CNN算法模型,以Swin Transformer作为新的骨干网络,增强特征提取能力,同时在骨干网络的最后1层与倒数第2层间进行深浅层特征信息的融合,采用多尺度特征图对大小不一的目标物体的特征信息进行提取,可以有效改善漏检误检的问题。

3.1 骨干网络Swin Transformer

Transformer是一种主要基于自注意机制的深度神经网络,最初应用于自然语言处理(natural language processing,NLP)任务,并带来了显著的改进[15],受其强大表示能力的启发,许多研究人员正逐步将其扩展到计算机视觉任务。然而在应用过程中,transformer需要应对2个挑战:一是图像领域中实体尺度变化大,现有的Transformer架构中图像块(token)的尺度是固定的,无法适应大范围变化的目标尺寸;二是图像分辨率高,像素点多,自注意力机制会带来庞大的计算量。为了克服上述问题,文献[16]提出了Swin Transformer,如图3所示。

图3 Swin Transformer与Vision Transfomer
Fig.3 Comparision of Swin Transformer and Vision Transfomer

针对问题1,Swin Transformer从最小的特征块(patch)开始,通过逐层进行邻域合并的方式构建多层级的特征图,因此能够方便地与密集预测网络FPN、U-Net等配合使用;针对问题2,Swin Transformer利用滑窗操作将注意力限制在一个窗口中,使计算复杂度与输入图片线性相关。结合以上2点,Swin Transformer可以作为骨干网络应用在目标检测任务中。Swin Transformer的整体结构如图4所示。

图4 Swin Transformer整体结构框图
Fig.4 Swin Transformer structure

具体实现过程为:

1) 将输入尺寸为H×W×3的RGB图像经分块(patch partition)处理变为图像块(patch),每个图像块的尺寸为4×4,其特征维度为4×4×3=48,输入图像共划分为个图像块;

2) 在stage1中,线性嵌入(linear embedding)将每个图像块的特征维度变为C,然后送入Swin Transformer Block并对输入特征进行计算;

3) stage2-stage4操作相同,通过图像块合并(patch merging)将2*2的相邻图像块进行拼接,再经过卷积网络对拼接后的4C维特征进行降维,因此图像块数量减少4倍,特征维度变为2C

图5为2个连续的Swin Transformer Blocks,包含了一个基于窗口的多头自注意力模块(windows multi-head self attention,W-MSA)和基于移动窗口的多头自注意力模块(shifted windows multi-head self attention,SW-MSA),实现不同窗口内特征的传递与交互,其中,Zl为第l层的输出特征,在每个MSA模块和每个多层感知器(multilayer perceptron,MLP)之前使用规范层(layer norm,LN),并在每个MSA和MLP之后使用残差连接,其表示为:

图5 2个连续的Swin Transformer Blocks框图
Fig.5 Two consecutive Swin Transformer Blocks

(2)

(3)

(4)

(5)

为了解决自注意力带来的庞大计算量的问题,Swin Transformer利用W-MSA将自注意力限制在不重叠的局部窗口中,利用SW-MSA中窗口的移动实现信息交互,如图6所示,在第l层,采用常规的窗口分区方案,在每个窗口内计算自注意力,在下一层l+1中,窗口分区会被移动,产生新的窗口。新窗口中的自注意力计算跨越了l层中窗口的边界,提供了新的关联信息。

图6 基于移动窗格的自注意力机制计算过程示意图
Fig.6 Self-attention mechanism based on moving panes

W-MSA将输入图片划分成不重合的窗口,然后在不同的窗口内进行自注意力计算。假设一个图片共有h×w个图像块,每个窗口中包含M×M个图像块,那么W-MSA的计算复杂度为:

Ω(W-MSA)=4hwC2+2M2hwC

(6)

由于窗口中包含的图像块数量远小于图片中图像块数量,因此在M固定的前提下,W-MSA的计算复杂度和图像尺寸呈线性关系。

同时,为了解决窗口移动带来的数量增加,提出了向左上角的循环移位操作(cyclic-shifting)解决方案。如图7所示,通过对特征图移位,组成一个可以处理的窗口,这个可处理的窗口是由几个不相邻的子窗口组成的,然后使用掩膜机制(mask mechanism)将自注意力在子窗口中进行计算,使得其在保持原有窗口个数下,获得等价的计算结果。

图7 基于circle shift的移动窗格计算过程框图
Fig.7 Calculation of moving panes based on circle shift

3.2 多尺度特征融合

原始的Faster R-CNN网络中,由RPN根据原图片的特征图直接生成待检测图片的候选区域,而实际所需的特征图是经骨干网络提取特征后生成的,直接用来进行检测会造成目标特征信息的遗漏。同时,Swin Transformer应用在Faster R-CNN网络时必须对二者进行特征大小的匹配,在分析过程中,stage3输出的特征图尺寸满足匹配要求,但浅层网络提取的主要是细节特征,图像的语义特征主要通过网络更深层的stage4获得。因此,选取Swin Transformer中最后2层输出的不同尺度特征图,利用上采样和特征拼接后输入到新的卷积模块中,经RPN网络生成检测候选区域,不仅解决了特征大小匹配的问题,而且增强了网络提取图像特征信息的能力,具体融合结构见图8。

图8 多尺度特征融合结构框图
Fig.8 Multi-scale feature fusion structure diagram

如图8所示,在骨干网络Swin Transformer结构中,将stage4输出的特征图进行上采样,使之与stage3输出的特征图尺寸相同,进行特征拼接后输入到新的模块Swin_res中,加深网络结构,提高网络的泛化能力。同时,由于stage3位于较低层,提取到的信息大多是细节信息,stage4提取到的则是抽象语义信息。采用多尺度特征融合的方式可以提取到大小不一的目标的特征,从而改善漏检误检的问题[17]。图9为深浅层特征信息融合示意图。

由图9可以看出,相比于原来的stage4输出的高层语义特征图,经过特征拼接后的特征信息融合图,其信息更加丰富,目标纹理及轮廓等细节信息展示得更加充分。

图9 深浅层特征信息融合示意图
Fig.9 Deep and shallow layer information fusion feature diagram

3.3 改进后的ST-Faster R-CNN

由3.1节和3.2节可知,改进后的ST-Faster R-CNN网络结构如图10所示。

图10 改进后的ST-Faster R-CNN网络结构框图
Fig.10 Improved ST-Faster R-CNN network structure diagram

网络进行目标检测的整体实现流程为:

1) 准备数据,制作数据集并划分训练集、测试集;

2) 加载网络初始化参数;

3) 加载网络模型,进行特征提取与定位,并利用Adam优化器对各项参数进行优化;

4) 在每一轮训练结束后计算当前模型的损失函数值,并及时存储训练好的模型,选择效能更好的模型,调参后继续训练,直至训练的最后一轮;

5) 训练结束后得到本次训练的所有模型,选择最佳模型作为最后输出。

4 实验设置

4.1 实验环境

本文利用的深度学习框架为Pytorch,实验环境为Ubuntu18.04、CUDA11.1,所有网络模型的训练与测试均在CPU为Intel(R) Xeon(R) Silver 4210R CPU@2.40GHz、GPU为Geforce RTX 3090Ti的工作站上进行。

4.2 网络训练

本文数据集主要来自公开的海上演习或训练任务的图片,由于海上弹着点水柱信号搜集比较困难,利用迁移学习[17]中实例迁移的思想,将与弹着点处水柱信号具有相似特征的喷泉作为正样本辅助训练,共得到744幅图片,再通过旋转、变换饱和度等方式,最终扩充为2 200幅新的样本数据集,将其转化为VOC格式进行训练,其中训练集与测试集的比例为8∶2。

训练过程中,实验学习率采用StepLR机制对学习率进行更新,优化器optimizer采用Adam,其余训练参数如表1所示。

表1 训练参数
Table 1 Training super parameter setting

Input imageInitial learning rateweight_decay416*4161e-55e-4Step_sizegammaBatch_sizeepochs20.95225 000

在训练过程中记录模型的损失函数曲线如图11。由图11可以看出:该模型在2 000次迭代训练之后损失值渐趋平稳,经过5 000次迭代后训练后损失值大概稳定在1.1左右,参数收敛性较好,且由于改进后的网络结构增加了多尺度特征图,从而引入了额外的参数,为了避免继续训练会产生模型过拟合的问题,因此在训练至5 000轮时停止训练,得到最终模型。

图11 ST-Faster RCNN损失函数曲线
Fig.11 ST-Faster R-CNN loss function curve

4.3 算法改进前后模型评估对比

在对模型进行评估前,需要选择合适的评估指标。在本文中,实验结果从准确率(precision)、召回率(recall)、平均准确率(mean average precision,mAP)、每秒处理帧数(frame per second,FPS)等4个方面进行综合衡量,各项指标的具体计算方法如下:

召回率R表示预测目标中预测正确占总预测样本的比例,准确率P表示某一类别预测目标中预测正确占总正确样本的比例,其定义公式分别为:

(7)

(8)

对于二元分类问题,其标记类与预测类的判断结果有TPFPTNFN等4种,如表2所示。

表2 标记类与预测类判断结果
Table 2 Confusion Matrix

Predicted as PositivePredicted as NegativeLabeled as PositiveTP(True Positive)FN(False Negative)Labeled as NegativeFP(False Positive)TN(True Negative)

平均准确率的均值mAP通常用来评估一个检测算法的检测准确度,数值越大检测效果越好。由于准确率与召回率是一对相互矛盾的指标,因此通常采用召回率与准确率所围成的R-P曲线面积作为最优解,用平均准确率AP衡量。APmAP计算公式为:

AP=P(R)dR

(9)

(10)

式(10)中,N为检测的类别数。本次实验中,由于目标类别只有一类,因此mAP值等于AP值。由实验得知,改进前的mAP值为91.68%,改进后的mAP值提升了4.5%,达到了96.18%,其R-P曲线如图12所示,模型算法的各项性能如表3所示。

图12 改进前后R-P曲线
Fig.12 Loss function curve before and after improvement

表3 模型算法性能
Table 3 Performance comparison of the algorithm

AlgorithmPrecision/%Recall/%mAP/%FPS/(帧·s-1)Faster R-CNN92.0092.0091.689.65ST-Faster R-CNN98.4997.2996.1818.57

由表3可以看出,改进后的ST-Faster R-CNN模型在准确率、召回率、平均准确率和FPS值方面均有不同程度的提高,在提高检测精度的同时,改善了漏检和误检的问题。且FPS值提高了8.92帧/s,达到了18.57帧/s,大大改善了two-stage算法检测速度慢的问题,说明改进后的模型整体效能有较大提高,运用在海上弹着点水柱目标检测任务中效果更好。

图13(a)、图13(b)分别为原Faster R-CNN模型和改进后的ST-Faster R-CNN模型对部分样本的检测效果。由于在改进后的ST-Faster R-CNN模型中增加了多尺度特征融合机制,因此在进行目标检测任务时,原算法中的锚框尺寸不能完全适用于多尺度特征图,但依旧可以根据准确识别出目标中心点并画出预测框,对目标的定位效果几乎没有影响。对于原前3幅图片中的水柱信号其在角度、大小、形状方面有较大差异,由此可以看出,改进后的ST-Faster R-CNN模型对检测目标的置信度得分均有不同程度的提高,达到了接近满分的水平;第4幅图片是图片中出现多目标时的情况,虽然锚框尺寸出现了较大程度的偏差,但预测框得分依旧有明显提高,且定位效果比较准确,说明改进后的模型检测效果更好。

图13 改进前后部分样本检测结果图
Fig.13 Comparison of test results of some samples before and after improvement

4.4 消融实验与不同算法检测能力对比

为了进一步验证本文提出改进措施的有效性及网络的高效性,设计了消融实验,并将其与其他经典网络进行对比,选取平均准确率mAP和每秒处理帧数FPS作为检测算法的评价指标,得到消融实验结果如表4所示,不同算法实验结果如表5所示。

表4 消融实验
Table 4 Comparison of ablation experiments

AlgorithmsmAP/%FPS/(帧·s-1)Faster R-CNN91.689.65Faster R-CNN+Swin Transformer94.4419.42ST-Faster R-CNN96.1818.57

表5 不同算法实验结果
Table 5 Experiment comparison of different algorithms

AlgorithmsmAP/%FPS/(帧·s-1)YOLOv382.6419.81YOLOv489.7422.14YOLOv5s90.2125.64Faster R-CNN91.689.65ST-Faster R-CNN96.1818.57

考虑到特征大小匹配问题,在表4中,Faster R-CNN+Swin Transformer表示将stage3输出的特征图直接应用到Faster R-CNN中得到的网络结构。由于本文提出的多尺度特征融合建立在Swin Transformer骨干网络上,因此没有作为单独的一项消融实验。通过实验结果可以看出,引入Swin Transformer骨干网络后,mAP值提高了2.76%,达到了94.44%,FPS值更是增长到了19.42帧/s,有力证明了新的骨干网络在目标检测领域的突出优势。在进一步引入多尺度特征融合措施后,由于对图像的深浅层特征信息进一步提取和融合,检测准确率得到进一步提高,到达了96.18%,但伴随网络结构的加深,其计算量也随之增加,因此检测速度略有下降。

由表5可知,one-stage算法中随着YOLO系列算法不断改进,其检测结果的平均准确率和检测速度不断提高,two-stage算法Faster R-CNN的检测精度较高,但检测速度最慢,无法满足实时性要求。本文提出的ST-Faster R-CNN算法平均准确度比YOLO V5s高出5.97%,同时极大地提升了检测速度,虽然不如YOLO V5s,但FPS值已经达到18.57帧/s,极大地弱化了检测速度慢的劣势,基本达到水柱目标检测的速度要求。通过实验证明,改进后的ST-Faster R-CNN在满足目标检测速度要求的前提下,准确率优势明显,算法综合性能更好,可以更好地完成海上弹着点水柱信号目标检测任务要求。

5 结论

1) 利用Swin Transformer作为新的骨干网络,通过对图像分块并逐层合并的方式实现层次化,利用移动窗口将自注意力限制在一定范围内,大幅度削减了计算量的同时,实现了非局域窗口间的交互,满足了目标检测任务中对骨干网络的要求,同时拥有更高效的特征提取能力;

2) 运用多尺度特征融合的方式,将深浅层特征信息进行融合,加深网络结构,增强了水柱特征在网络层之间的传播和利用效率;

3) 改进后的Faster R-CNN算法模型平均准确率达到96.18%,速度达到18.57帧/s,不仅进一步提高了two-stage算法的检测准确率,而且大幅提高了目标检测速度,可以更好地完成海上弹着点水柱目标检测任务。

参考文献:

[1] 丛眸,张平,王宁.基于改进 YOLOv3 的装甲车辆检测方法[J].兵器装备工程学报,2021,42(04):258-262.

Cong M,Zhang P,Wang N.Improved YOLOv3 method for armored vehicles object detection[J].Journal of Ordnance Equipment Engineering,2021,42(04):258-262.

[2] 李旭东,叶茂,李涛.基于卷积神经网络的目标检测研究综述[J].计算机应用研究,2017,34(10):2881-2886.

Li X D,Ye M,Li T.Review of object detection based on convolutional neural networks[J].Application Research of Computers,2017,34(10):2881-2886.

[3] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc.of the IEEE Conference on Computer Vision and Pattern Recognition,June.23-28,2014,Columbus,America.Piscataway,NJ:IEEE Press,2014:580-587.

[4] Girshick R.Fast R-CNN[C]//Proc.of the IEEE Conference on Computer Vision and Pattern Recognition,June.7-12,2015,Boston,America.Piscataway,NJ:IEEE Press,2015:1440-1448.

[5] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis is and Machine Intelligence,2017,39(06):1137-1149.

[6] Dai J F,Li Y,He K M,et al.R-FCN:object detection via region-based fully convolutional networks[EB/OL].(2016-06-21)[2021-08-12].https://arxiv.org/abs/1605.06409.

[7] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//Proc.of the IEEE Conference on Computer Vision and Pattern Recognition,June.7-12,2016,Las Vegas,America.Piscataway,NJ:IEEE Press,2016:779-788.

[8] Redmon J,Farhadi A.YOLO 9000:better,faster,stronger[C]//Proc.of the IEEE Conference on Computer Vision and Pattern Recognition,July.22-25,2017,Hawaii,America.Piscataway,NJ:IEEE Press,2017:6517-6525.

[9] Redmon J,Farhadi A.YOLO V3:an incremental improvement[EB/OL].(2018-04-08)[2021-08-13].https://arxiv.org/abs/1804.02767.

[10]Bochkovskiy A,Wang C Y,Liao H M.YOLOv4:Optimal Speed and Accuracy of Object Detection[EB/OL].(2020-04-23)[2021-08-13].https://arxiv.org/abs/2004.10934.

[11]Liu W,Anguelov D,Erhan D,et al.SSD:single shot multibox detector[C]//Proc.of the European Conference on Computer Vision,Oct.8-16,2016,Amsterdam Holland.Berlin:Springer,2016:21-37.

[12]Fu C Y,Liu W,Rang A,et al.DSSD:Deconvolutional single shot detector[J].Computer Science,2017,1(01):10-21.

[13]朱锋彬.基于深度学习的视频车辆检测算法的研究与实现[D].杭州:杭州电子科技大学,2018.

Zhu F B.Research and implementation of vehicle detection algorithm based on deep learning[D].Hanzhou:Hanzhou Electronic Science and Technology University,2018.

[14]范加利,田少兵,黄葵,等.基于Faster R-CNN的航母舰面多尺度目标检测算法[J/OL].系统工程与电子技术:1-10[2021-09-01].http://kns.cnki.net/kcms/detail/ 11.2422.TN.20210811.1418.002.html.

Fan J L,Tian S B,Huang K,et al.Multi-scale object detection algorithm for aircraft carrier surface based on Faster R-CNN[J/OL].Systems Engineering and Electronics:1-10[2021-09-01].http://kns.cnki.net/kcms/detail/ 11.2422.TN.20210811.1418.002.html.

[15]Lee J,Yoon W,Kim S,et al.Biobert:A pre-trained biomedical language representation model for biomedical text mining[J].Bioinformatics,2020,36(04):1234-1240.

[16]Liu Z,Lin Y T,Cao Y,et al.Swin Transformer:Hierarchical vision transformer using shifted windows[EB/OL].(2021-03-25)[2021-08-20].https://arxiv.org/abs/2103.14030.

[17]薛远亮,金国栋,谭力宁,等.基于多尺度融合的自适应无人机目标跟踪算法[J].航空学报,2022,43:326107.

Xue Y L,Jin G D,Tan L N,et,al.Adaptive UAV target tracking algorithm based on multi-scale fusion[J].Acta Aeronautica et Astronautica Sinica,2022,43:326107.

[18]张雪松,庄严,闫飞,等.基于迁移学习的类别级物体识别与检测研究与进展[J].自动化学报,2019,45(07):1224-1243.

Zhang X S,Zhuang Y,Yan F.Status and Development of Transfer Learning Based Category-Level Object Recognition and Detection[J].Acta Automatica Sinica,2019,45(07):1224-1243.

Marine impact water column signal detection algorithm based on improved Faster R-CNN

WANG Yongsheng, JI Siyu, DU Binbin

(Naval Aviation University, Yantai 264001, China)

Abstract: It is significant to obtain water column signal detection request for evaluating shooting effect quickly and accurately.Considering the characteristics of multi-size and multi-shape of Marine water column signal, Faster R-CNN algorithm was improved and ST-Faster R-CNN algorithm was proposed.Swin Transformer was used as the backbone to improve feature extraction ability, and at the same time, the method of multi-scale feature fusion was combined to improve the problem of missed detection and error detection.Experimental results on the target data set show that the average accuracy of ST-Faster R-CNN algorithm is increased by 4.5% to 96.18%, and the speed is up to 18.57 frames per second.Compared with other algorithms, the accuracy of the improved ST-FASTER R-CNN algorithm is obviously better than other algorithms, and it can better meet the detection requirements of water column signals at impact points at sea.

Key words: target detection; Faster R-CNN; Swin Transformer; multi-scale feature fusion

本文引用格式:王永生,姬嗣愚,杜彬彬.基于改进Faster R-CNN的海上弹着点水柱目标检测算法[J].兵器装备工程学报,2022,43(06):182-189.

Citation format:WANG Yongsheng, JI Siyu, DU Binbin.Marine impact water column signal detection algorithm based on improved Faster R-CNN[J].Journal of Ordnance Equipment Engineering,2022,43(06):182-189.

中图分类号:TP391.41E919

文献标识码:A

文章编号:2096-2304(2022)06-0182-08

收稿日期:2021-09-07;

修回日期:2021-10-22

作者简介:王永生(1978—),男,博士,副教授,E-mail:453935668@qq.com。

通信作者:姬嗣愚(1997—),女,硕士研究生,E-mail:1694259706@qq.com。

doi: 10.11809/bqzbgcxb2022.06.029

科学编辑 齐乃新 博士(火箭军工程大学讲师)

责任编辑 何杰玲