近年来,由于轨道革命处理,遥感卫星的光谱和辐射分辨率、重访时间和空间分辨率皆有显著提高,这也为遥感图像识别领域的研究提供了更为充实的数据资源[1]。其中船只作为海上运输的载体和重要的军事目标,对其检测和识别的相关研究,对于海洋安全、海上交通监控、渔业管理和军事防御部署,具有重要的实际意义[2]。
然而,海上舰船在遥感图像中的任意方向、密集排列,以及复杂的背景,船只尺度多样性和比例细长[3]等因素,仍然给遥感舰船[4]识别带来了极大的挑战,这些复杂性因素的存在使得准确识别海上舰船仍然是一项极富挑战性的任务。目前,单阶段的单回归问题思想在目标检测中被广泛使用[5],例如YOLO[6]、SSD[7]、RetinaNet[8]、CenterNet[9]、EfficientDet[10] 等算法。这些算法直接将原始图像作为输入,并生成相应的输出。经过卷积神经网络的处理后,能够准确确定目标的位置和类别,并且具有相对较快的处理速度。YOLO算法具有及时性和准确性的特点,能够提高遥感船只检测的准确率。从YOLOv3[11]开始,引入特征金字塔网络(FPN)和空间池化金字塔网络(SPP),旨在提升对不同尺度和语义信息的检测能力。YOLOv5使用Focus slices[12]和size pooling kernel cascades来改善特征扰动。YOLOv7采用了多分支堆叠模块、创新的过渡模块和重新参数化结构等策略,旨在增强特征提取和语义信息表达能力,从而进一步优化目标检测效果。
在遥感图像中,船只目标通常只占据很小的像素空间,其大小通常不超过几十个像素,这使得准确检测船只目标变得困难。为了解决这个问题,任等提出一种Faster R-CNN方法,用来检测不同尺度和体积较小的船只目标[13]。此外,张等提出一种基于特征金字塔网络的多尺度检测方法,通过提取多层网络特征并进行融合,来增强对密集目标的检测能力[14]。虽然上述几种目标检测算法在船只检测方面进行了很大创新,并且实现了不同程度的性能改进,但它们的泛化能力仍相对较弱,不能很好地适应船只密集排列的场景[15]和尺度的多样性。因此,在复杂背景的遥感图像中,对船只小目标检测方法进行改进仍有重大意义。
为了提高在复杂背景下准确识别遥感图像中船只小目标的能力,本文基于当下流行的YOLOv7模型,提出一种改进的YOLOv7-OBB的舰船识别算法。首先,针对舰船长宽比例较大和方向任意的特点,引入定向检测框OBB和KLD损失,提高定位精度并保留船舶目标方向信息;然后在主干网络引进混合注意力模块ACmix[16],加强网络对于小型舰船检测的敏感度,提升检测精度;最后,在颈部加入全局注意力机制(NAMAttention)[17]和PConv,在通道维度和空间维度上捕获和融合特征,实现多维信息的交互,提高PAN网络在复杂背景中捕捉关键特征的能力,保证模型轻量化的同时提高检测结果精度。
无论是军用船只还是民用船只,都具有比例细长且方向任意的特点,直接使用普通的水平检测框会框选大量无关背景,使船只的目标定位精度下降,并且在密集排布的近岸舰船图像下,大量重叠的水平检测框由于过高的IoU,会在后处理阶段被抑制去除,造成船舶目标的漏检现象。
水平检测算法在检测时只需预测出水平检测框(horizontal bounding boxes,HBB)的中心坐标和宽高,即(x,y,w,h)这4个参数,而现有旋转检测框(oriented bounding boxes,OBB)[18]的常见建模表示法在此基础上额外增加了一个参数—角度θ,即通过(x,y,w,h,θ)来表示,如图1所示。它的边与目标的方向一致,能够更准确地包围目标对象,并具有更强的表达能力,因此能够更好地适应目标的形状和方向变化。在目标检测任务中,使用OBB不仅可以更准确地定位船只目标,还可以获取船只的方向信息,故使用旋转检测框代替水平检测框来检测光学遥感图像中的船舶目标是十分必要的。
图1 定向检测框
Fig.1 Orientation detection box
现有的旋转框表示方法大多数为归纳法,需要对(x,y,w,h,θ)5个参数独立优化,这会导致损失函数(或检测精度)对任何参数的欠拟合非常敏感,需要根据不同的数据集特点进行权重的调整,比如大长宽比目标可能需要着重关注角度参数,小目标则需要关注中心点参数,因为这些参数的轻微偏移都会造成这些目标预测精准度(IoU)的急剧下降。
为此本文使用了一种的思路,将旋转回归损失的设计从归纳法转变为演绎法,通过对横向案例的概括来改进。采用演绎范式来构建更准确的旋转回归损失。具体做法是将任意方向的边界框B(x,y,w,h,θ)转换为二维高斯[19]N(μ,∑),如图2所示。
图2 二维高斯建模表示
Fig.2 Two-dimensional Gaussian modeling representation
这种转换过程可以形式化为
μ=(x,y)T
(1)
(2)
其中:R表示旋转矩阵;Λ表示特征值的对角矩阵。
然后,使用KLD计算2个高斯分布之间的距离作为最终的损失。其具体表现形式为
(3)
其中,NP、Nt分别表示预测框与真实框的分布。
可以看到等式右边的每个项都是由部分参数耦合组成的,这导致所有参数形成了链式耦合关系,它们相互影响,共同进行优化,从而实现了模型的自调制优化机制。
以YOLOv7为基础,从三方面对其进行修改:一是在主干网络中加入混合注意力模块ACmix;二是在neck网络中引入全局注意力机制(NAMAttention),将其嵌入在MP中,形成一种全局特征捕捉的采样模块(MP-NAM);三是将PConv与ELAN结合生成PC-ELAN模块,替换原有的ELAN模块。
在网络对遥感舰船图像中的小型舰船检测时,往往会因为其特征的表现能力不足,并且分布的空间位置不定,造成漏检现象。为此本文引入一种新的注意力机制ACmix,如图3所示。该模块兼具自注意力与卷积[20]的优点,首先将输入的特征图通过投影、分割后在深度维度上进行连接,得到一组丰富的中间特征集。
图3 ACmix结构
Fig.3 ACmix structure diagram
对于采用卷积的路径,中间特征集先通过通道层的全连接对通道进行扩张,之后对其位移,再聚合成对应的维度。该路径能够很好地提取遥感图像中局部的特征信息,并将不同层级的特征进行融合,最终得到H*W*C的特征输出。
对于采用自注意力的路径,将中间特征聚合为N个组,每一组包含3个特征图并且每个组都是由不同的1*1的卷积产生的特征,之后将这3个特征图作为查询、键、值输入到多头自注意力模块中。该路径不仅从图像的全局考虑,而且充分关注目标存在的区域,最终得到 H*W*C 的特征输出。
最后,通过concat操作得到最终输出结果,强度由2个可学习的标量控制:
Fout=αFatt+βFconv
(4)
ACmix不仅能够增强网络对遥感图像中目标的敏感度而且还能降低由背景带来的噪声影响。
因此,原网络通过添加该注意力模块能够更好地关注重要的区域,同时也能关注到其他一些非重要的局部区域,本研究中通过将该注意力模块嵌入到主干 Backbone 中的CBS 模块以及主干 Backbone 的末尾,让网络提升对重要区域与非重要区域的目标特征的提取能力,以此来提升对小型船只的识别效果。
本研究中采用FasterNet[21]中的PConv对其neck网络进行轻量化改进,如图4所示,在确保更有效地提取空间特征的前提下,使用部分卷积,减小了网络的规模。该方法在应用滤波器进行空间特征提取时,仅作用于部分输入通道,而其他通道保持不变。并且在进行计算时,使用连续或规则的内存访问方式,将第1个或最后1个连续的通道视为整个特征图的代表。
图4 卷积与PConv结构
Fig.4 Convolution and PConv structure diagram
PConv 相较于传统卷积,不仅具备较低的FLOPs和更高的FLOPS,而且更为充分地利用了设备的计算能力,对于空间特征提取表现出显著的效能。
在neck融合不同层的特征的过程中,难免会造成一些关键特征丢失,以至于在复杂背景下对舰船小目标定位不准确。本文在neck网络中引入了基于归一化的注意力机制(normalization-based attention mechanism,NAM),如图5所示,通过减少信息的扩散,同时增强全局特征之间的相互作用,使网络更加敏感于重要特征在通道和空间维度上的变化,提高PAN网络在复杂背景中捕捉关键特征的能力。
图5 全局注意力机制
Fig.5 Global attention mechanism
为提升网络对小型船只的检测精度,按照上述方法构造一个改进的YOLOv7模型,其网络结构如图6所示,在backbone中的第1个和第3个CBS以及末尾加入ACmix,在neck中ELAN和MP分别替换为PC-ELAN和MP-NAM。
图6 改进后的YOLOv7网络结构
Fig.6 Improved YOLOv7 network structure diagram
本实验使用的是DOTAships数据集,该数据集是从DOTA数据集[22]中精选出来的遥感舰船图像。使用DOTA_devkit将图片裁剪为1 024×1 024像素,并制作DOTA和YOLO格式的标签,为后续的实验和算法评估提供了有价值的数据集。
本实验采用的是Windows11操作系统,CPU为Intel(R) Core(TM) i7,显卡为NVIDIA GeForce RTX 3060,显存为8 G。使用的是PyTorch深度学习框架,开发环境为Python 3.9,torch1.13.1和cuda11.7。将数据集按6∶2∶2的比例随机化分为训练集、测试机和验证集,实验参数如表1所示。
表1 实验参数
Table 1 Experimental parameters
参数数值输入图像批处理大小4初始学习率0.01终止学习率0.10输入图像尺寸1 024×1 024IoU阈值0.20训练轮数300
本实验采用召回率(Recall)、精确率(Precision)、平均精确率(mAP)和帧率(FPS)作为评价的相关指标:
(5)
(6)
(7)
其中:TP(true positive)表示预测正确的正样本数量;FN(false negative)表示预测错误的正样本数量;FP(false positive)表示预测错误的负样本数量;TN(true negative)表示预测正确的负样本数量。使用帧率(FPS)来表示算法的处理速度。
3.3.1 对比实验
为了验证本算法针对遥感舰船检测性能,研究进行了一系列实验将本算法与其他热门算法进行了对比。
在相同的实验环境下和实验参数下,训练了改进YOLOv7-OBB模型、YOLOv7、SSD、Faster-RNN、YOLOv3、YOLOv5等模型,并对它们的性能进行了比较。实验结果的各项评价指标如表2所示。
表2 对比实验结果
Table 2 Compares the experimental results
AlgorithmPrecision/%Recall/%mAP@0.5/%FPSSSD77.378.279.5—Faster-Rcnn79.979.180.7—YOLOv391.779.482.715.63YOLOv592.080.883.328.01YOLOv792.180.883.529.76OURS93.084.788.537.59
根据实验结果显示,YOLOv7-OBB模型在遥感舰船目标检测方面的表现优于SSD、Faster-Rcnn、YOLOv3、YOLOv5、YOLOv7等算法。该模型平均精确率达到了88.5%,相较于改进前的YOLOv7模型提升了5.0%,运算速度明显提升。
本文基于DOTAships遥感数据集进行训练,训练300轮后,根据该模型与YOLOv7的AP实验结果对比,如图7所示,可以看到该模型性能明显优于YOLOv7;从验证结果图中可以看出,无论船只密集排列还是体积较小,该模型输出的目标位置都十分精确,误检漏检目标明显减少,如图8所示。
图7 AP对比
Fig.7 AP comparison chart
图8 验证结果
Fig.8 Verification result
3.3.2 消融实验
为了验证本研究中提出的每个改进点的有效性,以未改进的YOLOv7网络模型为基准,在Dotaship数据集上进行16组消融实验,实验环境及实验参数设置均保持相同,实验结果如表3所示。其中加粗字体表示各列最优结果,“√”表示使用相应方法。
表3 消融实验结果
Table 3 Ablation experimental results
NumberACmixPConv-ELANMP-NAMOBBP/%R/%AP/%Params/MFLOPs/GNo.192.182.183.59.5232.5No.292.483.484.89.3934.8No.392.282.184.18.2023.6No.492.483.584.69.3131.7No.592.784.287.99.4932.6No.692.583.585.08.8128.1No.792.684.086.19.2236.7No.892.583.784.78.3125.9No.992.784.288.08.2024.3No.1092.784.488.39.4034.5No.1192.884.588.49.3130.9No.1292.584.186.28.6327.3No.1392.784.588.38.8128.4No.1493.084.788.59.2236.8No.1592.884.388.18.5225.9No.1693.084.788.58.6328.3
1) No.1为改进前的YOLOv7算法实验结果,作为后15组实验的对比基准,检测AP值为83.5%,准确率P为92.1%,召回率R为82.1%,参数量为9.52 M,FLOPs为32.5 G。
2) No.2将主干网络中的CBS替换为CABS,检测AP值为84.8%,准确率P为92.4%,召回率R为83.4%,参数量为9.39 M,FLOPs为34.8 G,AP增长1.3%。
3) No.3将neck网络中的ELAN替换为PConv-ELAN,检测AP值为84.1%,准确率P为92.2%,召回率R为82.1%,参数量为8.20 M,FLOPs为23.6 G,参数量明显减少,计算速率加快。
4) No.4将neck网络中的MP替换为MP-NAM,检测AP值为84.6%,准确率P为92.4%,召回率R为83.5%,参数量为9.31 M,FLOPs为31.7G,AP增长1.1%。
5) No.5为把原YOLOv7模型的检测框改为旋转检测框,加入旋转框后,模型能力得到明显提升,检测AP值为87.9%,准确率P为92.7%,召回率R为84.2%,参数量为9.49 M,FLOPs为32.6 G,AP增长4.4%。
6)No.16为轻量化YOLOv7-OBB-Attention整体模型,对比上述实验,模型效果有着很大提升,检测AP值为88.5%,准确率P为93.0%,召回率R为84.7%,参数量为8.63 M,FLOPs为28.3 G,AP增长5.0%。
针对遥感舰船小目标检测中目前存在的一些挑战,提出了一种改进YOLOv7-OBB算法。通过引入全局注意力机制和改进的特征提取层,该算法在精确度和召回率方面显著优于传统的检测算法和其他流行的单阶段检测算法。
实验结果表明,该算法在遥感舰船小目标检测任务中取得了令人满意的性能。通过提高精确率、召回率和平均精确率,能够更准确地定位和识别遥感舰船目标。这对于海上监控、航行安全和海洋资源管理等领域具有重要意义且具有一定的推广价值。但模型目前只完成了针对舰船Level1标签的识别任务,未来会进一步研究Level3标签与Level4标签的船舶类别和型号细分等识别任务。
[1]DING P,ZHANG Y,DENG W J,et al.A light and faster regional convolutional neural network for object detection in optical remote sensing images[J].ISPRS Journal of Photogrammetry and Remote Sensing,2018,141:208-218.
[2]李晨瑄,胥辉旗,钱坤,等.基于深度学习的舰船目标检测技术综述[J].兵器装备工程学报,2021,42(12):57-63.LI Chenxuan,XU Huiqi,QIAN Kun,et al.Review of ship target detection technology based on deep learning[J].Journal of Ordnance Equipment Engineering,2021,42(12):57-63.
[3]徐芳,刘晶红,孙辉,等.光学遥感图像海面船舶目标检测技术进展[J].光学精密工程,2021,29(4):916-931.XU Fang,LIU Jinghong,SUN Hui,et al.Progress in target detection technology for ships on sea surface with optical remote sensing images[J].Optics and Precision Engineering,2021,29(4):916-931.
[4]郭智超,丛林虎,刘爱东,等.基于SK-YOLOV3的遥感图像目标检测方法[J].兵器装备工程学报,2021,42(7):165-171.GUO Zhichao,CONG Linhu,LIU Aidong,et al.Target detection method for remote sensing image based on SK-YOLOV3[J].Journal of Ordnance Equipment Engineering,2021,42(7):165-171.
[5]LIN T Y,DOLLR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:2117-2125.
[6]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:779-788.
[7]LIU W,ANGUELOV D,ERHAN D,et al.SSD:Single shot multibox detector[C]//Computer Vision-ECCV 2016:14th European Conference,Amsterdam,The Netherlands,October 11-14,2016,Proceedings,Part I 14.Springer International Publishing,2016:21-37.
[8]LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision.2017:2980-2988.
[9]DUAN K,BAI S,XIE L,et al.Centernet:Keypoint triplets for object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision.2019:6569-6578.
[10]TAN M,PANG R,LE Q V.Efficientdet:Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:10781-10790.
[11]REDMON J,FARHADI A.Farhadi A,Redmon J.YOLOv3:An incremental improvement[C]//Computer Vision and Pattern Recognition.Berlin/Heidelberg,Germany:Springer,2018,1804:1-6.
[12]PIAO Y,ZHANG Y,ZHANG M,et al.Dynamic fusion network for light field depth estimation[C]//Chinese Conference on Pattern Recognition and Computer Vision (PRCV).Cham:Springer International Publishing,2021:3-15.
[13]REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[14]DONG Z,WANG M,WANG Y,et al.Object detection in high resolution remote sensing imagery based on convolutional neural networks with suitable object scale features[J].IEEE Transactions on Geoscience and Remote Sensing,2020,58(3):2104-2114.
[15]ZHENG A,ZHANG Y,ZHANG X,et al.Progressive end-to-end object detection in crowded scenes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:857-866.
[16]PAN X,GE C,LU R,et al.On the integration of self-attention and convolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:815-825.
[17]LIU Y,SHAO Z,TENG Y,et al.NAM:Normalization-based attention module[J].ArXiv,2021,abs/2111.12419.
[18]CHEN Z,CHEN K,LIN W,et al.Piou loss:Towards accurate oriented object detection in complex environments[C]//Computer Vision-ECCV 2020:16th European Conference,Glasgow,UK,August 23-28,2020,Proceedings,Part V 16.Springer International Publishing,2020:195-211.
[19]HUANG Z,LI W,XIA X G,et al.A general gaussian heatmap label assignment for arbitrary-oriented object detection[J].IEEE Transactions on Image Processing,2021,31:1895-1910.
[20]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.2017:6000-6010.
[21]CHEN J,KAO S H,HE H,et al.Run,don’t walk:chasing higher FLOPS for faster neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:12021-12031.
[22]XIA G S,BAI X,DING J,et al.DOTA:A large-scale dataset for object detection in aerial images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:3974-3983.