无人自主系统及智能决策专栏

基于Transformer的无人机多目标跟踪算法研究

苑玉彬,吴一全

(南京航空航天大学 电子信息工程学院, 南京 210016)

摘要:针对无人机多目标跟踪面临目标遮挡、尺度变化、快速运动、复杂环境等问题,提出了一种基于Transformer的无人机多目标跟踪算法,采用Focal Transformer来捕获高分辨率输入的Transformer层中的局部和全局交互。该算法能够生成目标的检测信息以及目标的外观特征,从而提高了跟踪性能。在轨迹预测方面,采用了卡尔曼滤波方法,以准确地预测目标的运动轨迹,有助于提高跟踪的准确性和鲁棒性。在数据关联过程中,同时考虑了检测置信度、外观嵌入距离和IOU距离3个因素,以更有效地处理数据关联过程,提高了多目标跟踪模型的鲁棒性,使其能够在复杂场景中更好地跟踪目标。此外,还使用了轨迹的二次匹配方法,进一步提高了算法的性能。在VisDrone和UAVDT 数据集上进行了对比验证,证明了该算法在实际应用中的有效性和可行性。本研究为无人机多目标跟踪提供了一种新的解决方案,具有广泛的应用前景。

关键词:多目标跟踪;Transformer;卡尔曼滤波;检测置信度;多特征匹配

0 引言

近年来,随着无人机技术的迅速发展,无人机航拍视频已成为获取高分辨率、广覆盖区域的有效方式,在众多应用领域,如监视、救援、农业和城市规划中具有巨大潜力[1]。在此背景下,多目标跟踪(multiple object tracking,MOT)在无人机航拍视频处理中变得尤为重要,其允许系统跟踪和监视多个目标,进而推动目标追踪、行为分析和环境监测等应用的发展。然而,无人机航拍视频的多目标跟踪技术也面临着诸多挑战,如目标遮挡、不同尺度下的目标变化、目标的快速运动、复杂的环境条件以及数据噪声等问题。传统的多目标跟踪方法在处理这些问题时存在局限性,因此亟需引入更先进的技术来提高跟踪性能[2]

Transformer模型已在自然语言处理和计算机视觉领域均取得了巨大的成功。Transformer模型以其卓越的自注意力机制和并行计算能力而闻名,使其成为处理序列数据的理想选择。鉴于其在自然语言处理中的成功,研究者们正积极探索将Transformer模型应用于计算机视觉领域的可能性[3]。自Vision Transformer初次亮相以来,该模型在图像分类、目标检测和语义分割等领域展现出了强大的潜力,并进一步扩展到动作识别、目标跟踪、场景流估计等时间理解任务中[4]

在Transformer框架中,自注意力机制是其区别于广泛使用的卷积神经网络的关键所在。在每个Transformer层,自注意力支持图像不同区域之间的全局内容交互,以建模短距离和长距离依赖关系,使得Transformer 能够同时关注局部环境和全局环境。然而,当处理密集预测(如目标检测或分割)的高分辨率图像时,由于特征图中网格数量的二次方计算成本,全局和细粒度的自注意力计算变得不再高效。为解决这一难题,当前的研究主要分为2个方向:一是利用粗粒度的全局自注意力机制,二是利用细粒度的局部自注意力机制,以减轻计算负担。然而,这2种方法均在一定程度上削弱了Transformer最初自注意力机制的能力,即同时建模短距离和长距离视觉依赖关系的能力[5]。因此,如何在保持高效计算的同时保留Transformer的自注意力优势,仍是当前研究的重要课题。

本研究提出了一种基于Transformer的多目标跟踪方法Focal Trans-JDT,旨在应对无人机航拍视频中的各种挑战。Focal Trans-JDT采用一种新的自注意力机制Focal Transformer,该机制能够精确捕获高分辨率输入在 Transformer 层中的局部与全局交互。鉴于近距离区域间的视觉依赖性通常更为显著,Focal Trans-JDT只在局部区域执行细粒度的自注意力,而在全局区域执行粗粒度的自注意力策略。与完全自注意力机制相比,Focal Trans-JDT不仅实现了对整个高分辨率特征图的高效覆盖,而且显著减少了自注意力计算中涉及的token数量。因此,它能够同时有效地捕获短距离和长距离的视觉依赖关系。通过一系列实验和定量分析验证了方法的有效性,并将其与优秀的同类方法进行比较,为无人机应用中的多目标跟踪领域提供新的见解和方法。

1 相关工作

1.1 多目标跟踪

多目标跟踪技术是计算机视觉领域的一个重要分支,旨在实现视频中对多个目标的连续跟踪。该技术在视频监控、自动驾驶、智能交通等应用领域发挥着至关重要的作用。早期的研究聚焦于通过优化算法来推导目标轨迹[6]。为了提高多目标跟踪算法的实用性,Bochinski等[7]提出了简洁高效的IOUTracker,该方法仅依赖于边界框的交并比来实现目标跟踪,简化了计算过程。为了进一步提升算法的实用性和准确性,研究者们引入了运动模型和卡尔曼滤波器[8],以预测目标在下一帧中的位置从而提高了跟踪的速度和性能,但在面对遮挡和目标丢失等复杂场景时,这些模型表现不佳。为了应对这些挑战,研究人员开始引入重新识别(ReID)特征作为外观模型,以提高轨迹与检测结果之间的关联准确性[9]。其中,MOANA作为一种自适应外观模型,能够在线学习对象外观的长期变化,有效提升了跟踪效果[10]。然而,将ReID模型引入整体跟踪系统计算中,将个别目标的图像补丁作为输入,导致计算负担较重。此外,依赖于目标切块的ReID特征提取方法不够稳定,易导致次优的跟踪结果。

1.2 基于目标特征的多目标跟踪方法

随着目标检测器的快速发展,目标特征建模广泛应用于无人机视角下多目标跟踪,它通过捕获目标的颜色、纹理、光流等独特特征来实现多目标跟踪。这些提取出的特征必须具有独特性,以确保它们在特征空间中可以有效区分不同的目标。根据提取的特征,利用相似性准则在下一帧中找到与之最相似的目标,从而实现多目标跟踪。在现有技术中,Al-Shakarji等[11]提出了SCTrack的目标跟踪系统采用三阶段的数据关联方法,结合目标外观模型、空间距离以及显式遮挡处理单元,不仅依赖于被跟踪目标的运动模式,还考虑了环境约束,在处理遮挡目标时表现出良好的性能。Wang等[12]提出了OSIM网络,通过VeRi数据集训练的宽残差网络提取目标的外观特征,同时结合检测到的目标边界框的马氏距离作为运动度量,以及边界框内像素间最小余弦距离作为外观相似性度量,利用加权融合和级联匹配进行数据关联,实现了多目标的稳健跟踪。为了解决外观和运动之间融合比例需要主观设置的问题,Yu等[13]提出了一种自适应方法,结合Social LSTM网络预测目标的运动,并根据当前帧中目标与周围目标的外观相似性,实现当前帧目标与前一帧目标之间的精确关联。此外,Makarov等[14]将Kuhn-Munkres算法用于计算目标边界框之间的欧氏距离,建立帧间目标的对应关系,并通过比较目标的颜色直方图的Bhattacharya距离来处理目标在视野中消失和出现的情况。基于检测的多目标跟踪方法在处理高精度目标跟踪问题上表现出色,但在计算成本、误检测和目标关联方面存在一些挑战。因此,在选择合适的跟踪方法时,需要充分考虑具体应用的需求和资源限制。

1.3 联合检测与跟踪的多目标方法

为了提升整个跟踪系统的运算速度,研究人员积极探索将目标检测和ReID特征提取相结合的方法,以实现计算资源更高效的共享。JDE是首个尝试这一方法的工作,其创新之处在于将ReID分支整合到单阶段检测器YOLOv3中,实现了两者的有机结合[15]。FairMOT则利用无锚点检测器CenterNet来减少锚点歧义,实现了检测和识别任务间的平衡[16]。除了这些联合检测和特征嵌入的方法外,还出现了一些其他单阶段跟踪器。Tracktor利用检测器的回归头,直接实现目标轨迹的帧间关联[17]。而CenterTrack[18]和Chained Tracker[19]则采用多帧预测方法,通过预测连续帧中的目标边界框,促进短期关联的高效性,进而构建了长期的目标轨迹。然而,这些技术在捕捉长期依赖关系方面仍面临挑战,产生大量的身份切换问题。

1.4 基于Transformer的多目标跟踪方法

近年来,基于Transformer的模型在计算机视觉领域取得了巨大的成功,尤其在目标检测领域表现出色,推动了基于Transformer的方法在多目标跟踪(MOT)领域崭露头角。TransTrack[20]、TrackFormer [21]和MOTR[22]等方法备受关注,均构建在DETR [23]及其衍生模型上,成为在线跟踪的代表。TrackFormer采用了跟踪查询的方式来维护目标身份,并有效抑制了冗余跟踪。而TransTrack则利用之前的目标特征作为跟踪查询,准确生成跟踪框,并通过IOU匹配关联检测框。此外,MOTR则实现了端到端的目标跟踪,通过迭代更新跟踪查询,极大简化了后处理步骤。MeMOT[24]是一种类似于MOTR的端到端跟踪方法,基于注意力机制,能够聚焦于目标状态进行预测。尽管这些方法开拓了新的跟踪范式,但相较于当前最先进的跟踪算法,性能仍有待提升。

2 方法

本研究提出的无人机航拍多目标跟踪算法Focal Trans-JDT由Focal Trans-Det模块和轨迹关联模块组成。Focal Trans-DET模块是一个无锚框的目标检测器和特征提取模块,其集成了Focal self-attention,结合了细粒度局部交互和粗粒度全局交互,每个token以细粒度关注其近距离token,以粗粒度关注其远距离token,从而可以有效地捕获短期和长期的可视依赖关系。轨迹关联模块通过同时考虑检测置信度、外观嵌入距离和IOU距离3个因素来处理数据关联过程,提高MOT模型的跟踪鲁棒性。框架如图1所示。

图1 Ftrans-JDT框架

Fig.1 Ftrans JDT framework

2.1 Ftrans-Det目标检测与特征提取模块

为了适应高分辨率视觉任务,模型架构采用多尺度设计,能够在早期阶段获得高分辨率特征图。图像IRH×W×3首先被分成大小为 4×4 的块,得到接着使用1个块嵌入层,其由1个卷积层组成,核大小和步幅都等于4,将这些补丁映射到维度为d的隐藏特征中。将此空间特征图传递给4个阶段的Focal Transformer层。在每个阶段i∈{1,2,3,4},Focal Transformer块由Ni个 Focal Transformer 层组成。在每个阶段之后,使用另1个块嵌入层将特征图的空间大小减少2倍,同时特征维度增加2。最后将所有4个阶段的特征图发送到检测器预测头,同时输出目标的外观特征向量,用作多目标轨迹的匹配。通过改变输入特征维度d和每个阶段的Transformer 层数来定制模型容量{N1,N2,N3,N4}。

标准的自注意力可以捕获细粒度的短距离和长距离交互,但在高分辨率特征图上执行注意力时,会受到高计算成本的影响,导致时间和内存成本爆炸式增长。通过Focal 自注意力模块来解决这个问题,其分为2个步骤:

1) 子窗口池化。假设输入特征图xRM×N×d,其中M×N是空间维度,d是特征维度。对所有L级别执行子窗口池化。对于Focal级别l,首先将输入特征图x分成大小为的子窗口网格,再用一个简单的线性层通过以下方式在空间子窗口池化:

(1)

其中,不同级别 l的池化特征图提供了丰富的细粒度和粗粒度信息。

设置为与输入特征图具有相同粒度的第1个focal级别时,无需执行任何子窗口池化。

2) 注意力计算。获得所有L级别的池化特征图使用3个线性投影层 fq, fkfv计算第1层的query和所有层的key和value:

Q=fq(x1)

(2)

(3)

(4)

为了执行Focal self-attention,需要首先为特征图中的每个query令牌提取周围的令牌。窗口分区sp×sp内的令牌共享同一组环境。对于第i个窗口QiRsp×sp×d内的queries,从所在窗口周围的KlVl中提取的keys和values,然后收集keys和values,得到其中s是来自所有级别的Focal区域的总和,即最后,通过以下方式计算Qi的focal自注意力:

(5)

其中:是可学习的相对位置偏差,由L个LFocal级别的子集组成。对于第1层,将其参数化为B1R(2sp-1)×(2sp-1),其水平和垂直位置范围都在[-sp+1,sp-1]。对于其他focal级别,考虑到它们对 queries具有不同的粒度,平等对待窗口内的所有queries,并使用来表示query窗口与每个池化的 之间的相对位置偏差令牌。由于每个窗口的focal自注意力独立于其他窗口,可以并行计算注意力。

2.2 轨迹匹配模块

轨迹匹配模块考虑检测置信度、外观嵌入距离和IOU距离,将所有轨迹与所有检测关联起来。图2展示了轨迹匹配模块的体系结构。当接收到Ftrans-Det输出的检测结果时,根据预测置信度将检测分为高分检测结果和低分检测结果,使用不同的匹配方法进行数据关联。

图2 轨迹匹配模块

Fig.2 Trajectory matching module

首先,将前一帧轨迹与高分检测盒进行匹配。在此阶段,基于跟踪器与检测盒之间的嵌入距离和IOU距离进行3次关联匹配操作。匹配成功的轨迹将利用匹配的检测帧数据,通过卡尔曼滤波器进行轨迹预测,为下一帧准备关联匹配。其次,在完成对高分检测的第2次匹配后,将未匹配的跟踪器与低分检测盒进行匹配。同样地,成功匹配的轨迹也执行上述更新过程。最后,所有成功匹配的轨迹都被视为当前帧的有效跟踪结果。

对于高分检测结果,一共进行3次IOU距离匹配。第1次IOU距离匹配用于匹配当前的高分检测和预测轨迹,匹配的检测信息用于更新其匹配的轨迹。其余未匹配的高分检测结果和未匹配的预测轨迹使用IOU距离进行匹配,匹配的检测结果用于更新匹配的轨迹。最后,剩余的高分检测会与所有尚未匹配的轨迹进行匹配,而所有无法匹配的高分检测将作为新轨迹加入系统,同时移除所有不匹配且未更新的轨迹。对于低分检测结果,简化匹配过程,只和剩余的未匹配的轨迹之间进行1次IOU距离匹配,若匹配成功,则使用低分检测结果更新轨迹。同时将所有连续不匹配帧数少于30帧的未匹配轨迹从跟踪系统中删除。在实际操作中,连续不匹配帧的数量可以根据输入视频序列的帧率进行调整。

3 实验

3.1 数据集与评价指标

在VisDrone MOT[25]和UAVDT[26]数据集上对所提算法进行了全面评估,VisDrone MOT和UAVDT数据集的示例图像如图3和图4所示。数据集涵盖了多种无人机航拍场景,为全面了解所提算法的实际应用效果提供了有力支撑。在这些数据集上,进行了广泛的评估,与其他出色的多目标跟踪器进行了比较,分析它们在不同场景和条件下的相对表现。

图3 VisDrone数据集示例

Fig.3 Example of VisDrone Dataset

图4 UAVDT数据集示例

Fig.4 Example of UAVDT Dataset

使用多种权威的多目标跟踪(MOT)评估指标来评估所提MOT算法的性能,旨在评估整体性能,并指示每个模型的潜在缺陷。如下所示:

1) FP (↓):整个视频中的误报数量;

2) FN (↓):整个视频中的漏报数量;

3) IDSW (↓):整个视频中的身份切换数量;

4) FM (↓):跟踪过程中中断的真实轨迹数量;

5) IDF1 (↑):正确识别的检测数量与计算出的检测数量和真值之比;

6) MOTA(↑):结合了FPFNIDSW,得分如下定义:

(6)

7) MOTP(↑):真值与预测结果之间的不匹配程度计算如下:

(7)

这些指标有助于全面评估MOT算法在不同方面的性能,提供了对系统效果的深入洞察。

3.2 实验设置

算法使用基于COCO数据集预训练的DLA-34变种作为所提出网络的骨干网络。模型参数通过Adam优化器进行更新,初始学习率为8×10-5,共训练30个epochs。同时对数据集采用了包括旋转、缩放和颜色抖动在内的数据增强技术,以增强模型的泛化能力。GPU为NVIDIA RTX 4090,batch size设置为8。

3.3 对比实验

将Ftrans-JDT与DeepSORT [27]、ByteTrack [28]、BoT-SORT [29]、UAVMOT [30]、Deep OC-SORT [31]、Strong SORT [32]和SimpleTrack[33]进行了比较。由于训练集中各类别物体实体的分布不均匀,检测模型在不同类别上表现不同。因此,所有跟踪比较方法都使用了YOLO-V8检测器生成的相同检测结果,并将汽车阈值设置为0.3,巴士为0.05,卡车为0.1,行人阈值设置为0.4。

表1和表2展示了Ftrans-JDT与其他流行的跟踪器在VisDrone MOT和UAVDT数据集上的比较结果,评估指标包括MOTA、MOTP、IDF1和IDSW。对比结果显示,Ftrans-JDT通过有效利用位置和外观信息表现出色,展示了卓越的性能。相比之下,Deep SORT通过根据位置信息独立关联每个类别来扩展其框架以处理多类别。ByteTrack利用低分检测来进行相似性跟踪和背景噪声过滤。Deep OC-SORT引入了相机运动补偿和自适应加权,而BoT-SORT则包括相机运动补偿。UAVMOT通过ID特征更新模块增强了物体特征关联。StrongSORT基于高斯过程回归模拟非线性运动。SimpleTrack通过合并物体的嵌入余弦距离和GIOU距离创建了1个新的关联矩阵。Ftrans-JDT在VisDrone MOT和UAVDT数据集上凭借对位置和外观信息的综合利用,显著优于其他跟踪器,验证了其跟踪性能与泛化性。

表1 Ftrans JDT与多目标跟踪器在VisDrone数据集上的对比结果

Table 1 Comparison between Ftrans-JDT and the latest multiple trackers tested on the VisDrone dataset

TrackerMOTAMOTPIDF1IDSWMT/%ML/%FPFNDeepSORT19.469.833.1638712752.21863573853ByteTrack25.172.640.8459018950.31415464329DeepOC-SORT21.069.537.8648913366.31759950485BoT-SORT23.071.641.4701425773.61395269402UAVMOT25.072.340.5664424449.61280480476StrongSORT34.874.342.6309120156.41125754723SimpleTrack33.975.153.6223831760.81052847239Ftrans-JDT35.475.354.4212333660.31388371421

表2 Ftrans JDT与多目标跟踪器在UAVDT数据集上的对比结果

Table 2 Comparison between Ftrans-JDT and the latest multiple trackers tested on the UAVDT dataset

TrackerMOTAMOTPIDF1IDSWMT/%ML/%FPFNDeepSORT35.971.558.369843.425.769091144760ByteTrack39.174.344.7234143.828.133129173228DeepOC-SORT36.473.748.3199335.930.644612180921BoT-SORT37.272.153.1169240.827.352451146420UAVMOT43.073.561.564145.322.746151147735StrongSORT44.276.454.3202438.324.853423139875SimpleTrack45.377.957.1140443.622.539452138457Ftrans-JDT46.578.857.9134944.823.234356152372

图5和图6显示了带有边界框和不同颜色身份的时间顺序帧。利用目标运动信息,Ftrans-JDT的轨迹关联技术有效解决了由于遮挡引起的漏检和错误检测问题,特别是在短期重叠目标的情况下。与先前基于边界框匹配的算法相比,减少了目标身份切换的频率。结果表明:Ftrans-JDT在无人机航拍视频拥挤场景中表现出色,能够稳定地维持边界框的准确标注和身份的一致性。

图5 Ftrans-JDT在VisDrone数据集上的跟踪结果

Fig.5 Tracking results of Ftrans JDT on the VisDrone dataset

图6 Ftrans-JDT在UAVDT数据集上的跟踪结果

Fig.6 Tracking results of Ftrans JDT on the UAVDT dataset

4 结论

本研究旨在将联合检测与跟踪的视觉多目标跟踪算法与基于Transformer的视觉多目标跟踪算法的优势整合,以提高无人机航拍视频多目标跟踪性能,提出了一种更全面、更稳健、更高效的综合多目标跟踪算法。此外,通过建模目标运动信息。在无人机航拍多目标跟踪领域取得了一系列新颖的结果,Ftrans-JDT在VisDrone和UAVDT数据集上均取得了优秀的结果,为实际场景中的多目标跟踪问题提供了实用的解决方案,为无人机视觉跟踪领域的发展贡献了新的思想和方法。

未来,将坚持改进和优化算法,旨在进一步提高多目标跟踪的性能。此外,致力于将研究成果扩展到更广泛的应用领域,使更多的应用领域受益。

参考文献:

[1] AMMAR A,KOUBAA A,AHMED M,et al.Vehicle detection from aerial images using deep learning:a comparative study[J].Electronics,2021,10(7):820-851.

[2] 徐艳,王培光,杨宁.基于全局局部一致性的多特征融合目标跟踪[J].兵器装备工程学报,2020,41(3):86-90.XU Yan,WANG Peiguang,YANG Ning.Multi-feature fusion target tracking algorithm based on global and local consistency[J].Journal of Ordnance Equipment Engineering,2020,41(3):86-90.

[3] YUAN Xuesong.Reliable routing algorithms for UAVs based on geographic location information[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2021,38(1):50-56.

[4] CHEN Xin,YAN Bin,ZHU Jiawen,et al.Transformer tracking[C]//IEEE/CVF conference on Computer Vision and Pattern Recognition.2021:8126-8135.

[5] ASHISH V,PRAJIT R,ARAVIND S,et al.Scaling local self-attention for parameter efficient visual backbones[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:12894-12904.

[6] LAN L,TAO D,GONG C,et al.Online multi-object tracking by quadratic pseudo-boolean optimization[C]//International Joint Conference on Artificial Intelligence,2016:3396-3402.

[7] BOCHINSKI E,EISELEIN V,SIKORA T.High-speed tracking-by-detection without using image information[C]//2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance,2017:1-6.

[8] KALMAN R.Contributions to the theory of optimal control[J].Boletin de la Sociedad Matematica Mexicana,1960,5(1):102-119.

[9] WOJKE N,BEWLEY A,PAULUS D.Simple online and realtime tracking with a deep association metric[C]//2017 IEEE International Conference on Image Processing,2017:3645-3649.

[10] TANG Z,HWANG J.Moana:an online learned adaptive appearance model for robust multiple object tracking in 3d[J].IEEE Access,2019(7):31934-31945.

[11] AL-SHAKARJI N M,BUNYAK F,SEETHARAMAN G,et al.Multi-object tracking cascade with multi-step data association and occlusion handling[C]//2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance,2018:1-6.

[12] WANG J,SIMEONOVA S,SHAHBAZI M.Orientation-and scale-invariant multi-vehicle detection and tracking from unmanned aerial videos[J].Remote Sensing,2019,11(18):2155-2178.

[13] YU H,LI G,ZHANG W,et al.Self-balance motion and appearance model for multi-object tracking in UAV[C]//2019 ACM Multimedia Asia,2019(12):1-6.

[14] MAKAROV S B,PAVLOV V A,BEZBORODOV A K,et al.Multiple object tracking using convolutional neural network on aerial imagery sequences[C]//2021 International Youth Conference on Electronics,Telecommunications and Information Technologies,2021:413-420.

[15] WANG Z,ZHENG L,LIU Y,et al.Towards real-time multi-object tracking[C]//European Conference on Computer Vision.Glasgow,2020:107-122.

[16] ZHANG Y,WANG C,WANG X,et al.Fairmot:On the fairness of detection and re-identification in multiple object tracking[J].International Journal of Computer Vision,2021,129(1):3069-3087.

[17] BERGMANN P,MEINHARDT T,LEAL-TAIXE L.Tracking without bells and whistles[C]//IEEE/CVF International Conference on Computer Vision,2019:941-951.

[18] ZHOU X,KOLTUN V,KRHENBÜHL P.Tracking objects as points[C]//European Conference on Computer Vision,Glasgow,2020:474-490.

[19] PENG J,WANG C,WAN F,et al.Chained-tracker:chaining paired attentive regression results for end-to-end joint multiple-object detection and tracking[C]//Computer Vision-ECCV 2020:16th European Conference,2020:145-161.

[20] XIAO J,LI H,JIN H.transtrack:online meta-transfer learning and otsu segmentation enabled wireless gesture tracking[J].Pattern Recognition,2022,121(1):108157.

[21] MEINHARDT T,KIRILLOV A,LEAL-TAIXE L,et al.TrackFormer:Multi-object tracking with transformers[C]//IEEE Conference on Computer Vision and Pattern Recognition,2022:8844-8854.

[22] ZENG F,DONG B,ZHANG Y,et al.MOTR:End-to-end multiple-object tracking with transformer[C]//European Conference on Computer Vision,2022:659-675.

[23] CARION N,MASSA F,SYNNAEVE G,et al.End-to-end object detection with transformers[C]//European Conference on Computer Vision,2020:213-229.

[24] CAI J,XU M,LI W,et al.MeMOT:Multi-object tracking with memory[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022:8090-8100.

[25] ZHU P,WEN L,DU D,et al.Detection and tracking meet drones challenge[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,44(11):7380-7399.

[26] DU D,QI Y,YU H.The unmanned aerial vehicle benchmark:object detection and tracking[C]//2018 European Conference on Computer Vision,2018:370-386.

[27] WOJKE N,BEWLEY A,PAULUS D.Simple online and realtime tracking with a deep association metric[C]//2017 IEEE International Conference on Image Processing,2017:3645-3649.

[28] ZHANG Y,SUN P,JIANG Y,et al.Bytetrack:multi-object tracking by associating every detection box[C]//European Conference on Computer Vision,2022:1-21.

[29] SIRIANI A,MIRANDA I,MEHDIZADEH S,et al.Chicken tracking and individual bird activity monitoring using the bot-sort algorithm[J].AgriEngineering,2023,5(4):1677-1693.

[30] LIU S,LI X,LU H,et al.Multi-object tracking meets moving UAV[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:8876-8885.

[31] CAO J,PANG J,WENG X,et al.Observation-centric sort:rethinking sort for robust multi-object tracking[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:9686-9696.

[32] DU Y,ZHAO Z,SONG Y,et al.Strong sort:make deepsort great again[J].IEEE Transactions on Multimedia,2023(1):1-14.

[33] LI J,DING Y,WEI H.Simple track:rethinking and improving the jde approach for multi-object tracking[J].Sensors,2022,22(1):5863-5879.

Transformer-based multi-object tracking algorithm for UAV

YUAN Yubin, WU Yiquan

(College of Electronic and Information Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China)

AbstractIn response to the challenges faced in UAV multi-object tracking, including target occlusion, scale variations, rapid movements, and complex environments, this study introduces a UAV multi-object tracking algorithm based on the Transformer architecture. It leverages the Focal Transformer to capture both local and global interactions within the Transformer layers for high-resolution input. This algorithm is capable of generating target detection information and appearance features, thereby significantly enhancing tracking performance. For trajectory prediction, it incorporates the Kalman filtering method to accurately forecast target motion paths, contributing to improved tracking accuracy and robustness. In the data association process, it simultaneously considers three factors: detection confidence, appearance embedding distance, and IOU distance. This enhances the robustness of the multi-object tracking model and enables it to better track targets in complex scenarios. Furthermore, a secondary matching approach for trajectories is employed to further boost the algorithm’s performance. Comparative validation on the VisDrone and UAVDT datasets demonstrates the effectiveness and feasibility of this algorithm in practical applications. This research presents a novel solution for UAV multi-object tracking, with promising applications across a wide range of scenarios.

Key wordsmulti object tracking; transformer; Kalman filtering; detection confidence; multiple feature matching

收稿日期:2023-09-12;修回日期:2023-11-21;录用日期:2023-12-29

基金项目:江苏省研究生科研与实践创新计划项目(KYCX24_0583);南京航空航天大学博士学位论文创新与创优基金项目(BCXJ24-10)

作者简介:苑玉彬(1995—),男,博士研究生,E-mail:harley_yuan@nuaa.edu.cn。

doi:10.11809/bqzbgcxb2024.07.002

本文引用格式:苑玉彬,吴一全.基于Transformer的无人机多目标跟踪算法研究[J].兵器装备工程学报,2024,45(7):11-18.

Citation format:YUAN Yubin, WU Yiquan.Transformer-based multi-object tracking algorithm for UAV[J].Journal of Ordnance Equipment Engineering,2024,45(7):11-18.

中图分类号:TP391.4

文献标识码:A

文章编号:2096-2304(2024)07-0011-08

科学编辑 郭晓冉 博士(军械技术研究所 研究员)

责任编辑 唐定国