无人自主系统及智能决策专栏
近年来,随着无人机技术的迅速发展,无人机航拍视频已成为获取高分辨率、广覆盖区域的有效方式,在众多应用领域,如监视、救援、农业和城市规划中具有巨大潜力[1]。在此背景下,多目标跟踪(multiple object tracking,MOT)在无人机航拍视频处理中变得尤为重要,其允许系统跟踪和监视多个目标,进而推动目标追踪、行为分析和环境监测等应用的发展。然而,无人机航拍视频的多目标跟踪技术也面临着诸多挑战,如目标遮挡、不同尺度下的目标变化、目标的快速运动、复杂的环境条件以及数据噪声等问题。传统的多目标跟踪方法在处理这些问题时存在局限性,因此亟需引入更先进的技术来提高跟踪性能[2]。
Transformer模型已在自然语言处理和计算机视觉领域均取得了巨大的成功。Transformer模型以其卓越的自注意力机制和并行计算能力而闻名,使其成为处理序列数据的理想选择。鉴于其在自然语言处理中的成功,研究者们正积极探索将Transformer模型应用于计算机视觉领域的可能性[3]。自Vision Transformer初次亮相以来,该模型在图像分类、目标检测和语义分割等领域展现出了强大的潜力,并进一步扩展到动作识别、目标跟踪、场景流估计等时间理解任务中[4]。
在Transformer框架中,自注意力机制是其区别于广泛使用的卷积神经网络的关键所在。在每个Transformer层,自注意力支持图像不同区域之间的全局内容交互,以建模短距离和长距离依赖关系,使得Transformer 能够同时关注局部环境和全局环境。然而,当处理密集预测(如目标检测或分割)的高分辨率图像时,由于特征图中网格数量的二次方计算成本,全局和细粒度的自注意力计算变得不再高效。为解决这一难题,当前的研究主要分为2个方向:一是利用粗粒度的全局自注意力机制,二是利用细粒度的局部自注意力机制,以减轻计算负担。然而,这2种方法均在一定程度上削弱了Transformer最初自注意力机制的能力,即同时建模短距离和长距离视觉依赖关系的能力[5]。因此,如何在保持高效计算的同时保留Transformer的自注意力优势,仍是当前研究的重要课题。
本研究提出了一种基于Transformer的多目标跟踪方法Focal Trans-JDT,旨在应对无人机航拍视频中的各种挑战。Focal Trans-JDT采用一种新的自注意力机制Focal Transformer,该机制能够精确捕获高分辨率输入在 Transformer 层中的局部与全局交互。鉴于近距离区域间的视觉依赖性通常更为显著,Focal Trans-JDT只在局部区域执行细粒度的自注意力,而在全局区域执行粗粒度的自注意力策略。与完全自注意力机制相比,Focal Trans-JDT不仅实现了对整个高分辨率特征图的高效覆盖,而且显著减少了自注意力计算中涉及的token数量。因此,它能够同时有效地捕获短距离和长距离的视觉依赖关系。通过一系列实验和定量分析验证了方法的有效性,并将其与优秀的同类方法进行比较,为无人机应用中的多目标跟踪领域提供新的见解和方法。
多目标跟踪技术是计算机视觉领域的一个重要分支,旨在实现视频中对多个目标的连续跟踪。该技术在视频监控、自动驾驶、智能交通等应用领域发挥着至关重要的作用。早期的研究聚焦于通过优化算法来推导目标轨迹[6]。为了提高多目标跟踪算法的实用性,Bochinski等[7]提出了简洁高效的IOUTracker,该方法仅依赖于边界框的交并比来实现目标跟踪,简化了计算过程。为了进一步提升算法的实用性和准确性,研究者们引入了运动模型和卡尔曼滤波器[8],以预测目标在下一帧中的位置从而提高了跟踪的速度和性能,但在面对遮挡和目标丢失等复杂场景时,这些模型表现不佳。为了应对这些挑战,研究人员开始引入重新识别(ReID)特征作为外观模型,以提高轨迹与检测结果之间的关联准确性[9]。其中,MOANA作为一种自适应外观模型,能够在线学习对象外观的长期变化,有效提升了跟踪效果[10]。然而,将ReID模型引入整体跟踪系统计算中,将个别目标的图像补丁作为输入,导致计算负担较重。此外,依赖于目标切块的ReID特征提取方法不够稳定,易导致次优的跟踪结果。
随着目标检测器的快速发展,目标特征建模广泛应用于无人机视角下多目标跟踪,它通过捕获目标的颜色、纹理、光流等独特特征来实现多目标跟踪。这些提取出的特征必须具有独特性,以确保它们在特征空间中可以有效区分不同的目标。根据提取的特征,利用相似性准则在下一帧中找到与之最相似的目标,从而实现多目标跟踪。在现有技术中,Al-Shakarji等[11]提出了SCTrack的目标跟踪系统采用三阶段的数据关联方法,结合目标外观模型、空间距离以及显式遮挡处理单元,不仅依赖于被跟踪目标的运动模式,还考虑了环境约束,在处理遮挡目标时表现出良好的性能。Wang等[12]提出了OSIM网络,通过VeRi数据集训练的宽残差网络提取目标的外观特征,同时结合检测到的目标边界框的马氏距离作为运动度量,以及边界框内像素间最小余弦距离作为外观相似性度量,利用加权融合和级联匹配进行数据关联,实现了多目标的稳健跟踪。为了解决外观和运动之间融合比例需要主观设置的问题,Yu等[13]提出了一种自适应方法,结合Social LSTM网络预测目标的运动,并根据当前帧中目标与周围目标的外观相似性,实现当前帧目标与前一帧目标之间的精确关联。此外,Makarov等[14]将Kuhn-Munkres算法用于计算目标边界框之间的欧氏距离,建立帧间目标的对应关系,并通过比较目标的颜色直方图的Bhattacharya距离来处理目标在视野中消失和出现的情况。基于检测的多目标跟踪方法在处理高精度目标跟踪问题上表现出色,但在计算成本、误检测和目标关联方面存在一些挑战。因此,在选择合适的跟踪方法时,需要充分考虑具体应用的需求和资源限制。
为了提升整个跟踪系统的运算速度,研究人员积极探索将目标检测和ReID特征提取相结合的方法,以实现计算资源更高效的共享。JDE是首个尝试这一方法的工作,其创新之处在于将ReID分支整合到单阶段检测器YOLOv3中,实现了两者的有机结合[15]。FairMOT则利用无锚点检测器CenterNet来减少锚点歧义,实现了检测和识别任务间的平衡[16]。除了这些联合检测和特征嵌入的方法外,还出现了一些其他单阶段跟踪器。Tracktor利用检测器的回归头,直接实现目标轨迹的帧间关联[17]。而CenterTrack[18]和Chained Tracker[19]则采用多帧预测方法,通过预测连续帧中的目标边界框,促进短期关联的高效性,进而构建了长期的目标轨迹。然而,这些技术在捕捉长期依赖关系方面仍面临挑战,产生大量的身份切换问题。
近年来,基于Transformer的模型在计算机视觉领域取得了巨大的成功,尤其在目标检测领域表现出色,推动了基于Transformer的方法在多目标跟踪(MOT)领域崭露头角。TransTrack[20]、TrackFormer [21]和MOTR[22]等方法备受关注,均构建在DETR [23]及其衍生模型上,成为在线跟踪的代表。TrackFormer采用了跟踪查询的方式来维护目标身份,并有效抑制了冗余跟踪。而TransTrack则利用之前的目标特征作为跟踪查询,准确生成跟踪框,并通过IOU匹配关联检测框。此外,MOTR则实现了端到端的目标跟踪,通过迭代更新跟踪查询,极大简化了后处理步骤。MeMOT[24]是一种类似于MOTR的端到端跟踪方法,基于注意力机制,能够聚焦于目标状态进行预测。尽管这些方法开拓了新的跟踪范式,但相较于当前最先进的跟踪算法,性能仍有待提升。
本研究提出的无人机航拍多目标跟踪算法Focal Trans-JDT由Focal Trans-Det模块和轨迹关联模块组成。Focal Trans-DET模块是一个无锚框的目标检测器和特征提取模块,其集成了Focal self-attention,结合了细粒度局部交互和粗粒度全局交互,每个token以细粒度关注其近距离token,以粗粒度关注其远距离token,从而可以有效地捕获短期和长期的可视依赖关系。轨迹关联模块通过同时考虑检测置信度、外观嵌入距离和IOU距离3个因素来处理数据关联过程,提高MOT模型的跟踪鲁棒性。框架如图1所示。
图1 Ftrans-JDT框架
Fig.1 Ftrans JDT framework
为了适应高分辨率视觉任务,模型架构采用多尺度设计,能够在早期阶段获得高分辨率特征图。图像I∈RH×W×3首先被分成大小为 4×4 的块,得到接着使用1个块嵌入层,其由1个卷积层组成,核大小和步幅都等于4,将这些补丁映射到维度为d的隐藏特征中。将此空间特征图传递给4个阶段的Focal Transformer层。在每个阶段i∈{1,2,3,4},Focal Transformer块由Ni个 Focal Transformer 层组成。在每个阶段之后,使用另1个块嵌入层将特征图的空间大小减少2倍,同时特征维度增加2。最后将所有4个阶段的特征图发送到检测器预测头,同时输出目标的外观特征向量,用作多目标轨迹的匹配。通过改变输入特征维度d和每个阶段的Transformer 层数来定制模型容量{N1,N2,N3,N4}。
标准的自注意力可以捕获细粒度的短距离和长距离交互,但在高分辨率特征图上执行注意力时,会受到高计算成本的影响,导致时间和内存成本爆炸式增长。通过Focal 自注意力模块来解决这个问题,其分为2个步骤:
1) 子窗口池化。假设输入特征图x∈RM×N×d,其中M×N是空间维度,d是特征维度。对所有L级别执行子窗口池化。对于Focal级别l,首先将输入特征图x分成大小为的子窗口网格,再用一个简单的线性层通过以下方式在空间子窗口池化:
(1)
其中,不同级别 l的池化特征图提供了丰富的细粒度和粗粒度信息。
将设置为与输入特征图具有相同粒度的第1个focal级别时,无需执行任何子窗口池化。
2) 注意力计算。获得所有L级别的池化特征图使用3个线性投影层 fq, fk 和fv计算第1层的query和所有层的key和value:
Q=fq(x1)
(2)
(3)
(4)
为了执行Focal self-attention,需要首先为特征图中的每个query令牌提取周围的令牌。窗口分区sp×sp内的令牌共享同一组环境。对于第i个窗口Qi∈Rsp×sp×d内的queries,从所在窗口周围的Kl和Vl中提取的keys和values,然后收集keys和values,得到和其中s是来自所有级别的Focal区域的总和,即最后,通过以下方式计算Qi的focal自注意力:
(5)
其中:是可学习的相对位置偏差,由L个LFocal级别的子集组成。对于第1层,将其参数化为B1∈R(2sp-1)×(2sp-1),其水平和垂直位置范围都在[-sp+1,sp-1]。对于其他focal级别,考虑到它们对 queries具有不同的粒度,平等对待窗口内的所有queries,并使用来表示query窗口与每个池化的 之间的相对位置偏差令牌。由于每个窗口的focal自注意力独立于其他窗口,可以并行计算注意力。
轨迹匹配模块考虑检测置信度、外观嵌入距离和IOU距离,将所有轨迹与所有检测关联起来。图2展示了轨迹匹配模块的体系结构。当接收到Ftrans-Det输出的检测结果时,根据预测置信度将检测分为高分检测结果和低分检测结果,使用不同的匹配方法进行数据关联。
图2 轨迹匹配模块
Fig.2 Trajectory matching module
首先,将前一帧轨迹与高分检测盒进行匹配。在此阶段,基于跟踪器与检测盒之间的嵌入距离和IOU距离进行3次关联匹配操作。匹配成功的轨迹将利用匹配的检测帧数据,通过卡尔曼滤波器进行轨迹预测,为下一帧准备关联匹配。其次,在完成对高分检测的第2次匹配后,将未匹配的跟踪器与低分检测盒进行匹配。同样地,成功匹配的轨迹也执行上述更新过程。最后,所有成功匹配的轨迹都被视为当前帧的有效跟踪结果。
对于高分检测结果,一共进行3次IOU距离匹配。第1次IOU距离匹配用于匹配当前的高分检测和预测轨迹,匹配的检测信息用于更新其匹配的轨迹。其余未匹配的高分检测结果和未匹配的预测轨迹使用IOU距离进行匹配,匹配的检测结果用于更新匹配的轨迹。最后,剩余的高分检测会与所有尚未匹配的轨迹进行匹配,而所有无法匹配的高分检测将作为新轨迹加入系统,同时移除所有不匹配且未更新的轨迹。对于低分检测结果,简化匹配过程,只和剩余的未匹配的轨迹之间进行1次IOU距离匹配,若匹配成功,则使用低分检测结果更新轨迹。同时将所有连续不匹配帧数少于30帧的未匹配轨迹从跟踪系统中删除。在实际操作中,连续不匹配帧的数量可以根据输入视频序列的帧率进行调整。
在VisDrone MOT[25]和UAVDT[26]数据集上对所提算法进行了全面评估,VisDrone MOT和UAVDT数据集的示例图像如图3和图4所示。数据集涵盖了多种无人机航拍场景,为全面了解所提算法的实际应用效果提供了有力支撑。在这些数据集上,进行了广泛的评估,与其他出色的多目标跟踪器进行了比较,分析它们在不同场景和条件下的相对表现。
图3 VisDrone数据集示例
Fig.3 Example of VisDrone Dataset
图4 UAVDT数据集示例
Fig.4 Example of UAVDT Dataset
使用多种权威的多目标跟踪(MOT)评估指标来评估所提MOT算法的性能,旨在评估整体性能,并指示每个模型的潜在缺陷。如下所示:
1) FP (↓):整个视频中的误报数量;
2) FN (↓):整个视频中的漏报数量;
3) IDSW (↓):整个视频中的身份切换数量;
4) FM (↓):跟踪过程中中断的真实轨迹数量;
5) IDF1 (↑):正确识别的检测数量与计算出的检测数量和真值之比;
6) MOTA(↑):结合了FP、FN和IDSW,得分如下定义:
(6)
7) MOTP(↑):真值与预测结果之间的不匹配程度计算如下:
(7)
这些指标有助于全面评估MOT算法在不同方面的性能,提供了对系统效果的深入洞察。
算法使用基于COCO数据集预训练的DLA-34变种作为所提出网络的骨干网络。模型参数通过Adam优化器进行更新,初始学习率为8×10-5,共训练30个epochs。同时对数据集采用了包括旋转、缩放和颜色抖动在内的数据增强技术,以增强模型的泛化能力。GPU为NVIDIA RTX 4090,batch size设置为8。
将Ftrans-JDT与DeepSORT [27]、ByteTrack [28]、BoT-SORT [29]、UAVMOT [30]、Deep OC-SORT [31]、Strong SORT [32]和SimpleTrack[33]进行了比较。由于训练集中各类别物体实体的分布不均匀,检测模型在不同类别上表现不同。因此,所有跟踪比较方法都使用了YOLO-V8检测器生成的相同检测结果,并将汽车阈值设置为0.3,巴士为0.05,卡车为0.1,行人阈值设置为0.4。
表1和表2展示了Ftrans-JDT与其他流行的跟踪器在VisDrone MOT和UAVDT数据集上的比较结果,评估指标包括MOTA、MOTP、IDF1和IDSW。对比结果显示,Ftrans-JDT通过有效利用位置和外观信息表现出色,展示了卓越的性能。相比之下,Deep SORT通过根据位置信息独立关联每个类别来扩展其框架以处理多类别。ByteTrack利用低分检测来进行相似性跟踪和背景噪声过滤。Deep OC-SORT引入了相机运动补偿和自适应加权,而BoT-SORT则包括相机运动补偿。UAVMOT通过ID特征更新模块增强了物体特征关联。StrongSORT基于高斯过程回归模拟非线性运动。SimpleTrack通过合并物体的嵌入余弦距离和GIOU距离创建了1个新的关联矩阵。Ftrans-JDT在VisDrone MOT和UAVDT数据集上凭借对位置和外观信息的综合利用,显著优于其他跟踪器,验证了其跟踪性能与泛化性。
表1 Ftrans JDT与多目标跟踪器在VisDrone数据集上的对比结果
Table 1 Comparison between Ftrans-JDT and the latest multiple trackers tested on the VisDrone dataset
TrackerMOTAMOTPIDF1IDSWMT/%ML/%FPFNDeepSORT19.469.833.1638712752.21863573853ByteTrack25.172.640.8459018950.31415464329DeepOC-SORT21.069.537.8648913366.31759950485BoT-SORT23.071.641.4701425773.61395269402UAVMOT25.072.340.5664424449.61280480476StrongSORT34.874.342.6309120156.41125754723SimpleTrack33.975.153.6223831760.81052847239Ftrans-JDT35.475.354.4212333660.31388371421
表2 Ftrans JDT与多目标跟踪器在UAVDT数据集上的对比结果
Table 2 Comparison between Ftrans-JDT and the latest multiple trackers tested on the UAVDT dataset
TrackerMOTAMOTPIDF1IDSWMT/%ML/%FPFNDeepSORT35.971.558.369843.425.769091144760ByteTrack39.174.344.7234143.828.133129173228DeepOC-SORT36.473.748.3199335.930.644612180921BoT-SORT37.272.153.1169240.827.352451146420UAVMOT43.073.561.564145.322.746151147735StrongSORT44.276.454.3202438.324.853423139875SimpleTrack45.377.957.1140443.622.539452138457Ftrans-JDT46.578.857.9134944.823.234356152372
图5和图6显示了带有边界框和不同颜色身份的时间顺序帧。利用目标运动信息,Ftrans-JDT的轨迹关联技术有效解决了由于遮挡引起的漏检和错误检测问题,特别是在短期重叠目标的情况下。与先前基于边界框匹配的算法相比,减少了目标身份切换的频率。结果表明:Ftrans-JDT在无人机航拍视频拥挤场景中表现出色,能够稳定地维持边界框的准确标注和身份的一致性。
图5 Ftrans-JDT在VisDrone数据集上的跟踪结果
Fig.5 Tracking results of Ftrans JDT on the VisDrone dataset
图6 Ftrans-JDT在UAVDT数据集上的跟踪结果
Fig.6 Tracking results of Ftrans JDT on the UAVDT dataset
本研究旨在将联合检测与跟踪的视觉多目标跟踪算法与基于Transformer的视觉多目标跟踪算法的优势整合,以提高无人机航拍视频多目标跟踪性能,提出了一种更全面、更稳健、更高效的综合多目标跟踪算法。此外,通过建模目标运动信息。在无人机航拍多目标跟踪领域取得了一系列新颖的结果,Ftrans-JDT在VisDrone和UAVDT数据集上均取得了优秀的结果,为实际场景中的多目标跟踪问题提供了实用的解决方案,为无人机视觉跟踪领域的发展贡献了新的思想和方法。
未来,将坚持改进和优化算法,旨在进一步提高多目标跟踪的性能。此外,致力于将研究成果扩展到更广泛的应用领域,使更多的应用领域受益。
[1] AMMAR A,KOUBAA A,AHMED M,et al.Vehicle detection from aerial images using deep learning:a comparative study[J].Electronics,2021,10(7):820-851.
[2] 徐艳,王培光,杨宁.基于全局局部一致性的多特征融合目标跟踪[J].兵器装备工程学报,2020,41(3):86-90.XU Yan,WANG Peiguang,YANG Ning.Multi-feature fusion target tracking algorithm based on global and local consistency[J].Journal of Ordnance Equipment Engineering,2020,41(3):86-90.
[3] YUAN Xuesong.Reliable routing algorithms for UAVs based on geographic location information[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2021,38(1):50-56.
[4] CHEN Xin,YAN Bin,ZHU Jiawen,et al.Transformer tracking[C]//IEEE/CVF conference on Computer Vision and Pattern Recognition.2021:8126-8135.
[5] ASHISH V,PRAJIT R,ARAVIND S,et al.Scaling local self-attention for parameter efficient visual backbones[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:12894-12904.
[6] LAN L,TAO D,GONG C,et al.Online multi-object tracking by quadratic pseudo-boolean optimization[C]//International Joint Conference on Artificial Intelligence,2016:3396-3402.
[7] BOCHINSKI E,EISELEIN V,SIKORA T.High-speed tracking-by-detection without using image information[C]//2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance,2017:1-6.
[8] KALMAN R.Contributions to the theory of optimal control[J].Boletin de la Sociedad Matematica Mexicana,1960,5(1):102-119.
[9] WOJKE N,BEWLEY A,PAULUS D.Simple online and realtime tracking with a deep association metric[C]//2017 IEEE International Conference on Image Processing,2017:3645-3649.
[10] TANG Z,HWANG J.Moana:an online learned adaptive appearance model for robust multiple object tracking in 3d[J].IEEE Access,2019(7):31934-31945.
[11] AL-SHAKARJI N M,BUNYAK F,SEETHARAMAN G,et al.Multi-object tracking cascade with multi-step data association and occlusion handling[C]//2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance,2018:1-6.
[12] WANG J,SIMEONOVA S,SHAHBAZI M.Orientation-and scale-invariant multi-vehicle detection and tracking from unmanned aerial videos[J].Remote Sensing,2019,11(18):2155-2178.
[13] YU H,LI G,ZHANG W,et al.Self-balance motion and appearance model for multi-object tracking in UAV[C]//2019 ACM Multimedia Asia,2019(12):1-6.
[14] MAKAROV S B,PAVLOV V A,BEZBORODOV A K,et al.Multiple object tracking using convolutional neural network on aerial imagery sequences[C]//2021 International Youth Conference on Electronics,Telecommunications and Information Technologies,2021:413-420.
[15] WANG Z,ZHENG L,LIU Y,et al.Towards real-time multi-object tracking[C]//European Conference on Computer Vision.Glasgow,2020:107-122.
[16] ZHANG Y,WANG C,WANG X,et al.Fairmot:On the fairness of detection and re-identification in multiple object tracking[J].International Journal of Computer Vision,2021,129(1):3069-3087.
[17] BERGMANN P,MEINHARDT T,LEAL-TAIXE L.Tracking without bells and whistles[C]//IEEE/CVF International Conference on Computer Vision,2019:941-951.
[18] ZHOU X,KOLTUN V,KRHENBÜHL P.Tracking objects as points[C]//European Conference on Computer Vision,Glasgow,2020:474-490.
[19] PENG J,WANG C,WAN F,et al.Chained-tracker:chaining paired attentive regression results for end-to-end joint multiple-object detection and tracking[C]//Computer Vision-ECCV 2020:16th European Conference,2020:145-161.
[20] XIAO J,LI H,JIN H.transtrack:online meta-transfer learning and otsu segmentation enabled wireless gesture tracking[J].Pattern Recognition,2022,121(1):108157.
[21] MEINHARDT T,KIRILLOV A,LEAL-TAIXE L,et al.TrackFormer:Multi-object tracking with transformers[C]//IEEE Conference on Computer Vision and Pattern Recognition,2022:8844-8854.
[22] ZENG F,DONG B,ZHANG Y,et al.MOTR:End-to-end multiple-object tracking with transformer[C]//European Conference on Computer Vision,2022:659-675.
[23] CARION N,MASSA F,SYNNAEVE G,et al.End-to-end object detection with transformers[C]//European Conference on Computer Vision,2020:213-229.
[24] CAI J,XU M,LI W,et al.MeMOT:Multi-object tracking with memory[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022:8090-8100.
[25] ZHU P,WEN L,DU D,et al.Detection and tracking meet drones challenge[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,44(11):7380-7399.
[26] DU D,QI Y,YU H.The unmanned aerial vehicle benchmark:object detection and tracking[C]//2018 European Conference on Computer Vision,2018:370-386.
[27] WOJKE N,BEWLEY A,PAULUS D.Simple online and realtime tracking with a deep association metric[C]//2017 IEEE International Conference on Image Processing,2017:3645-3649.
[28] ZHANG Y,SUN P,JIANG Y,et al.Bytetrack:multi-object tracking by associating every detection box[C]//European Conference on Computer Vision,2022:1-21.
[29] SIRIANI A,MIRANDA I,MEHDIZADEH S,et al.Chicken tracking and individual bird activity monitoring using the bot-sort algorithm[J].AgriEngineering,2023,5(4):1677-1693.
[30] LIU S,LI X,LU H,et al.Multi-object tracking meets moving UAV[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:8876-8885.
[31] CAO J,PANG J,WENG X,et al.Observation-centric sort:rethinking sort for robust multi-object tracking[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:9686-9696.
[32] DU Y,ZHAO Z,SONG Y,et al.Strong sort:make deepsort great again[J].IEEE Transactions on Multimedia,2023(1):1-14.
[33] LI J,DING Y,WEI H.Simple track:rethinking and improving the jde approach for multi-object tracking[J].Sensors,2022,22(1):5863-5879.