准确诊断设备故障是维持设备平稳运行和生产效益的关键任务。然而,实际工业环境中,由于设备种类的复杂性、数据获取的成本和困难性,导致故障样本相对较少[1]。传统的机器学习方法在处理小样本问题时通常表现不佳,难以充分挖掘样本中的信息[2,3]。随着设备数量和复杂性的增加,依赖有限故障样本进行故障诊断变得尤为关键。
为解决小样本问题,研究者们提出了多种方法,包括迁移学习[4-5]、元学习[6-7]和数据增强[8-9]等,以及多种网络,如生成对抗网络[10-12]和孪生网络[13-14]等。迁移学习通过使用源域数据辅助目标域数据进行训练诊断,是故障诊断领域的重要工具。吕丞辉等[15]提出了一种多核最大均值差异的多源域迁移学习方法,而谢旭阳等[16]则基于卷积神经网络和迁移学习,提出了一种自动提取故障特征的诊断方法。Zheng等[17]则验证了基于卷积神经网络的迁移学习方法的计算成本和诊断性能。由于小样本数据分布更为离散,基于源域和目标域的样本分布相似假设的迁移学习难以有效将源域知识迁移到目标任务。此外,生成对抗网络等不依赖领域知识的方法通过数据生成来解决小样本问题。然而,数据生成技术面临生成样本质量低下问题,此类数据对诊断模型性能提升有限甚至负提升。
相比之下,不需要使用源域数据辅助,也不需要额外数据生成的度量学习方法在解决小样本问题上更具优势,且模型结构简单[18-19]。度量学习专注于定义数据间的有效相似性,提高数据分析和模式识别性能。Su等[20]提出一种基于小波域去噪和距离度量的故障诊断方法,通过处理噪声信号不同尺度的小波系数并度量比较去噪后的样本,确定故障类别。Su等[21]提出自适应门控注意力网络,结合加权度量,通过选择相关特征通道来增强故障特征提取能力,提高故障特征的可识别性。Yang等[22]提出基于联合类度量和稀疏表征正则化深度信念网络,通过优化同类特征之间的距离,惩罚不同类特征之间的距离,生成稀疏表征来避免使用相同结构参数的局部结构。Xu等[23]提出一种基于度量学习和Yu范数的深度度量学习方法,通过引入Yu范数相似性准则,利用深度度量学习神经网络自适应提取故障特征参数。以上研究在轴承、齿轮箱等旋转机械的故障诊断中取得了良好的效果。在数据小样本和故障多类型的场景下,深度度量学习模型对训练数据敏感,容易过于记住训练数据的细节,导致模型对新样本的泛化能力不佳。
为此,提出一种元度量学习框架下的自适应边际损失度量深度卷积神经网络(adaptive marginal loss metric deep convolutional neural network,AML-DCNN)的方法,并应用到无人机小样本故障诊断中。本文的主要贡献如下:
1) 针对现有基于度量学习的故障诊断方法中,小样本数据导致模型泛化能力不强的问题,考虑边际影响并提出了基于自适应边际的损失函数。该方法为少量样本提供更大边际,使少量样本数据在类内更紧凑,从而增强模型的泛化能力。
2) 通过元学习的片段式训练模式,根据多个子任务适应小样本情况下的故障类别,提出了基于元度量学习的故障诊断框架。同时,在度量模块中引入余弦相似度,以提高小样本条件下各故障类型的诊断精度。
3) 为验证所提方法的有效性,结合带故障的无人机飞行日志数据,构建了基于数据增强的无人机诊断数据集,并在该数据集上与其他基于度量学习的小样本故障诊断方法进行了实验对比分析。结果表明,所提方法在诊断准确率和方法稳定性上具有显著优势。
在小样本问题中,度量学习的目标是用一个度量函数d(x1,x2),来衡量输入样本x1和x2之间的距离。在元学习框架中,度量学习的任务是从含有少量样本的任务中学习,以优化在测试阶段进行分类的性能。具体地,给定元学习任务T,模型需要从多个子任务Tk中学习特征向量的相似性。用{xi,yi}表示输入样本,其中,xi∈Rl×c表示输入信号,l和c分别表示信号的长度和通道数;yi∈RN表示样本真实标签,N表示标签的空间{1,2,…,n}。在整个元学习任务T中,可以采样出多个子任务Tk,总任务和子任务中的数据均服从分布p(T)。每个子任务包含M个不同类别的样本,其中M<N。子任务表示为Tk= {S,Q},其中表示支持集,表示查询集。nm s和nm q为类别m分别在支持集和查询集中的样本个数。支持集中每个类别的样本个数相同,即查询集中每个类别的样本个数也相同,即这样,元度量学习模型可以在每个子任务中学习如何度量样本之间的距离,以有效地进行故障诊断。
在元度量学习框架下,基于所提方法的网络模型如图1所示。该模型由用于提取特征的深度卷积神经网络、用于衡量样本之间相似度的度量模块和用于输出数据标签的分类器组成。
图1元度量学习框架下基于所提方法的网络模型
Fig.1 Network based on the proposed method in a meta metric learning framework
在元训练阶段,每个子任务Tk以episodic的方式训练模型。使用深度卷积神经网络提取输入样本xi的特征后,得到的预测标签用式(1)表示。
(1)
式(1)中, f是深度卷积神经网络的映射函数, θ是模型需要优化的参数。
度量学习的核心是学习一个距离函数,用于衡量特征的相似性。深度卷积神经网络基于相似性来进行优化,使同类样本之间距离较近,不同类样本之间距离较远。用bs表示输入样本的episode批次大小,bs表示第个episode。用余弦相似度表示距离函数df,如式(2)所示。
(2)
在每个episode中,需要度量特征向量的相似度,即特征向量是相似还是不相似。输入样本的特征向量相同的概率Pi用式(3)表示。
(3)
式(3)中,e和h用于区分bs中的不同样本。
为减少损失函数参数的手动调整,降低对异常样本的敏感性,提高模型的鲁棒性。引入自适应边际损失来改进基于元学习的度量方法,并指导模型的参数优化。优化的目标可以初步用式(4)表示。
(4)
具体地,在每个样本加上相同的边际,使来自不同类的样本之间加上等同的边际距离。在相似度很高的类别上,等边际距离的加入可以有效改善分类效果,但也可能混淆相似度低的类别。为进一步细化边际,通过类相关的线性模型来生成边际α,即α=β·Pi。其中,β表示尺度因子。类相关边际的加入,使相似类的边际更大,不相似类的边际更小,实现自适应地根据样本的相似性动态地调整类别之间的边际。然而,考虑到训练的方式采用的是元学习的多个子任务模式,类相关的边际不能直接应用于元训练阶段的多个子任务。为此,我们使用多层感知器ξ来生成任务间的自适应边际αT,αT用式(5)表示。
(5)
式(5)中,n′表示除n以外的所有类别。
第i个输入样本对应的特征向量 f (xi)输入到分类器中,得到其分为第j个类别的概率用softmax函数表示如式(6)所示。
(6)
式(6)中,W表示分类器的权重矩阵。
所以,模型的自适应边际损失函数用式(7)表示。
(7)
参数θ在episodes上的训练可以用极大似然估计优化,如式(8)所示。
(8)
在元测试阶段,新的分类任务类似于元训练阶段的分类任务。有标签的支持集样本和无标记的查询集样本输入到训练好的模型,并以查询集样本的分类预测结果作为最终输出。用训练好的模型来决定查询集中单个样本属于支持集的那个类别,决策方式可以用式(9)表示。
(9)
小样本场景下,为实现无人机故障诊断,提出了如图2所示的小样本故障诊断流程。其步骤如下:
图2 基于所提方法的故障诊断流程
Fig.2 Fault diagnosis process based on proposed method
1) 数据收集和样本准备:收集无人机故障诊断所需的数据,包括来自3个方向的加速度和偏转角数据。确保数据集包括正常和故障状态下的样本,并对数据采取归一化和重采样的预处理措施,以确保数据的一致性和可用性。将处理好的样本采样为多个包含支持集和查询集的子任务。
2) 模型训练:模型训练分为2个阶段,即元训练阶段和元测试阶段。首先初始化深度卷积神经网络的参数,并提取样本的特征。然后,度量模块利用余弦相似度度量这些特征,并在分类器上应用自适应边际损失,以获得更好的分类结果。用每个元训练批次保存的特征提取器和分类器参数来实现元测试批次的诊断输出。
3) 性能评估:为了评估所提方法的性能,采用可视化技术,如热图和T-SNE等,来可视化诊断结果。这有助于量化和展示模型的性能,从而更好地理解和分析小样本故障诊断的效果。
ALFA无人机数据集由卡内基梅隆大学提供,用于无人机故障诊断算法的研究与开发[24]。该数据集的数据的收集平台是Carbon Z T-28无人机,其翼展达2 m,装备有发动机、副翼、升降舵和方向舵等,如图3所示。此外,还搭载了Holybro PX4自动驾驶仪、空速传感器、GPS、Nvidia Jetson TX 2机载计算机和无线电遥感,以确保飞行状态和监测数据的采集。数据集以mat格式存储,包括了6个通道的信号数据,这6通道数据涵盖了3个方向上的速度和偏转角等信息。
图3 用于数据收集的无人机设备
Fig.3 UAV equipment for datacollection
在数据预处理阶段,首先对信号数据进行归一化处理,将其缩放至统一的数值范围[-1,1],以确保数据具有一致的物理意义。随后,通过将来自6个通道的数据合并,构建了含有丰富信息的样本数据。最后,为了满足进一步的分析和模型训练的需要,信号数据被重采样而分割为固定长度l= 256的数据段。此外,为了标记数据集中的样本,将数据集中的9种不同故障类型映射为数字0~8,如表1所示。在模型训练过程中,采用6通道的信号样本,每个样本的尺寸为c×l=6×256。DCNN的结构包括3个卷积层,每个卷积层的核大小为3,步长为1,激活函数为ReLU;过滤器数量分别为8、16和32;最大池化层的内核大小和步长均为2。在模型优化方面,采用Adam作为优化器,并设置学习率为0.001,一阶矩和二阶矩估计的指数衰减率分别为0.9和0.999。
表1 故障及其标签的详细信息
Table 1 Details of faults and labels
故障位置故障描述故障标签无正常0引擎全功率损耗1方向舵卡死在左边2方向舵卡死在右边3升降舵卡死4左副翼卡死5右副翼卡死6两侧副翼卡死7方向舵和副翼卡死8
为评估AML-DCNN的性能,将其与已有的基于度量学习的小样本故障诊断方法进行对比。这些已有方法包括基于均方误差的DCNN(MS-DCNN)以及基于交叉熵损失度量DCNN(CE-DCNN)的方法。
在所有实验中,提取特征模块均采用上述DCNN结构;在对比实验中,均采用余弦相似度;在消融实验中,均采用自适应边际损失函数。所有实验都在配备有Intel Core i5-12400F、GeForce RTX 3050和16 GB内存的计算机上执行,操作系统为Window 11,深度学习框架采用Pytorch 1.10版本。
为验证所提方法在小样本故障诊断中的有效性,将该模型与上述MS-DCNN和CE-DCNN方法进行比较。在ALFA数据集上进行了K分别为1、5和10时的实验,结果如表2所示。为提高结果的可靠性,对所有方法进行5次实验取平均值作为最终结果。AML-DCNN在无人机小样本故障诊断中表现出最佳的泛化性能,相较于MS-DCNN和CE-DCNN,其整体诊断准确率在不同情景下达到了87.56%(K=1-shot)、92.74%(K=5-shot)和92.96%(K=10-shot)。随着查询集样本数量的逐渐增加,模型可以获得更多的信息,从而提升泛化性能。然而,诊断性能与查询集样本数量并非线性函数关系,可在不同方法的平均诊断准确率对比图中得到验证。
表2 在ALFA数据集上进行对比实验的实验结果(%)
Table 2 Experimental results of comparative experiments on the ALFA dataset
试验次数MS-DCNN模型1-shot5-shot10-shotCE-DCNN模型1-shot5-shot10-shotAML-DCNN模型(所提方法)1-shot5-shot10-shot164.0771.1174.0779.6385.1988.5287.4193.3392.59268.1576.6771.4872.2282.6085.9388.1593.7091.85365.5671.4872.5984.4488.5283.7088.1591.4890.37462.9673.7073.7078.8980.3786.3083.3393.3396.30569.2674.8178.5276.3081.4887.4190.7491.8593.70平均值65.9973.5574.0778.3083.6386.3787.5692.7492.96
在图4中,可以观察到所提方法在多次实验中表现出相对较小的误差,这表明其在小样本故障诊断任务中的稳定性和可靠性。这也意味着AML-DCNN在应对不同情景下的小样本问题时,具备一致的泛化性能。同时,采用T-SNE降维技术可视化了每种方法的分类效果,图5展示了K分别为1、5和10时,5次实验中各方法的最好分类效果。实验结果表明,减少查询集样本数量,对所提方法诊断性能的影响相对较小。CE-DCNN相对MS-DCNN在小样本情况下表现更出色。这是因为CE-DCNN引入了交叉熵损失函数,允许模型在特征空间中更好地区分不同的故障类别。AML-DCNN在小样本故障诊断中表现出比CE-DCNN更好的泛化性能。这表明引入自适应边际损失的元度量学习方法在处理小样本问题时具有优势。AML-DCNN能够更有效地学习样本之间的距离信息,并更好地区分不同的故障类别。
图4 不同方法平均诊断准确率对比
Fig.4 Comparison of average diagnostic accuracy in different methods
图5 不同样本数量下各方法的最佳分类效果可视化
Fig.5 Visualization of the best classification effect in each method for different sample sizes
为更直观地评估各类故障样本的分类性能,针对K=10的情况,利用混淆矩阵的热图可视化呈现了各方法获得最佳结果的分类效果,如图6所示。从图6可以观察到,当查询集样本数量相同时,所有方法在标签为2的故障分类中表现出100%的诊断准确率。然而,在类别标签为8的故障分类中,MS-DCNN存在很高的误诊率,CE-DCNN则表现良好。值得注意的是,AML-DCNN不仅对标签为8的故障分类上表现出很小的误诊率,还在其他类别的故障上具有出色的性能。这表明自适应边际度量损失在小样本故障诊断中有着显著的性能提升作用。
图6 K=10时不同方法最佳诊断结果的混淆矩阵可视化
Fig.6 Confusion matrix visualization of the best diagnostic results in different methods with K=10
为选择适合解决小样本故障诊断的距离度量方法,将所提方法与基于欧式距离和曼哈顿距离度量的方法进行比较。具体而言,将公式3中的距离度量替换为欧式距离和曼哈顿距离,同时保持其他网络结构不变。通过评估这3个方法在K=10时的最佳诊断结果,并运用T-SNE进一步评估模型的性能,如图7所示。
图7 基于不同度量距离的分类效果的T-SNE可视化
Fig.7 T-SNE visualization of classification effects based on different metric distance
基于欧式距离度量的T-SNE可视化图如图7(a)所示。整体的分类精度达到88.15%,存在6个类别的混淆分类,类别之间聚类密集,不利于单个故障类别的区分。基于曼哈顿距离度量的T-SNE可视化图如图7(b)所示。整体诊断精度为90.74%,同样存在6个类别的混淆分类,特征映射的空间比基于欧式距离的要大。基于余弦相似度度量的T-SNE可视化图如图7(c)所示。该距离下的整体诊断精度为96.30%,仅存在4个类别的混淆分类,误分类数量少,不同类别之间差异明显。体现了余弦相似度对小样本数据的适应性,证明了提出的AML在小样本故障诊断中的有效性,它能根据样本的相似性动态调整类别之间的边际,使类别聚类分割明显。此外,还测试了改进的自适应边际损失中参数设置对实验结果的影响,参数为尺度因子β。图8展示了参数β,取值为0.4、0.5、0.6、0.7、0.8和0.9,对训练过程中准确率和损失值变化的影响。
图8 尺度因子对准确率和损失值的影响
Fig.8 Effect of scale factor on accuracy and loss
从实验结果可以看出尺度因子对损失值的影响较大,不同的β值对应的边际损失曲线的间距也较为明显。当尺度因子设置为0.4和0.5时,模型性能相对较差,准确率较低,同时损失值相对较大。然而,当尺度因子逐渐增加至0.6和0.7时,损失值减小,准确提高。这表明增加尺度因子可以有效改善模型的性能,减少损失,提高分类准确率。当尺度因子设置为0.8时,模型达到最佳性能,准确率达到最大,同时损失值最小。尽管尺度因子为0.9时的准确率也相对较高,但是损失值有所增加。最终选取尺度因子为0.8,因为它在准确率和损失之间达到了最佳的性能平衡。
1) 提出了一种元度量学习框架下的小样本故障诊断方法。考虑特征之间的相互影响,采用深度卷积神经网络提取无人机多通道信号的特征。在度量模块中引入余弦相似度,提高了小样本条件下的故障诊断精度。
2) 通过对带故障的无人机飞行日志数据进行预处理,构建出基于元学习的无人机小样本故障数据集,并在该数据集上对所提方法进行验证。结果表明,在查询样本数量为1、5和10个的情况下,针对9种健康状态的诊断问题,所提方法能分别达到87.56%、92.74%和92.96%的平均准确率。
3) 为降低模型对小样本的敏感性,提高模型的鲁棒性,提出基于自适应边际的损失函数,来对故障诊断模型进行约束,使其根据距离来优化度量学习效果。未来将对小样本条件下的跨域故障诊断问题展开进一步研究。
[1] ZHANG T C,CHEN J L,LI F D,et al.Intelligent fault diagnosis of machines with small &imbalanced data:A state-of-the-art review and possible extensions[J].ISA Transactions,2022,119:152-171.
[2] ZHANG A S,LI S B,CUI Y X,et al.Limited data rolling bearing fault diagnosis with few-shot learning[J].IEEE Access,2019,7:110895-110904.
[3] LI C J,LI S B,ZHANG A S,et al.A Siamese hybrid neural network framework for few-shot fault diagnosis of fixed-wing unmanned aerial vehicles[J].Journal of Computational Design and Engineering,2022,9(4):1511-1524.
[4] 苏浩,杨鑫,向玲,等.基于深度对比迁移学习的变工况下机械故障诊断[J].振动工程学报,2023,36(3):845-853.SU Hao,YANG Xin,XIANG Lin,et al.Mechanical fault diagnosis using deep contrastive transfer learning under variable working conditions[J].Journal of Vibration Engineering,2023,36(3):845-853.
[5] 徐易芸,马健,陈良,等.基于相似性度量迁移学习的轴承故障诊断[J].振动与冲击,2022,41(16):217-223.XU Yiyun,MA Jian,CHEN Liang,et al.A bearing fault diagnosis based on similarity measurement for transfer learning[J].Journal of Vibration and Shock,2022,41(16):217-223.
[6] SU H,XIANG L,HU A J,et al.A novel method based on meta-learning for bearing fault diagnosis with small sample learning under different working conditions[J].MechanicalSystems and Signal Processing,2022,169:108765.
[7] LI C J,LI S B,ZHANG A S,et al.Meta-learning for few-shot bearing fault diagnosis under complex working conditions[J].Neurocomputing,2021,439:197-211.
[8] 郭盼盼,张文斌,崔奔,等.基于增强深度卷积神经网络的滚动轴承多工况故障诊断方法[J].振动工程学报,2023:1-14.GUO Panpan,ZHANG Wenbin,CUI Ben,et al.Multi-condition fault diagnosis method of rolling bearing based on enhanced deep convolutional neural network[J]Journal of Vibration Engineering,2023:1-14.
[9] LI X,ZHANG W,DING D,et al.Intelligent rotating machinery fault diagnosis based on deep learning using data augmentation[J].Journal of Intelligent Manufacturing,2020,31:433-452.
[10] 林培,许杨剑,傅军平,等.基于1D-DCGAN和1D-CAE的小样本轴承故障跨域诊断方法[J].机电工程,2023,40(3):326-334.LIN Pei,XU Yangjian,FU Junping,et al.Cross domain diagnosis method for bearing faults with small samples based on 1D-DCGAN and 1D-CAE[J].Journal of Mechanical &Electrical Engineering,2023,40(3):326-334.
[11] 吕丞辉,程进军,胡阳光,等.基于多源域深度迁移学习的舵机在线故障诊断[J].兵器装备工程学报,2022,43(9):60-67.LYU Chenghui,CHENG Jinjun,HU Yangguang,et al.Online fault diagnosing of Rudders based on multisource domain deep transfer learning[J].Journal of Ordnance Equipment Engineering,2022,43(9):60-67.
[12] 柳雅倩,蔡浩原,李文宽,等.小样本条件下轴承故障的DCGAN诊断方法[J].振动.测试与诊断,2023,43(4):817-823,836.LIU Yaqian,CAI Haoyuan,LI Wenkuan,et al.DCGAN diagnosis of bearing faults under small sample conditions[J].Journal of Vibration,Measurement &Diagnosis,2023,43(4):817-823,836.
[13] XIONG P W,Li Z N,LI Y L,et al.Fault diagnosis of UAV based on adaptivesiamese network with limited data[J]IEEE Transactions on Instrumentation and Measurement,2023,72:3531711.
[14] ZHANG J R,YUAN M,CUI J,et al.A novel hierarchical training architecture for Siamese Neural Network based fault diagnosis method under small sample[J].Measurement,2023,215:112851.
[15] 吕丞辉,程进军,胡阳光,等.基于多源域深度迁移学习的舵机在线故障诊断[J].兵器装备工程学报,2022,43(9):60-67.LYU Chenghui,CHENG Jinjun,HU Yangguang,et al.Online fault diagnosing of rudders based on multi-source domain deep transfer learning[J].Journal of Ordnance Equipment Engineering,2022,43(9):60-67.
[16] 谢旭阳,余刃,王天舒,等.基于卷积神经网络和迁移学习的电动泵故障诊断方法研究[J].兵器装备工程学报,2021,42(7):239-245.XIE Xuyang,YU Ren,WANG Tianshu,et al.Fault diagnosis method for electric pump based on convolutional neural network and transfer learning[J].Journal of Ordnance Equipment Engineering,2021,42(7):239-245.
[17] ZHENG Z,FU J M,LU C Q,et al.Research on rolling bearing fault diagnosis of small dataset based on a new optimal transfer learning network[J].Measurement,2021,177:109285.
[18] HU T H,TANG T,LIN R L,et al.A simple data augmentation algorithm and a self-adaptive convolutional architecture for few-shot fault diagnosis under different working conditions[J].Measurement.2020,156,107539.
[19] 刘冰,李瑞麟,封举富.深度度量学习综述[J].智能系统学报,2019,14(6):1064-1072.LIU Bing,LI Ruilin,FENG Jufu,A brief introduction to deep metric learning[J].CAAI Transactions on Intelligent Systems,2019,14(6):1064-1072.
[20] SU N Q,LI X,ZHANG Q H.Fault diagnosis of rotating machinery based on wavelet domain denoising and metric distance[J].IEEE Access,2019,7:73262-73270.
[21] SU Z Q,ZHANG X L,HAN Y,et al.Adaptive gated attention network with weighted metric enhancement for fault diagnosis of wind turbine gearbox[J].IEEE Transactions on Instrumentation and Measurement,2023,72:3521008.
[22] YANG J,BAO W M,LIU Y P,et al.Class metric regularized deep belief network with sparse representation for fault diagnosis[J].International Journal of Intelligent Systems,2022,37(9):5996-6022.
[23] XU Z B,LI X J,LIN H,et al.Fault diagnosis of rolling bearing based on modified deep metric learning method[J].Shock and Vibration,2021,2021:6635008.
[24] KEIPOUR A,MOUSAEI M,SCHERER S.ALFA:A dataset for UAV fault and anomaly detection[J].International Journal of Robotics Research.2021,40(2):515-520.