近年来,红外与可见光图像融合技术一直是图像处理领域的研究热点之一。红外图像具有很强的穿透力,不受光照强度的影响,但缺乏纹理信息[1]。可见光图像包含丰富的结构信息,视觉效果较好,但易受天气、光照条件等因素的影响,抗干扰能力差[2]。由于2种图像不同的特点,因此,将红外与可见光图像进行融合,充分利用其信息的互补性,在军事作战、资源探测等领域有着广泛的应用价值[3]。
红外和可见光图像融合的发展历经:从基于显著性、空间变换、多尺度变换、稀疏表示等传统理念,到基于各种神经网络的现代深度学习方法[4]。传统方法的典型代表有基于多尺度变换的方法[5]和基于稀疏表示的方法[6];基于多尺度变换的方法是从源图像中提取多尺度特征,随后利用融合策略进行特征融合,最后通过解码器解码后进行重建融合图像。基于稀疏表示的方法则是先构建字典,通过字典获取表示系数,再利用融合策略获取融合系数,最后通过2种系数重构融合图像。传统方法相对较简单,融合图像相较于源图像信息丢失较严重。但是,传统方法的思想为深度学习在该领域的应用奠定了基础。
随着深度学习技术的成熟,该技术被红外与可见光图像融合领域所引进,使得融合图像质量大幅提升。基于深度学习的方法主要包括生成对抗网络、自编码器和卷积神经网络。近期,Tang等[7]在深度学习的基础上,以一种新的视角提出了首个结合高级视觉任务的图像融合框架,在追求评估指标提升的同时兼顾视觉感受。基于自编码器的方法首先通过编码器对源图像进行特征提取,随后对提取的特征进行融合,最后通过解码器重建融合图像。该方法最早在2017年由Prabhakar等人提出,虽然所提出的融合框架(DeepFuse)融合性能有所提高,但显著特征提取困难,细节信息丢失。随后,部分学者将密集块(Dense block)融入DeepFuse,提出了一种新的融合框架DenseFuse[8]。DenseFuse可以更好地提取显著特征,细节信息丢失大大减少。自此,基于自编码器的方法逐渐成熟起来。随着该方法的不断进步,效果也逐渐提升,但仍存在2个缺点:融合图像的目标不突出,细节丢失,视觉感受较差;融合图像不能很好地平衡红外与可见光信息,图像变灰变暗。
针对以上问题,提出了一种基于自编码器的红外与可见光图像融合算法。该算法的主要贡献有:
1) 将ECA(efficient channel attention,ECA)注意力机制嵌入进编码器中,在一定程度上增强了融合图像质量,提高了融合图像的指标。
2) 设计了CRN融合网络并将CBAM(convolutional block attention module,CBAM)注意力机制引入其中,CRN融合网络由LReLU(leaky relu,LReLU)激活函数与3×3卷积层叠加、Tanh块与1×1卷积层叠加、注意力机制CBAM、5×5卷积层组成。
所设计的融合网络在大幅度提升融合图像视觉感受的同时,也保留了更多源图像的细节信息。最后由解码器完成对融合特征图像的解码,重建出融合图像。
网络总体结构如图1所示。首先,将配准后的红外与可见光图像输入进编码器中,随后通过融合网络CRN进行特征融合,融合以后通过解码器进行图像重建。在图1中,Iir和Ivis为输入的红外图像与可见光图像,Of表示输出的融合图像。
图1 网络总体结构
Fig.1 Overall structure of network
所提算法采用双阶段训练方法,第1阶段训练编码器、解码器,第2阶段在第1阶段的基础上训练融合网络CRN。在第1阶段训练时,红外图像与可见光图像配准后成对送入编码器。输入图像首先由编码器进行编码并提取特征,最后由解码器进行解码重建图像。在第2阶段,直接使用第1阶段的参数权重来训练融合网络。为了提高融合图像的质量以及保留源图像的细节特征和热辐射信息,设计了4个CRN融合块来融合编码器所提取的多尺度深度特征。融合网络CRN简单、高效并且可学习。可以直接将其融合到编解码器结构中,减少了手工设计的麻烦。
编解码网络主要由编码器、解码器组成。编码器结构如图2所示,由卷积层和ECA注意力机制组成。编码器在4个尺度上对输入图像进行特征提取,以更好地获得浅层特征和深度特征。通过短跨层连接与ECA注意力机制相结合的方式,可以充分读取源图像的细节特征。在图2中,对于卷积层,“k×k,(in,out)”意味着内核大小为k×k,输入通道为in,输出通道为out。
图2 编码器结构
Fig.2 Structure of encoder
在编码器中引入ECA注意力机制,ECA注意力机制如图3所示。ECA是一个涉及参数少,但又能带来明显的性能提升。通过消融实验,该模块对提高融合图像质量具有重要意义。
图3 ECA注意力机制
Fig.3 Attention mechanism of ECA
解码器的详细结构如图4所示,解码块 (decoder block,DB)表示一个解码器卷积块,它有2个卷积层。在每一行中,这些块通过类似于密集块架构的短连接进行连接。除此之外,解码器结构还采取跨层连接,以保留更多的多尺度深层特征和源图像中的细节信息,网络的输出是多尺度特征重建后的融合图像。
图4 解码器结构
Fig.4 Structure of decoder
融合网络CRN结构如图5所示。图5中,Fir和Fvis分别代表编码器输出的红外特征图和可见光特征图,Ff代表融合网络融合后的特征图。融合网络主要由3×3卷积层和LReLU激活函数组成,通过LReLU激活后的模型能够更好地挖掘相关特征,拟合特征信息。在通过卷积层和LReLU激活函数后,引入注意力机制CBAM,该注意力机制可以同时在通道和空间维度上进行作用,因此将其无缝集成到融合网络中,与其一起进行训练。通过消融实验,该注意力机制对提高融合图像质量具有一定的作用。CBAM的详细结构如图6所示。
图5 融合网络图
Fig.5 The map of fusion network
图6 CBAM注意力机制
Fig.6 The attention mechanism of CBAM
为了保留更多融合图的细节信息,在融合网络部分使用了5×5卷积层直接读取红外与可见光图像源信息,将其同激活函数与卷积层读取的特征相互拼接,该操作提高了融合速度并且在一定程度上减少了信息丢失问题。最后将特征信息经过Tanh激活函数与1×1卷积层的组合处理后输出,该组合能够提高神经网络的拟合能力、学习效率和网络的表达能力。
所提算法的损失函数分为自动编码器损失函数和融合网络损失函数。
1.4.1 自动编码器损失函数
训练自动编码器网络的损失函数Lauto定义如下:
Lauto=Lpixel+100Lssim
(1)
式(1)中, Lpixel和Lssim表示输入图像与输出图像之间的像素损失和结构相似性损失。Lpixel损失由式(2)计算:
Lpixel=
(2)
式(2)中,是Frobenius范数。在像素级上重构图像与输入图像的相似性受Lpixel约束。Lssim损失由式(3)计算:
Lssim=1-SSIM(Output,Input)
(3)
其中,SSIM(·)是结构相似性度量,它量化了2幅图像的结构相似性。Input与Output之间的结构相似性受Lssim约束。
1.4.2 融合网络损失函数
CRN的训练旨在实施完全可学习的融合网络。在第2阶段,编码器和解码器固定的情况下,用适当的损失函数训练CRN。为了更好地训练CRN,使用损失函数LCRN,其定义为
LCRN=αLdetail+Lfeature
(4)
式(4)中,Ldetail和Lfeature分别代表背景细节保持损失函数和目标特征增强损失函数。α是一个权衡参数,由于融合后的图像大部分背景细节信息来自于可见光图像,因此α的值应该较大,通过参数设定实验设定为700。Ldetail的目的就是为了保留可见光图像中的细节信息和结构特征,其定义为
Ldetail=1-SSIM(0,Ivis)
(5)
由于红外图像比可见光图像包含更显著的目标特征,因此损失函数Lfeature被设计为限定红外与可见光的特征,以保留显著的目标特征。这个Lfeature定义为
(6)
式(6)中: M为融合网络的个数,设置为4。由于标尺之间的大小差异,w1为用于平衡损失幅度的权衡参数向量,设定它为{1,10,100,1 000},以平衡不同尺度下数量级的差异。wvi和wir控制融合特征图的红外特征和可见光特征的相对影响。由于可见光信息受Ldetail的约束,而Lfeature的目的是从红外图像中保留显著特征,因此在等式6中,wir通常比wvi大[9]。通过参数设定实验,wir和wvi设定为6.0和3.0。
在本节中,对所提的融合算法进行实验验证。在说明了实验基本设置后,进行了参数设定实验,然后对所引入的注意力机制和融合网络CRN进行了消融实验,充分说明所提算法的有效性。最后,将所提算法与其他现有的5种算法进行了对比,包括:文献[9]提出的红外和可见光图像的端到端残差融合网络(RFN-Nest)[9]、文献[10]提出的梯度转移与总变异最小法(GTF)[10]、文献[11]提出的融合对抗生成网络(FusionGAN)[11]、文献[12]提出的用于红外和可见光图像融合的深度图像分解(DIDFuse)[12]以及基于跨模态图像生成和配准的无监督错位红外和可见光图像融合(UMF-CMGR)。使用了7个指标来客观评价融合图像的质量,分别为:空间频率SF(spatial frequency,SF)、平均梯度AG(average gradient,AG)、标准差SD(standard deviation,SD)、相关系数CC(correlation coefficient,CC)、差异相关和SCD(sum of cross-correlation differences,SCD)、视觉保真度VIF(visual information fidelity,VIF)、峰值信噪比PSNR(peak signal to noise ratio,PSNR)[13]。
由于TNO数据集[14]中包含丰富的军事场景,例如,直升机、房屋、坦克、人物、森林、车辆等,TNO数据集十分符合红外与可见光图像融合领域的数据集需求,是该研究领域最具有权威的数据集。因此,训练集与测试集均来源于TNO数据集。通过数据集扩充的方法得到24 000对红外与可见光图像作为训练集。为了使得测试结果更加合理公平,选取42对图像作为测试集,并将所得结果取平均值。所提算法的实验环境使用Pytorch搭建,并在NVIDIA RTX3080 GPU上进行训练,初始学习率设置为0.000 1,batch_size设置为4,epoch 设置为4。
从本文1.4.2节可知,损失函数中α、wvi和wir的设定对实验结果有着直接的影响。在本小节中,讨论了α参数的设定并研究了可见光和红外特征的相对权重对融合性能的影响。由于以上3种参数仅仅对融合图像的纹理细节保留方面有较大影响。因此,本节仅在主观方面对细节保留程度进行比较。
为了保留红外图像的显著特征,wvi和wir应合理设置。由于Ldetail的存在,wvi应相对较小以减少重建图像时细节信息的冗余,wir应相对较大以保留红外图像中的显著特征。但是,如果wvi设置为0,就限制了可见光特征,所以,在实验中wvi设置为非零值。图7为在α=700时,wir与wvi不同组合的融合结果图。观察图7可发现,wvi与wir的设定对融合图像的影响较大,当wir不断增大时,红外目标越突出。wvi不断增大时,背景细节保留越多。当wir与wvi分别设定为6.0与3.0时,融合图像能够较好地保留可见光细节信息,也能够突出红外目标。因此,在接下来的实验中,wvi与wir分别设定为6.0与3.0。
图7 α=700的结果图
Fig.7 Results when α=700
对于参数α的选定,当α=0意味着LCRN=Lfeature,Ldetail将不存在,因此α不能设置为0。图8展示了当wir与wvi分别为6.0与3.0时,不同α值的融合结果图。从图8中可以看出,当α=700时,效果最好。虽然α=500时,红外目标突出,纹理细节保留也较好,但是橙色和黄色框里的细节保留较α=700稍差。
图8 不同α值的结果图
Fig.8 Results with different α
为了进一步说明α=700的优越性,图9展示了当α=0时,wvi与wir不同组合的融合结果图。虽然α=0时,融合结果也具有可比性,其融合结果在目标突出、细节保留方面表现也较好。但是,相对于图7中α=700时,表现稍差,尤其是黄色框里的纹理细节信息。因此在实验中α设定为700。
图9 α=0的结果图
Fig.9 Results when α=0
为了验证所引入的ECA与CBAM 2种注意力机制和融合网络CRN的有效性,本节对2种注意力机制和融合网络做了消融实验,实验结果如表1所示。在表1中,使用加粗字体标记出结果最好的数值,可以直观看出,除SD指标以外,其他指标均是添加了ECA注意力机制和融合网络CRN以后结果为最优。其中,ECA注意力机制对SF、AG有较大的提升作用,CRN对CC、SCD、VIF、PSNR有较大的提升作用,虽然所引入的CBAM注意力机制对SD指标有一定的损失,但是不可忽略其对其他指标的提升作用。综合来看,所设计的融合网络以及引入的2种注意力机制都有助于提升融合图片的质量。
表1 消融实验结果
Table 1 Results of the ablation experiment
SFAGSDCCSCDVIFPSNRNoCRN7.8842.87432.2000.5091.6810.49062.485NoCBAM6.9493.00136.2640.5261.7780.61362.625NoECA5.6892.58033.5830.5141.7030.50962.633All9.8783.96634.2130.5291.7860.63862.894
为了说明所提方法的有效性,本节将所提的算法与公开的5种算法进行客观与主观2方面对比。所选的5种对比算法,除GTF[10]为传统方法以外,RFN-Nest[9]、FusionGAN[11]、DIDFuse[12]、UMF-CMGR为深度学习的方法,并且均为近几年所公开的方法。
2.4.1 主观评价
图10选取了一张来自于TNO数据集中的篱笆在不同算法下的融合结果图。从图10中可以看出,GTF和FusionGAN 2种算法融合图像源信息丢失严重,尤其是源图中有关篱笆的信息。GTF算法亦没有保留可见光图像中的植被信息,DIDFuse算法融合后的图像相对较模糊,篱笆和植被的红外信息部分缺失,使得纹理边界不清晰。UMF-CMGR、RFN-Nest和所提算法融合图像质量相对较好。但从直观上可以观察出,RFN-Nest算法融合的图像由于红外信息保留较差,图像偏暗。UMF-CMGR算法可见光信息保留较差,整体偏亮。而所提算法均衡保留了红外与可见光信息,视觉感受最好。
图10 不同算法下的篱笆融合结果
Fig.10 Results about fence of different algorithms
为了更好地观察细节信息,图11选取了直升机在不同算法下的融合结果图。从直观上看有且仅有所提的算法能够较好保留背景信息,虽然DIDFuse也能保留背景信息,但是只有左下角的背景信息保留较好,其他部分的背景信息依旧丢失。除此之外,在红色框中的直升机起落架,UMF-CMGR算法下,起落架红外与可见光信息丢失都非常严重,直观上几乎观察不到有起落架的存在。GTF和FusionGAN算法下起落架红外信息丢失,因此起落架细节模糊,纹理不清晰。RFN-Nest算法下融合图像背景整体偏暗,背景信息不够清晰,因此从主观上所提算法更优。
图11 不同算法下直升机的融合结果
Fig.11 Results about helicopter of different algorithms
为了说明所提算法的普适性,从TNO数据集中再次选取2张具有典型代表性的图像在不同算法下进行融合,图12、图13为融合结果图。通过与其他算法的结果进行对比,从主观方面来说,所提方法融合后的图像目标清晰、细节突出、轮廓明显,更加符合人类视觉感受。
图12 不同算法下车辆与人的融合结果
Fig.12 Results about vehicles and people of different algorithms
图13 不同算法下人的融合结果
Fig.13 Results about people of different algorithms
2.4.2 客观评价
为了更好地验证所提出的算法有效性,选取了RFN-Nest、GTF、FusionGAN、DIDFuse、UMF-CMGR 5种具有代表性的算法和SF、AG、SD、CC、SCD、VIF、PSNR 7种客观评价指标来进行客观评价。所选用的7种评价指标均为数值越大图像质量越好。为了保证数值的公平性与可靠性,从TNO数据集选取42对具有典型代表的图像作为测试集,并且对42张图片测得结果取平均值,以此验证所提方法的有效性。这类方法在一定程度上消除了人的主观因素,评价的结果更加客观[15]。实验结果如表2所示。
表2 红外与可见光图像融合效果评价
Table 2 Evaluation of the fusion effect of infrared and visible images
SFAGSDCCSCDVIFPSNRGTF8.9633.27741.3280.3420.9700.52061.257DIDFuse7.6032.98930.4340.5121.6540.59263.885RFN-Nest5.8742.66936.8970.5231.7840.55962.193FusionGAN6.2752.42130.6630.4401.3790.42260.979UMF-CMGR8.1752.97329.9690.5071.6350.59563.865Ours9.8783.96634.2130.5291.7860.63862.894
为了能够更加清晰地分析表2中的评价指标数据,用加粗标记出排名第1的数值。使用的7种评价指标中,所提出算法有5种指标排名第1,2种指标排名第3。由于所使用的框架、设计的融合网络以及所引入的注意力机制的局限性,对指标PSNR的改善不如UMF-CMGR和 DIDFuse算法,但是对其他指标的提升十分显著。其中,SF较第2名提升了10.2%,AG较第2名提升了21%,VIF较第2名提升了7.2%。因此,所提方法从客观方面来看,也具有一定的优越性。
1) 在编码器中和融合网络引入ECA和CBAM注意力机制,提高了融合图像的客观评价指标;
2) CRN融合网络在一定程度上解决了纹理细节信息丢失以及红外与可见光信息保留平衡问题;
3) 相较于现有的融合算法,所提算法具有更好的视觉感受。
实验结果表明:所提方法融合后的图像评价指标提升显著,目标清晰、细节突出、轮廓明显,符合人类视觉感受。后续将继续对融合网络的结构、损失函数、编解码的结构进行优化设计,以达到更好的融合效果。
[1] JI J Y,ZHANG Y F,ZHANG Y H,et al.Infrared and visible image fusion of generative adversarial network based on multi-channel encoding and decoding[J].Infrared Physics and Technology,2023,134:104853.
[2] 陈潮起,孟祥超,邵枫,等.一种基于多尺度低秩分解的红外与可见光图像融合方法[J].光学学报,2020,40(11):72-80.CHEN Chaoqi,MENG Xiangchao,SHAO Feng,et al.Infrared and visible image fusion method based on multiscale low-rank decomposition[J].Acta Optica Sinica,2020,40(11):72-80.
[3] 夏景明,陈轶鸣,陈轶才,等.基于稀疏表示和NSCT-PCNN的红外与可见光图像融合[J].电光与控制,2018,25(6):1-6.XIA Jingming,CHEN Yiming,CHEN Yicai,et al.Fusion of infrared and visible images based on sparse representation and NSCT-PCNN.[J].Electronics Optics &Control,2018,25(6):1-6.
[4] 陈玲,许钢,伏娜娜,等.融合边缘检测的3D点云语义分割方法研究[J].重庆工商大学学报(自然科学版),2022,39(5):1-9.CHEN Ling,XU Gang,FU Nana,et al.Research on 3D point cloud semantic segmentation method fused with edge detection[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2022,39(5):1-9.
[5] LI S T,YANG B,HU J W.Performance comparison of different multi-resolution transforms for image fusion[J].Information Fusion,2010,12(2):74-84.
[6] ZONG J J,QIU T S.Medical image fusion based on sparse representation of classified image patches[J].Biomedical Signal Processing and Control,2017,34(10):195-205.
[7] TANG L F,YUAN J T,MA J Y.Image fusion in the loop of high-level vision tasks:A semantic-aware real-time infrared and visible image fusion network[J].Information Fusion,2022,82(7):28-42.
[8] LI H,WU X.A Fusion Approach to Infrared and Visible Images[J].IEEE Transactions on Image Processing,2019,28(5):2614-2623.
[9] LI H,WU X J,KITTLER J.RFN-Nest:An end-to-end residual fusion network for infrared and visible images[J].Information Fusion,2021,73(1):72-86.
[10] MA J Y,CHEN C,LI C,HUANG J.Infrared and visible image fusion via gradient transfer and total variation minimization[J].Information Fusion,2016,31(3):100-109.
[11] MA J Y,YU W,LIANG P W,et al.FusionGAN:A generative adversarial network for infrared and visible image fusion[J].Information Fusion,2019,48(12):11-26.
[12] ZHAO Z,XU S,ZHANG C,et al.DIDFuse:a deep image decomposition for infrared and visible image fusion[C]//Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence,2020:970-976.
[13] 孙彬,高云翔,诸葛吴为,等.可见光与红外图像融合质量评价指标分析[J].中国图象图形学报,2023,28(1):144-155.SUN Bin,GAO Yunxiang,ZHUGE Wuwei,et al.Analysis of quality objective assessment metrics for visible and infrared image fusion. Journal of Image and Graphics,28(1):144-155.
[14] TOET A.The TNO multiband image data collection[J].Data in Brief,2017(15):249-251.
[15] 张冬冬,王春平,付强.深度学习框架下的红外与可见光图像融合算法综述[J].激光与红外,2022,52(9):1288-1298.ZHANG Dongdong,WANG Cunping,FU Qiang.Overview of infrared and visible image fusion algorithms based on deep learning framework[J].Laser &Infrared 2022,52(9):1288-1298.