RAW图像是指直接从图像传感器获取的输出图像,通过采集芯片CCD/CMOS形成电流信号,再由转换器转换为数字信号而获取的数字文件[1]。因为其包含了来自图像传感器的最原始的视觉信息,没有经过任何压缩与处理,所以最大限度地保留了场景的视觉细节。使得RAW图像对强调细节判别和小目标分析等应用尤为重要[2],如对图像质量要求极高的医学研究、空间探测、商业印刷、目标跟踪和监控以及超分辨分析等领域具有广泛的应用。但也由于RAW图像信息直接来自图像传感器,不可避免地存在更大程度的噪声,如暗电流噪声、热噪声、散粒噪声、量化噪声等[3];同时由于RAW图像没有进行色彩处理和平场校正,存在图像整体偏暗,对比度不足,不同区域的亮度可能不一致等问题[4-5]。这些问题会导致图像视觉质量的明显下降[6],影响后续对RAW图像进一步应用。
近些年来,基于深度学习的图像去噪算法远远超越传统的降噪方法,比较经典的算法模型有DnCNN[7]、FFDNet[8]、CBDNet[9]等。DnCNN模型使用CNN进行了盲降噪的开创性工作,采用残差学习和批归一化提高泛化能力,以结构简明、模型轻量、效果优越成为经典方法,常被引用改进,但仍存在过度平滑的技术欠缺。CBDNet采用编码器-解码器结构进行改进,有效防止了过度平滑,但是结构较复杂、运算量大。FFDNet在DnCNN基础上,引入了反卷积层增强高频细节,但整体降噪效果不如CBDNet。
RAW图像中的噪声相对复杂,既包含随机的加性噪声,同时也存在与信号相关的乘性噪声,而RAW图像的偏暗与对比度不足使得噪声变得更加复杂多样。盲降噪即在噪声未知的情况下,对噪声图像进行图像复原操作。与常用降噪算法相比,盲降噪更适合处理图像含有复杂噪声的情况,因此更适合RAW图像的降噪处理。
本文提出了一个RAW图像盲降噪算法DnCNN-IID(denoising convolutional neural network with image inversion and down-sample,DnCNN-IID),其中DnCNN为本模型的基础算法,IID表示在基础算法上的改进,II表示反通道(image inversion),D表示下采样(down-sample)。算法通过数据集的反通道增强,不仅可以提高模型对各种颜色和颜色变化的鲁棒性,同时凸显图像中的噪声信息;通过加入下采样的网络改进,利用子图像降低网络运算量,此外也能够保留关键特征的同时,扩大感受野[10],使模型更好地理解图像或特征之间的空间关系和上下文信息,进而更好地处理RAW图像中的真实噪声。
RAW图像的真实噪声分为信号相关噪声与信号不相关噪声[11],与高斯噪声有很大不同。由于CNN的泛化能力在很大程度上取决于记忆训练数据的能力[12],用真实的噪声模型对无噪声的数据集进行处理,CNN的记忆能力将有助于使学习的模型参数能很好地处理存在真实噪声的图像。下面对噪声模型和DnCNN网络进行介绍。
信号相关噪声主要是散粒噪声,噪声随信号的增大而变大,可以使用泊松分布来模拟;信号不相关噪声主要是随机噪声,信号增大噪声没有明显变大,符合高斯分布。2019年Guo[9]等针对成像过程(ISP)中的真实噪声进行分析并提出了噪声仿真模型。
在噪声模型中,使用异方差泊松-高斯模型(n(L)~N(0,σ2(L))模拟图像中的基本噪声,其噪声定义为
σ2(L)=L·σs2+σc2
(1)
公式(1)也可简化为n(L)=ns(L)+nc,其中L为原始图像,ns(L)为信号相关噪声分量,nc为平稳噪声分量。
模型中考虑了ISP的2个主要步骤,即马赛克和Gamma校正,真实的噪声模型在公式(1)的基础上进一步处理,噪声模型定义为
y=f(DM(L+n(L)))
(2)
式(2)中:y为合成噪声图像; f(·)[13]为摄像机响应函数(CRF);DM(·)为反马赛克函数[14]。
DnCNN模型是由Kai Zhang等人于2016年提出的基于神经卷积网络的图像去噪模型。 DnCNN首次在降噪领域结合残差学习与BN[15](batch normalization),并证明了残差学习[16]可以大幅度加快降噪的收敛速度,其网络架构如图1所示。
图1 DnCNN网络架构
Fig.1 Structure of DnCNN
DnCNN网络共有17层,可分为3个部分。第1部分是第1层输入图像的提取特征层,通过Conv+ReLU[17],将图像噪声特征提取出来;第2部分为中间的15层,在卷积与激活函数的基础上加入了BN来提高去噪性能,加快训练速度;第3部分为最后一层,通过卷积合并特征层,最后输出为噪声的残差图,将输入图像与输出图像相减,得到去噪后的图像。DnCNN对高斯噪声具有较好的去除效果,但模型处理速度慢,难以实现实时去噪,对于信号相关噪声处理较为乏力。
本文提出一种改进网络DnCNN-IID(denoising convolutional neural network with image inversion and down-sample,DnCNN-IID)。该网络为盲降噪模型,并对输入图像进行反通道操作,提高模型对各种颜色和颜色变化的鲁棒性,同时凸显图像中的噪声信息;加入图像与噪声下采样,提高网络计算效率的同时扩大感受野,增大神经元对输入的感知范围,从而更好的处理信号相关噪声。
DnCNN-IID模型结构如图2所示。模型的输入图像X经过反通道函数II(X)处理,与原始图像X共同输入到下采样模块(down-sample block)与改进的DnCNN-m模块2个部分。其中II(X)函数公式为
II(X)=(T(max(L))-X)γ
(3)
图2 DnCNN-IID模型结构
Fig.2 Structure of DnCNN-IID
式(3)中:X为输入图像;T为与X形状相同的矩阵。对T矩阵中的每一个像素点L取最大值,对T与X做矩阵减法后的结果进行系数为γ的幂律变换提升对比度,即输入图像的反通道图像。
下采样模块又可以分为图像下采样子块与噪声下采样子块,图3为图像下采样的详细结构。
图3 图像下采样结构
Fig.3 Structure of image down-sample
图3中通过4×4的矩阵展示了图像下采样过程,图像首先经过reshape升高矩阵维度,获得尺寸的矩阵,再通过transpose对矩阵的坐标轴进行交换,从而改变图像像素的排列,最后通过reshape获得四通道的尺寸为的图像。这种下采样方法不仅可以提升模型处理速度、扩大感受野,而且不会丢失原图像中任何一个像素,将图像信息完整保存到后续处理中。噪声下采样子网络结构主要是通过通道数为32的4个卷积层对输入图像进行卷积,从而获得自适应噪声水平层的。
图2中输入图像与反通道处理后的图像并行进入图像下采样子块与噪声下采样子块后,两者输出进行通道连接,输入到DnCNN-m模块中获得去噪后的4通道子图,最终通过上采样获得去噪图像。图2展示了DnCNN-m模型的结构,与图1中介绍的结构略有不同。由于下采样过程中已经获得了自适应噪声层,DnCNN中并不需要生成噪声残差再与原图相减,而是通过输入的5层子图后直接输出4张去除噪声的子图。鉴于无残差约束过多的BN会导致模型精度下降,本模型中只在这17层中的第2层与第16层加入了BN,防止过拟合与梯度消失的问题。
MSE函数是去噪算法中较为常用的损失函数,其优点有函数曲线光滑、连续,在取值范围内处处可导,便于使用梯度下降法。为了从网络中获得最优参数解,本文损失函数采用MSE均方误差函数,其公式为
(4)
式(4)中: f(Xi)为第i幅图像输入到网络后的输出图像; Yi为无噪声真值图; n为图像数量。MSE即为全部图像与真值图像相减的平方和与图像数量相除的平均值。随着均方误差的减小,梯度也在减小,这有利于收敛,配合Adam优化器[18]可以使网络模型能较快收敛到最小值。
实验使用开源的百度飞桨PaddlePaddle开放平台,框架版本为2.2.2,Python版本为3.7,在百度飞桨AI Studio环境下GPU服务器上进行。
本文实验数据集包括旷世平台2022年小模型盲降噪竞赛提供的RAW图像数据集[19],以及2个常用图像质量数据集BSD500数据集[20]与Ex/600数据集[21]。
RAW图像数据集包含8 192对256×256的图像。BSD500数据集是伯克利大学Computer Vision Group提供的数据集,包含200张训练图、200张测试图和100张验证图。 Ex/600是从文献[21]数据集中原始自然图像选取的1 600个偏暗的数据图像。2组数据集通过上述的噪声模型给各组数据添加模拟真实噪声。
图4展示了数据集的样例图像,图4中:1、2行分别展示了BSD500数据集无噪声图像与加入模拟真实噪声图像;3、4行分别展示了Ex/600数据集无噪声图像与加入模拟真实噪声图像;5、6行分别展示了RAW数据集在同一场景下采集的噪声图像与噪声明显更小的图像。
图4 数据集样例展示
Fig.4 Sample data set presentation
在实验中,BSD500数据集与Ex/600、RAW数据集划分比例保持一致,划分比例为7∶2∶1,BSD500与Ex/600图像尺寸为380×420,RAW图像尺寸为256×256。数据集配置信息见表1。网络训练的epoch设置为300,过程中采用了Adam优化器,学习率设置为0.001,权重衰减设置为0.000 1。
表1 数据集配置
Table 1 Dataset configuration
数据集训练集测试集验证集总计BSD50035010050500Ex/60011203201601 600RAW5 7341 6388208 192
本文使用的评价指标是降噪算法中经常使用的3个指标为结构相似性[22](structural similarity,SSIM)、峰值信噪比(peak signal to noise ratio,PSNR)与MSE均方误差。SSIM与PSNR的计算公式分别为:
(5)
(6)
式(5)中:x与y分别是输出图像与真值图像;μxμy分别是x与y的平均值;与σxy分别是x与y的方差与协方差;c1与c2是用来稳定的常数。在3个评价指标中,由于SSIM指标评价图像质量上更能符合人类的视觉特性,因此本次实验以SSIM为主要评价指标。
由于RAW图像存在亮度偏暗的问题,为了加强模型对不同亮度图像去噪能力,训练之前需要进行反通道增强。首先对数据集图像进行取反操作,将图像转换到亮度较高的灰度区域。但对图像取反后,图像像素分布会集中于亮度较高的区域,干扰模型的训练效果,为了进一步强化反通道图像在不同光照度下的效果,需要对反通道图像进行γ=1.5的幂律变换,使数据集图像的像素值变换到易于后续网络学习的像素区域,其中γ值的确定是通过改变γ值并进行实验测试决定的,不同γ值的实验结果如表2—表4所示。
表2 BSD500中不同γ值下的评价指标差异
Table 2 Quantitative results for different value of γ in BSD
γ系数SSIMPSNRMSE(1×10-4)0.90.930 433.578 58.384 81.10.938 434.465 86.788 51.30.939 234.597 46.784 61.50.941 034.781 06.480 81.70.938 934.614 76.778 91.90.929 833.812 28.007 2
表3 Ex/600中不同γ值下的评价指标差异
Table 3 Quantitative results for different value of γ in Ex/600
γ系数SSIMPSNRMSE(1×10-4)0.90.933 731.894 311.177 81.10.941 932.827 79.184 71.30.936 432.024 310.477 11.50.942 032.867 29.065 81.70.942 532.946 68.943 41.90.932 831.910 311.067 9
表4 RAW中不同γ值下的评价指标差异
Table 4 Quantitative results for different value of γ in RAW
γ系数SSIMPSNRMSE(1×10-4)0.90.998 152.166 21.235 41.10.998 252.190 21.227 81.30.998 152.088 21.251 31.50.998 152.093 11.248 11.70.998 152.155 81.228 01.90.998 051.972 11.283 3
表中数据是在3个数据集上分别实验得到的,在只改变γ的前提下,使用DnCNN-IID模型进行实验。加粗标出的是表中指标的最优值,可以看到在3个表中γ值分别为1.5、1.7与1.1时,3个评价指标均达到了最大,因此在3个数据集上消融实验与对比实验中图像增强γ均使用1.5,1.7与1.1。
为了验证反通道图像增强与下采样模块的有效性及其对模型提升的幅度,在本小节中以DnCNN为基础模型,在3个数据集上分别进行消融实验。表5展示了在不同数据集上进行消融实验的评价指标情况。在3个数据集上,第1行是基础模型DnCNN实验结果,第2行与第3行分别为加入反通道与下采样模块的实验结果,第4行是同时加入反通道与下采样模块的结果。
表5 消融实验
Table 5 Ablation experiments
数据集反通道下采样模块SSIMPSNRMSE(1×10-4)BSD5000.923 734.562 36.801 70BSD5000.931 235.379 26.574 60BSD5000.940 934.829 56.505 90BSD5000.941 034.781 06.480 80Ex/6000.936 633.834 39.707 80Ex/6000.941 234.118 79.125 50Ex/6000.939 232.378 99.341 80Ex/6000.942 532.946 68.943 40RAW0.997 851.493 70.153 06RAW0.998 051.856 70.127 85RAW0.998 051.542 50.314 55RAW0.998 252.190 20.122 78
从表5中可以看到,通过BSD500数据集的第2、3行可以看出,反通道增强与下采样的加入可以使3个评价指标皆有所提升,Ex/600数据集上,虽然PSNR在加入下采样模块后有所下降,但在评价指标SSIM与MSE均是有所提升。2个数据集的第4行,同时加入反通道与下采样模块后,SSIM与MSE指标均达到了实验数据中的最优。在RAW数据集上加入反通道与下采样模块在3个评价指标上均达到了最优。
对比3个数据集的评价指标,可以发现3个数据集上的消融实验基本具有一致性。尤其在RAW图像上,本文模型中反通道增强与下采样模块具有重要的性能提升作用。
进一步分析DnCNN-IID模型的增强效果,本小节中将对比DnCNN-IID模型与另外5种模型的评价指标与预测效果图。5种模型包括DnCNN[7]、ID-CNN[23]、CBDNet[9]、ADNet[24]以及NAFNet[25],实验结果见表6—表8。表中的各类模型方法,都是参照对应论文中的参数与结构进行设置并训练。对于评价指标,除了已经介绍过的3个评价指标峰值信噪比(PSNR)、结构相似指数(SSIM)、均方误差(MSE)外,还加入了新的评价指标测试集运行时间(Test Time)。其中结构相似指数(SSIM)与峰值信噪比(PSNR)是用来衡量2幅图像相似度与去噪图像与衡量真值图像之间的差异的指标,数值越高越好;均方误差(MSE)则是越小越好。测试集运行时间(Test Time)即指模型在表格对应数据集的测试集上测试的时间。通过Test Time指标可以对模型的参数量级与运行效率进行评价。
表6 数据集BSD500上不同模型评价指标差异
Table 6 Quantitative results for various experiments on BSD500
评价指标模型DnCNNID-CNNCBDNetADNetNAFNetDnCNN-IIDSSIM0.923 70.913 50.929 10.901 20.928 30.941 0PSNR34.562 334.034 533.548 933.364 934.556 234.781 0MSE(1×10-4)6.801 79.838 5 9.611 28.293 87.233 86.480 8Test Time/s6.797 34.353 25.368 36.669 935.369 73.556 8
表6—表8评价指标中,加粗标注为最优结果。从表6与表8可以看出,在BSD500与RAW数据集上,本文所提出的DnCNN-IID模型在所有评价指标上均达到了最优;在表7中的Ex/600数据集上,本文算法也在SSIM与MSE上取得了最优,在Test Time上达到次优,PSNR上略低于最优指标,但也达到了较好的结果。
表7 数据集Ex/600上不同模型评价指标差异
Table 7 Quantitative results for various experiments on Ex/600
评价指标模型DnCNNID-CNNCBDNetADNetNAFNetDnCNN-IIDSSIM0.936 60.859 50.937 00.921 30.929 90.942 5PSNR33.834 327.610 033.436 732.282 533.040 032.946 6MSE(1×10-4)9.707 839.620 89.991 49.759 7 9.718 08.943 4Test Time/s8.078 46.281 56.407 17.492 644.212 16.328 7
表8 数据集RAW上不同模型评价指标差异
Table 8 Quantitative results for various experiments on RAW
评价指标模型DnCNNID-CNNCBDNetADNetNAFNetDnCNN-IIDSSIM0.997 80.997 30.998 00.996 50.995 80.998 2PSNR51.493 750.487 551.704 349.615 147.586 252.190 2MSE(1×10-4)1.530 61.809 21.284 52.219 03.319 11.227 8Test Time/s8.864 07.568 08.774 08.262 051.984 07.351 0
图5—图7为BSD500 、Ex/600与RAW数据集上各算法的视觉处理结果对比。图5中,每张图像的右下角放大显示了红色框中的天空区域,绿色虚线框为图像文字部分,从细节对比中可以看出,本文DnCNN-IID与CBDNet的天空噪声处理更为清晰,文字边缘与结构保存完好。图6中为亮度较高的图像,算法训练过程前经过图像增强处理,DnCNN-IID模型处理的图像亮度与其他算法模型相比更贴近真值图像。图7为RAW数据集中较暗的图像,由于加入了图像增强,各算法对图像亮度都有一定的提升,而DnCNN-IID的处理效果显然与真值图像更为贴近,且文字部分更加清晰。
图5 BSD500数据集中不同算法处理效果图例展示
Fig.5 Illustration of processing effects of different algorithms in BSD500 dataset
图6 Ex/600数据集中不同算法处理效果图例展示
Fig.6 Illustration of processing effects of different algorithms in Ex/600 dataset
图7 RAW数据集中不同算法处理效果图例展示
Fig.7 Illustration of processing effects of different algorithms in RAW dataset
通过3个数据集的对比分析,可以看出本文模型DnCNN-IID处理的图像亮度更贴近真值,噪声平滑效果与边缘保存也要更好,视觉效果在对比算法中达到最优。综合评价指标与视觉效果,DnCNN-IID在总体上相比其他对比算法,效果达到了最优。
由于RAW图像是直接从图像传感器获取的输出图像,同时存在亮度偏暗且会产生加性噪声与乘性噪声影响图像的视觉质量以及更进一步的应用。本文在基于DnCNN网络基础上,提出了改进的模型,称为DnCNN-IID。通过对RAW图像特性进行分析,在模型中采用反通道技术对图像进行增强,以提高图像的对比度并突出细节和边缘,同时还强调了噪声的特征信息。为了提高网络的处理效率,进一步引入了图像下采样,并扩大了网络的感受野,这样可以提高模型对输入图像全局信息的感知能力,并增强对真实噪声的处理能力。通过这些改进,本文模型能够更好地应对噪声图像处理的挑战。在实验中使用RAW数据集以及通过噪声模型增加噪声的BSD500、Ex/600数据集上进行消融实验与对比试验,证明了本文模型处理RAW图像真实噪声中评价指标与视觉效果都具有一定优势。
[1]张韶辉,胡摇,曹睿,等.光场成像原理及应用技术[J].兵器装备工程学报,2020,41(2):178-186.ZHANG Shaohui,HU Yao,CAO Rui,et al.Principle and applications of light field imaging[J].Journal of Ordnance Equipment Engineering,2020,41(2):178-186.
[2]李峰,印蔚蔚.基于Raw格式图像的自动白平衡方法[J].计算机工程,2011,37(17):211-213.LI Feng,YI Weiwei.Automatic white balance method based on raw format image[J].Computer Engineering,2011,37(17):211-213.
[3]李轩,侯正信,徐宏宇,等.CMOS图像传感器噪声抑制方法研究[J].计算机工程与应用,2011,47(8):167-169.LI Xuan,HOU Zhengxin,XU Hongyu,et al.Denoise method study on CMOS image sensor[J].Computer Engineering and Applications,2011,47(8):167-169.
[4]徐少平,刘婷云,罗洁,等.图像质量感知的混合噪声快速盲降噪算法[J].计算机研究与发展,2019,56(11):2458-2468.XU Shaoping,LIU Tingyun,LUO Jie,et al.An image quality aware fast blind denoising algorithm for mixed noise[J].Journal of Computer Research and Development,2019,56(11):2458-2468.
[5]谢杰成,张大力,徐文立.小波图象去噪综述[J].中国图象图形学报,2002,7(3):209-217.XIE Jiecheng,ZHANG Dali,XU Wenli.Overview on wavelet image denoising[J].Journal of Image and Graphics,2002,7(3):209-217.
[6]陈员义,杨文福,周祥明,等.基于改进R-L算法的运动模糊图像复原方法研究[J].兵器装备工程学报,2020,41(10):228-232.YANG Yuanyi,YANG Wenfu,ZHOU Xiangming,et al.Research of motion blur image restorationmethod based on improved R-L algorithm[J].Journal of Ordnance Equipment Engineering,2020,41(10):228-232.
[7]ZHANG K,ZUO W M,CHEN Y J,et al.Beyond a gaussian denoiser:residual learning of deep CNN for image denoising[J].IEEE Transactions on Image Processing:A Publication of the IEEE Signal Processing Society,2017,26(7):3142-3155.
[8]ZHANG K,ZUO W M,ZHANG L.FFDNet:toward a fast and flexible solution for CNN based image denoising[J].IEEE Transactions on Image Processing,2018,27(9):4608-4622.
[9]GUO S,YAN Z F,ZHANG K,et al.Toward convolutional blind denoising of real photographs[C]//Proc.of the IEEE Conference on Computer Vision and Pattern Recognition,2019:1712-1722.
[10]张一铭,赵生福,郑鑫,等.D2SE-CNN:改进的SAR图像相干斑抑制算法[J].兵器装备工程学报,2022,43(11):103-111.ZHANG Yiming,ZHAO Shengfu,ZHENG Xing,et al.D2SE-CNN:An improved SAR image despeckling network[J].Journal of Ordnance Equipment Engineering,2022,43(11):103-111.
[11]LIU X H,MASAYUKI T,MASATOSHI O.Practical signal dependent noise parameter estimation from a single noisy image[J].IEEE Transactions on Image Processing:A Publication of the IEEE Signal Processing Society,2014,23(10):4361-4371.
[12]CHARLES H M,MICHAEL W M.Rethinking generalization requires revisiting old ideas:statistical mechanics approaches and complex learning behavior[EB/OL].https://www.semanticscholar.org/reader/0a2c983595ced223b6d29e9408,2017-10-26/2023-09-25.
[13]GROSSBERG M D,NAYAR S K.Modeling the space of camera response functions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE,2004,26:1272-1282.
[14]MALVAR H S,LI W H,CUTLER R.High-quality linear interpolation for demosaicing of Bayer-patterned color images[C]//Proc.of the 2004 IEEE International Conference on Acoustics,Speech,and Signal Processing,2004:485.
[15]IOFFE S,SZEGEDY C.Batch normalization:Accelerating deep network training by reducing internal covariate shift[C]//Proc.of the International Conference on Machine Learning,2015:448-456.
[16]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[C]//Proc.of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[17]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Imagenet classification with deep convolutional neural networks[C]//Proc.of the Advances in Neural Information Processing Systems,2012:1097-1105.
[18]KINGMA D,BA J.Adam:A method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations,2015.
[19]Meg工作室.2022年小模型盲降噪RAW数据集[EB/OL].https://studio.brainpp.com/dataset/3736,2023-09-25.
[20]MARTIN D,FOWLKES C,TAL D,et al.A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings Eighth IEEE International Conference on Computer Vision,2001:416-423.
[21]MA Kede,WU Qingbo,ZHOU Wang,et al.Waterloo exploration database:New challenges for image quality assessment models[J].IEEE Transactions on Image Processing,2017,26:1004-1016.
[22]ZHOU W,BOVIK A C,SHEIKH H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[23]WANG P Y,ZHANG H,PATEL V M.SAR image despeckling using a convolutional neural network[J].IEEE Signal Processing Letters,2017,24(12):1763-1767.
[24]TIAN C W,XU Y,LI Z Y,et al.Attention-guided CNN for image denoising[J].Neural Networks,2020,124:117-129.
[25]CHEN Liangyu,CHU Xiaojie,ZHANG Xiangyu,et al.Simple baselines for image restoration[C]//Proc.of the European Conference on Computer Vision,2022:17-33.