迷彩设计是通过将提取的背景颜色、纹理、亮度等特征信息进行分形、聚类、融合后形成具有一定斑点形状和多种颜色亮度对比的图案,达到分割、歪曲目标外形的伪装效果。目前的迷彩设计受喷涂作业的影响,大多根据地域背景特点聚类成亮度差异明显的3种或4种颜色,斑点形状和尺寸主要考虑观测距离、目标特性、人眼分辨率、伪装效果等因素,设计为大斑点迷彩、小斑点迷彩、数码迷彩等几种形式[1-2]。基于数字图像处理技术及计算机视觉技术基础上设计的变形迷彩[3]、仿造迷彩[4]、立体动态数码迷彩[5-6]、仿生迷彩[7]在图像生成效率及伪装效果方面有很大的提升,但都难以做到与背景图像高度匹配,更不能根据自然环境变化快速形成高融合背景的迷彩图案[8]。
生成对抗网络[9](generative adversarial networks,GAN)是一种无监督算法生成数据的深度神经网络架构,通过生成器G(Generator)和判别器D(Discriminator)的互相博弈,在训练过程中两个网络达到动态平衡,使得生成的图像更逼真。生成对抗网络可应用于构建高融合迷彩伪装模型,对抗网络的判别器类比于光学侦察,努力发现目标与背景的特征差异,对抗网络的生成器类比于迷彩伪装,努力减小目标与背景的特征差异,在两者博弈的过程中,目标与背景的光学特征差异越来越小,逐渐趋近于完全融合。深度卷积生成对抗网络[10](DCGAN)在图像生成和数据增强方面有优异的表现,并已在机器识别、计算机视觉等相关领域有广泛的应用。本文运用改进目标函数的DCGAN网络,克服GAN在特征提取过程中无针对性,生成的图像颜色布局随意,主要颜色失真度较高,图像结构难以保持稳定的缺点,使自主生成的图像与背景特征高度相似,在对抗中提高生成器和判别器能力,使生成的图像与背景图像特征更接近。滕旭等[11]将循环一致生成对抗网络应用于数码迷彩设计,且采用不同激活函数组合比较取得了较好的图案设计效果,但其生成的图像颜色失真度较大,没能解决迷彩伪装中最关注的难点问题。
本文采用深度卷积生成对抗网络,通过构建特征空间,改进生成对抗网络的目标函数,优化生成对抗网络算法,建立目标与背景图像之间特征相似度的数学模型,自主对抗训练不同背景的图像特征数据,形成与该背景特征高度匹配的相似图像,将背景中的目标区域设计成背景图像的一部分,从而达到完美的伪装设计效果。现有的喷墨打印装置,可将设计的迷彩图像输入计算机,在目标表面逼真复制还原图像,实现高融合迷彩伪装。
为了进一步提升DCGAN在纹理提取、颜色转换上的效率,通过扩展损失函数的维度,运用Vgg16进行特征提取,经过训练生成高融合迷彩设计方案,再利用结构损失函数和心理物理学实验进行模型评估,达到纳什均衡终止训练。
一般网络识别的图像为关于二维平面空间信息的分布函数,伪装技术中对背景的平面图像仿造除关注纹理、形状等二维空间信息,尤其重视可见光波段的颜色信息,因此本文构造具有坐标空间(x,y)和颜色空间(r,g,b)信息的五维特征空间的图像分布函数p(x,y,r,g,b)和q(x,y,r,g,b)进行计算,本文为描述方便,以x或z代表图像特征空间的五维信息。在迷彩伪装设计中,一定区域内的背景图像颜色相似度高(色差小)的色空间合并,而差距大于一定阈值的颜色区域不能合并,合并后的颜色取均值或者中值,保证最后呈现出的颜色符合心理物理学规律,这种方法称为颜色聚类,不是类内的点就成了影响颜色的“杂质”。
任意选取一个矩形区域,以其中一点为球心,hr为颜色阈值半径,r表示颜色空间,(i,k)表示矩形区域中该点的坐标,当区域内任一点xn满足时,点落在球外,该点忽略,当xn满足时,该点落在球内,若满足条件的点为{n1,n2,…,Nk},可求出矩形区域中的颜色聚类中心,式(1)~式(2)为质心计算公式。利用质心公式去除一定空间区域内的颜色“杂质”,通过合理控制颜色阈值hr的大小,可以对颜色进行聚类。
(1)
(2)
其中,Nk表示矩形区域中总的样本点数,g(x)是类别指示变量,只取值0和1,相当于一个简化的权重系数。
构造五维特征空间的质心公式进行颜色聚类,可最大限度保留原背景的颜色信息,满足高融合迷彩设计的颜色要求。
KL(Kullback-Leibler)散度和JS(Jensen-Shannon)散度分别是生成网络、判别网络与真实图像数据相似度的判据[12]。p(x)为生成图像分布函数,q(x)为真实图像分布函数,若p(x)和q(x)处处相等,KL散度为0,即生成图像与真实图像无限接近;当p(x)和q(x)有差别时,以两者的平均函数分别与生成图像与真实图像的散度求解JS散度。为了使生成网络生成的图像能以假乱真,达到高融合的目的,应尽量提高生成网络数据和真实数据之间的相似度。判断生成网络G(generator)和判别网络D(discriminator)模型相似度需要用目标函数进行测量。DCGAN基本目标函数如式(3)所示。
arg minL(z)=Ex~pdata(x)[logD(x)]+
λEz~p(z)[log(1-D(G(z)))]
(3)
从式(3)中可看出,生成网络和判别网络均有目标函数,各自训练过程中,判别网络D试图最大化公式的最终取值,而生成网络G试图最小化最终取值,最终D和G之间达到平衡,期望输出趋于一致,模型即“收敛”。
本文采用深度卷积对抗网络[13](DCGAN)进行数据集的训练,其最大优点是使用批归一化(Batch normalization)解决了初始化差的问题,同时保住梯度传播到每一层,也能够防止生成器把所有的样本都收敛到同一个点。使用最小二乘法生成对抗网络(Least Square GAN,LSGAN)中的目标函数来替代传统GAN的目标函数,即使用平方差作为损失而不是Log似然函数,使用LSGAN可以让DCGAN的模型训练更加稳定[14-16]。要实现DCGAN中背景与目标区域的高融合,需要满足两个条件:一是补全的内容是背景的延伸,生成器能够生成“骗过”判别器的图像;第二个条件是生成的图像能够将目标区域完全遮盖。
为使高融合迷彩从纹理到颜色与背景尽可能高度融合,生成对抗网络不仅需要结构稳定,颜色特征信息的训练至关重要,因此结合五维特征空间优化的最终目标函数如式(5)所示。
arg minL(z)=E(x,y,r,g,b)~pdata(x,y,r,g,b)[logD(x,y,r,g,b)]+
λEz~p(z)[log(1-D(G(z)))]
(4)
arg minL(z)=E(x,y,r,g,b)~pdata(x,y,r,g,b)[(D(x,y,r,g,b)-1)2]+
λEz~p(z)[D(G(z))2]
(5)
其中,生成器网络输入真实背景图像,输出为斑点位置(x,y)和颜色(r,g,b)特征相似的图像。
本文在Windows 10系统上选用Tensorflow搭建生成对抗网络,所有算法及有效性验证均由Python语言实现,训练过程使用GPU,显卡型号为TITAN V,显存大小为32 G。图像数据库为实地拍摄及各类图库网站上搜集整理的约500张图片,经过预处理将其裁剪成像素256×256图像,并通过数据增强的方法将数据集扩充至约2 000张林地背景图像。
表1、表2分别为构建的生成模型和判别模型网络结构。生成网络由编码器、传输模块和解码器组成,首先使用线性单元作为生成器的激活函数,可以加快网络的训练速度,让网络更快的收敛。同时在生成网络中嵌入改进了目标函数的Vgg16特征提取器,因增加颜色空间,特征空间从二维增加到五维,目标函数是包含色彩损失函数的总的损失函数迭代优化,经过优化目标函数的Vgg16提取特征可使得生成图像中更好的保留原背景色彩,提升伪装效果。Vgg的输入图像是 256×256×3,通道数翻倍由64依次增加到128,再到256,直至512保持不变,不再翻倍高和宽变减半,通道数的增多使得更多的信息可以被提取出来,像素由224×224→112×112→56×56→28×28→14×14→7×7。实际背景图像纹理复杂、边缘特征不明显,在生成模型中采用5层ResNet残差连接卷积网络,保持图像整体特征的全局能力,提高图像纹理的提取能力[17]。之所以使用残差网络,是利用其保持图像整体特征的全局能力。
Conv-RELU表示本层使用了卷积和ReLU操作,stride 代表步长,filter代表滤波器的大小,ResNet代表残差层,k代表了每个Res Block卷积输出的特征映射数量。为了解决ReLU负半轴容易饱和的问题,判别网络采用LReLU作为激活函数。本文模型使用了5层ResNet+Vgg16进行特征提取,在生成器和判别器中使用了基于特征空间p(x,y,r,g,b)的激活函数,采用特征空间优化方法,同时结合了Vgg16和ResNet算法优点,不仅基于一阶矩均值计算适应性参数学习率,同时还充分利用了梯度的二阶矩均值,弥补了训练过程中梯度消失的问题,同时加强了特征的传播,综合调参以后学习率选用 0.001。
表1 生成模型网络结构
Table 1 Generate network model structure
模块结构编码器7×7 Conv-RELU,stride=1,filter=643×3 Conv-RELU,stride=2,filter=1283×3 Conv-RELU,stride=2,filter=256经过改进目标函数的Vgg16Res-Net层Res Block1, k=64,(3×3)Res Block2, k=128,(3×3)Res Block3, k=256,(3×3)Res Block4, k=512,(3×3)Res Block5, k=512,(3×3)解码器3×3 Deconv-RELU,stride=1/2,filter=1283×3 Deconv-RELU,stride=1/2,filter=647×7 Conv-tanh,stride=1,filter=3
表2 判别模型网络结构
Table 2 Adversarial network model structure
模块结构卷积层3×3 Conv-LRELU,stride=2,filter=643×3 Conv-LRELU,stride=2,filter=1283×3 Conv-LRELU,stride=2,filter=2563×3 Conv-LRELU,stride=2,filter=5123×3 Conv,stride=1,filter=64
基于DCGAN的高融合迷彩设计流程如图1所示。以真实背景数据建立数据集,构建基于五维特征空间的损失函数,训练过程不断优化调整参数以减小生成数据与真实数据间的差异,通过结构相似性分析和心理物理学实验进行效果评估,形成与背景高融合迷彩图案。
图1 DCGAN高融合迷彩设计流程框图
Fig.1 Flow chart of DCGAN high fusion camouflage design
伪装效果评价是军事伪装斗争中不可或缺的环节,目标在战场上的生存和斗争能力很大程度上取决于伪装效果的好坏。迷彩伪装性能主要包括两方面:一是遮蔽特性;一是融合特性。遮蔽性能良好可以使敌方无法判断遮障下面的目标是否存在,而融合性能良好则可以避免被敌方注意[18]。事实上,由于遮蔽性能更容易实现,长期以来迷彩设计多强调遮蔽性能,由于近几年侦察技术的高分辨能力,完善地伪装目标变得越来越困难,这也意味着高融合具有了越来越重要的价值[19]。
本文选取比较典型的林地背景进行高融合迷彩设计。林地背景主要指大部分被木本植物覆盖的山地、丘陵地以及森林、灌木林区等背景,植被覆盖率一般大于60%。利用前文设计的框架结构完成深度卷积对抗网络的构建,选择不同角度在同一地区拍摄部分图像进行了50个epoch共25 000次的训练,并挖空每张图像的中间部分(挖空的区域可以自由选择),现实中挖空的区域包含需要进行伪装的目标部分,然后利用训练的网络进行智能填补。实验部分之所以展示了生成的64张图像效果,一是为了进行大量的对比,避免只是个别图像效果的改善;二是当训练到25 000次时,图像本身像素还比较小,整体视图显示的效果比较好。
图2(a)代表了64张原始图像,图2(b)代表挖空中间部分的图像,图2(c)代表改进算法前填补完成的图像,图2(d)代表改进算法后填补完成的图像,对比后发现,利用原始的DCGAN算法生成的图像纹理延伸性和与周围背景颜色融合不佳,虽然能将主要目标区域覆盖,但是增加了新的问题,明显的拼接痕迹使得填补区域和周围背景融合度不高,导致全局成了新的暴露征候。而利用基于特征空间改进目标函数的DCGAN生成的图像细节虽然处理的比较模糊且部分存在阴影的地方没有处理好,但优点是目标区域的主要颜色与背景类似,纹理延伸性较好,能将周围的道路和裸露地表按照颜色渐变填补,从整体效果来看基本达到了高融合的目的。个别道路地区填补成林地背景的纹理样式,2种图像颜色出现了失真的现象,这和训练的数据集以及mask的区域有关,解决的方法是扩充数据集并改变图像中道路所在的位置。
在软硬件相同,数据集一致的条件下,算法改进前后2种训练的损失如图3所示,红色曲线表示使用二维空间训练后的损失,蓝色实线表示使用五维特征空间训练后的损失。因为数据集背景比较单一,所以设置两次训练总次数均为 25 000次,从实验可以看出,随着生成器迭代次数的上升,损失值一开始快速下降,然后慢慢地趋于稳定,大约在 10 000次时达到平衡,这说明改进后的算法在训练时间上并没有延长,同等训练次数下却能得到更好的结果。
图2 深度卷积对抗网络生成迷彩
Fig.2 DCGAN Generating Camouflage Scheme
图3 训练损失曲线
Fig.3 Training loss diagram
本文利用Canny边缘检测算法和结构相似性(Structural SIMilarity,SSIM)算法来评估生成高融合迷彩伪装的有效性。同时为了能够满足人眼对伪装性能的要求,本文还制定了野外试验方案,组织并挑选判读人员,收集、分析试验数据,为效果评价提供基础。利用以上算法生成的部分图像如图4所示。
图4 Canny算子处理效果
Fig.4 After the Canny operator treatment effect comparison
从这64张图像的边缘纹理图中也可以直观的看出改进之后的纹理特征和原图像在某些区域更加类似,改进前填补得到的纹理排布很密集,针对以上结果进行结构相似性的数学计算,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构3个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。设置两组对比试验,将生成的图像与原图比较求得SSIM指数,高融合迷彩设计追求的正是目标与背景各项特征的相似,也就是SSIM值越大越好(以下结果均为Canny算子取0.15时的数据)。
表3对应着图4中64张图片,奇数列对应的是改进前训练结果与原图的SSIM,偶数列对应的是改进后训练结果与原图的SSIM(为了区别相同位置图像的SSIM值,用了不同的编号表示)。从表3图像结构相似性数据来看,改进前的结果中90%的SSIM值小于改进后的结果。
表3 改进算法前后生成图像的SSIM评分
Table 3 SSIM score of before and after the improved algorithm algorithm
1①2②3③4④5⑤6⑥7⑦8⑧0.743 90.750 30.731 90.739 40.737 40.757 50.744 60.735 40.740 80.752 50.739 60.751 00.750 80.764 90.760 20.773 60.741 10.752 90.749 50.751 10.738 10.743 50.727 00.745 30.733 10.752 50.749 70.755 50.736 70.745 00.739 30.747 60.747 40.756 90.741 70.749 80.741 80.763 40.740 00.756 00.732 30.762 50.742 80.771 60.732 00.758 70.740 20.760 10.734 80.744 40.736 80.745 90.740 40.746 40.722 90.754 20.741 80.757 60.747 90.758 60.745 00.779 50.737 50.757 80.731 20.760 40.741 90.742 80.744 30.751 50.740 30.745 30.737 80.738 50.740 10.735 70.731 00.761 30.746 10.743 80.741 50.745 10.740 10.771 50.740 80.763 50.745 20.749 30.737 50.757 50.740 00.748 60.744 00.765 70.749 00.748 70.742 00.748 80.739 20.741 40.738 20.735 40.744 60.733 20.736 70.753 70.734 90.732 20.736 10.739 80.740 00.742 20.751 80.765 70.719 30.742 10.725 90.712 10.735 60.739 70.734 60.755 10.739 70.755 20.749 00.771 40.729 60.739 5
下面从心理物理学角度检验融合情况,类别判定法是一种对刺激的感知进行分类的心理物理学实验方法。该方法要求观察者在观察样本剌激之后,将刺激的视觉感知按照类别判定量表进行分类。采用该方法时,首先应正确划分类别判定量表,取有特殊意义的点,如判断色差时,可将无色差、恰可察觉色差、恰可接受色差等作为分类点。一般,类别判定法的分类可以根据需要分为5类、7类、9类等,也有一些研究为了避免观察者取中间值,而将类别划分为偶数,如6类、8类等。在实验过程中,观察者按照给出的类别判定量表对观察到的刺激进行分类,然后根据Torgerson的类别判定法和统计假设理论,转化为等距量表(表4)。
在实验设计中,共安排了10名色觉正常的观察者参加,均为在校大学本科生,包括5名男性和5名女性,年龄介于20~25岁之间。每名观察者进行了2次,用来分析观察者间的精度。因此,本实验所获得的视觉评价数据共有1 280个。
对于改进前的图像,10名学生当中8名选择类别4,勉强可以接受;另外两名选择3,可感知且完全可接受,64张图像中有24张图像与背景对比不理想。而对于改进后DCGAN处理过的图像,10名学生当中5名选择类别1,无感知色差;3名选择选择3,可感知且可接受,另外两名选择4勉强可接受,64张图像中有4张图像与背景对比校突兀。可见经过改进后DCGAN处理过的图像的伪装效果更能满足要求。
表4 类别判定量
Table 4 Category determination scale
色差描述类别无色差1恰可感知色差2可感知且完全可接受3勉强可以接受4恰好不可接受5完全不可接受6及其不能忍受7
基于深度卷积生成对抗网络的高融合迷彩设计模型利用目标背景图像中像素点之间的约束关系,引入注重颜色保留的特征空间,优化了目标函数,为背景纹理和颜色的模拟提供了合适的技术途径。以生成对抗网络为支撑的设计技术体系,可以实现设计的高融合迷彩图案,能有效对付不同距离的侦察威胁。针对模型效果评估的问题,根据机器视觉的特点提出利用Canny边缘检测算子和结构相似性(SSIM)原理以及心理物理学实验对生成的图像进行评估。实验结果表明,本文基于特征空间的生成对抗网络改进模型在纹理的延伸和颜色的保留上取得效果,林地背景图像经过训练后得到的SSIM值90%以上高于改进前的结果,验证了所提方法在高融合迷彩设计中的有效性。在今后的工作中,要进一步研究生成对抗网络的特点,提高模型在复杂背景下的高融合能力,提高生成对抗网络提取各项特征的精细度。
[1] 胡江华,等.伪装技术[M].北京:国防工业出版社,2012.
Hu J H, et al.Camouflage technology [M].Beijing:National Defense Industry Press,2012.
[2] Masahiko I,Naoki K,Susumu T.Optical camouflage using retro-reflective projection technology[C]//Proceedings of the Second IEEE and ACM International Symposium on Mixed and Augmented Reality,2003:348-349.
[3] 贾其,吕绪良,等.迷彩斑点单元形状和尺寸研究[J].光电技术应用,2008,23(1):21-23.
Jia Q,Lv X L,et al.Study on the shape and size of camouflage dot unit [J].Optoelectronic Technology Applications,2008,23(1):21-23.
[4] 陈祥安.基于背景的迷彩伪装斑点设计研究[D].沈阳:东北大学,2012.
Chen X A.Research on camouflage Speckle Design based on background [D].Shenyang:Northeastern University,2012.
[5] 双晓.基于双重纹理的数码迷彩研究与设计[D].西安:西安工业大学,2012.
Shuang X.Research and Design of digital camouflage based on double texture [D].Xi’an:Xi’an University of Technology,2012.
[6] 武国晶,吕绪良,许卫东等.数码迷彩立体动态成像算法研究[J].兵工学报,2016,37(01):103-108.
Wu G J,Lv X L,Xu W D,et al.Research on 3d dynamic imaging algorithm of digital camouflage [J].Chinese Journal of Ordovical Engineering,2016,37(01):103-108.
[7] 张勇,吴文健,刘志明.仿生迷彩伪装设计.计算机工程,2009,35(6):35-37.
Zhang Y,Wu W J,Liu Zh M.Bionic camouflage design[J].Computer Engineering,2009,35(6):35-37.
[8] 王展.基于背景的迷彩伪装设计与综合评价方法研究[D].沈阳:东北大学,2014.
Wang Z.Research on background based camouflage design and comprehensive evaluation method [D].Shenyang:Northeastern University,2014.
[9] Ian Goodfellow,Patrick M,Nicolas P.Making machine learning robust against adversarial inputs[J].Communications of the ACM,2018,61(7):51-54.
[10] Radford A,Metz L,Chintala S.Unsupervised representation learning with deep convolutional generative adversarial networks[J].Computer Science,2015(10):59-65.
[11] 滕旭,张晖,杨春明,等.基于循环一致性对抗网络的数码迷彩伪装生成方法[J].计算机应用,2020,40(02):566-570.
Teng X,Zhang H,Yang Ch M et al.Digital camouflage generation method based on cyclic consistency adversarial network [J].Computer Applications,2020,40(02):566-570.
[12] 廖茂文,潘志宏.深入浅出GAN生成对抗网络原理剖析与TensorFlow实践[M].北京:人民邮电出版社,2020.
Liao M W,Pan Zh H.Analysis on the principle of gan generation and tensorflow practice [M].Beijing:People’s Posts and Telecommunications Press,2020.
[13] 戴蓉.基于面部生理特征和深度学习的表情识别方法[J].重庆理工大学学报(自然科学), 2020, 34(6):146-153.
DAI R.Facial recognition method based on facial physiological features and deep learning[J].Journal of Chongqing University of Technology(Natural Science), 2020, 34(6):146-153.
[14] ADRIAN B LEVINE,JASON PENG,DAVID FARNELL etal.Synthesis of diagnostic quality cancer pathology images by generative adversarial networks[J].The Journal of Pathology,2020,252(2):101-106.
[15] MOHAMMAD M J,HAMID B.Context-aware colorization of gray-scale images utilizing a cycle-consistent generative adversarial network architecture[J].Neurocomputing,2020,407(4):95-101.
[16] PAWEL B.A novel method for the deblurring of photogrammetric images using conditional generative adversarial networks[J].Remote Sensing,2020,12(16):53-59.
[17] 张扬,马小虎.基于改进生成对抗网络的动漫人物头像生成算法[J].计算机科学,2020(10):1-10.
Zhang Y,Ma X H.Animation Character Avatar generation algorithm based on Improved Generation versus Network [J].Computer Science,2020(10):1-10.
[18] 杨志峰,李增辉,刘笑,等.生成对抗网络在雷达反欺骗干扰中的应用框架[J].现代雷达,2020,42(08):56-60,70.
Yang Zh F,Li Z H,Liu X,et al.Application framework of generating countermeasures network in radar anti-spoofing [J].Modern Radar,2020,42(08):56-60,70.
[19] 戴蓉.一种基于条件生成对抗网络的面部表情识别技术[J].计算机应用与软件,2020,37(08):166-170,232.
Dai R.Facial expression recognition technology based on conditional generation countermeasure network [J].Computer Application and Software,2020,37(08):166-170,232.
Citation format:RAN Jianguo, LIU Heng, ZHANG Pin, et al.Camouflage Design Method Based on DCGAN[J].Journal of Ordnance Equipment Engineering,2021,42(11):264-269.