音响中心是机载航空电子系统的重要功能单元,它完成飞行员机内通话、机外通话、指挥引导、飞行状态告警等任务,对飞机的安全和指挥控制起着关键的作用[1]。传统的音响中心采用模拟音频技术传输话音信号[2],由于模拟设备存在易受干扰、频带窄、可靠性差、体积重量大等缺点,已不再适用于有减重需求、电磁环境复杂的航空电子领域应用,因而数字音频处理技术应运而生,数字音频技术利用现代数字信号处理[3]算法,将模拟声音[4]信号转换为数字信号,通过数字处理算法[5]处理、传输话音,数字音频系统具有抗干扰性强、设备体积小、重量轻,音频信号质量好等特点。针对航空机载环境下通话噪声大[6]、时延要求小,实时性[7]要求高等需求,提出了一种适用于机载环境[8]的数字音频处理系统,对飞行员话音信号进行采集、量化,将模拟音频信号转换为数字音频信号,再运用现代数字信号处理算法对数字化后的话音信号进行噪声抑制、语音增强[9]等处理,有效地增强了通话的可听可懂度,同时也减少了话音延迟[10]。
如图1所示,飞行员麦克输出的模拟音频采集单元,完成模拟音频信号的匹配、滤波、放大和AD转换,送入数字音频处理单元,为了消除远端回声干扰[11]的啸叫,首先将处理后的数字音频信号与回声信号进行混音,混音后的信号送话音端点检测算法(speech endpoint detection algorithm,VAD)模块进行有无话音判决。① 当发现无噪声时,将音频信号送入舒适背景噪声算法(comfort background noise algorithm,CNG)模块生成背景噪声,再送入加权混音单元;② 当发现有话音时,依次将数字话音信号送入自适应噪声抑制算法模块、自动增益控制算法模块进行噪声抑制和话音增强等处理,处理后的话音信号再进行混音、加权等处理,输出到音频接口模块完成D/A转换为模拟音频信号,送入飞行员座舱耳机等设备。
图1 话音处理平台架构
Fig.1 Voice processing platform architecture
自动增益控制(AGC)算法[12]是实现数字话音处理系统的关键,本文中采用改进的AGC算法,在短时帧能量基础上对于有音帧进行数字增益控制,很好的压缩信号的动态范围和平滑背景噪声,具体操作如下:
1) 量化。第i帧短时帧能量xi先被量化成25个量化等级中的一个,
yi=F(xi)
(1)
其中, F(·)为量化操作。
2) 计算y在1-25的概率分布函数。当第i帧的短时帧能量的量化等级为m,即yi=m。则
qi(m)=qi-1(m)+1, m=1,2,…,25
(2)
其中,qi(m)统计第m个量化等级出现的次数(由于短时帧能量在25个量化等级中不是同一分布,所以不能简单的用时间平均代替统计平均)。为了避免溢出,我们设置了一个遗忘因子α,对于每个qi(m)
qi(m)=qi-1(m)*(1-α), m=1,2,…,25
(3)
根据qi(m)可以求出短时帧能量在25个等级中的概率分布
(4)
3) 计算出帧能量期望值对应的量化等级
(5)
4) 计算帧能量期望值对应的量化等级与参考值对应量化等级的差别
εi=REF-Mi
(6)
在本文中,参考值REF=13。
5) 得到增益调整值。Δgi与εi的对应关系为
(7)
其中|εi|≤σ是输出不变区。即当帧能量期望值与参考能量的差别在1.75*σ dB之内时不进行增益调整。k表示增益调整速度,k越大,自动增益调整速度越快。
6) 得到增益(单位dB)。
gi=gi-1+Δgi
(8)
计算得到增益后AGC算法原理如图2所示。AGC算法流程如图3所示。
图2 AGC算法原理
Fig.2 Principle of AGC algorithm
图3 AGC算法流程
Fig.3 AGC algorithm flowchart
数字音频处理系统由模拟音频电路、数字音频处理2部分组成,数字音频处理系统如图4所示。
图4 数字音频处理系统
Fig.4 Digital audio processing system
其中模拟音频部分由输入音频匹配电路、AD采样模块组成,完成输入模拟音频信号的阻抗匹配、信号采集、滤波和预放大,并将处理后模拟音频信号送AD采样模块进行模数转换,转换后的数字信号送入数字音频处理部分;模拟音频输出部分由DA转换模块、输出音频放大电路组成,完成输出端白噪声和处理后的话音信号进行混音、加权等处理,输出处理后的数字话音信号经过输出音频接口模块进行DA、放大等处理,驱动耳机、扩声器等音频设备。
数字音频电路采用复旦微公司FMQL架构的处理器FMQL45T900-AS作为主控芯片。FMQL架构将内部结构分为处理器系统PS与可编程逻辑PL两部分。PS内包含32位四核高性能处理器,每个处理器有一个高性能、低功耗内核,单核算力达1.9 DMIPS/MHz,独立拥有32 K的L1级Cache和256 K的L2级Cache,PS部分可外接DDR3,SPI-FLASH等存储器,完成程序的固化和加载。PL部分为可编程逻辑处理单元,提供350 K的逻辑资源,19.2 Mb的块RAM,900个DSP处理器资源,16对GTX高速接口;PL与PS间通过AXI总线进行通信,按照标准AXI协议,数据位宽支持32 bit或者64 bit,主端口容量为:8个read,8个write。
PS处理器端完成数字音频算法的处理,如话音端点检测算法,自适应噪声抑制算法、自动增益控制算法。可编程逻辑PL部分完成音频信号AD串并转换,采样率的切换和配置,音频通路切换和选通等功能。
音频接口电路主要包括输入接口和输出接口2部分,输入部分如图5所示。输出接口如图6所示。
图5 模拟音频输入接口电路
Fig.5 Analog audio input interface circuit
图6 模拟音频输出接口电路
Fig.6 Analog audio output interface circuit
图7 AD/DA处理电路
Fig.7 AD/DA processing circuit
图8 ZYNQ处理器最小系统
Fig.8 ZYNQ processor minimum system
输入接口电路完成模拟话音信号采集,设计RC低通滤波器(截止频率设置为10 k),用于滤除音频信号中的杂波干扰。
输出音频接口完成模拟话音的放大匹配输出,通过高通滤波器、低通滤波器叠加产生带通滤波效果,有效滤除信号噪声,经滤波后的信号经过负反馈放大器进行放大、隔直后驱动耳机等设备。
AD/DA电路完成模数、数模信号转换功能,如图4所示,采用TI公司的TLV320AIC23B作为AD/DA转换芯片,它是一款高性能的音频编解码器,芯片内部集成AD/DA电路,由于该芯片是3.3 V供电,单端输入采样,前端设计匹配电路完成信号匹配和差分单端转换;转换后的单端信号送入AD芯片进行AD转换;DA电路为AD的逆过程。
核心处理电路框图如图5所示。Zynq-PS部分作为系统的处理核心,利用其强大的浮点处理能力和计算能力,完成数字音频处理算法的实现,采用复旦微公司的高性能FMQL架构处理器FMQL45T900-AS作为主控芯片,ZYNQ-PS最小系统包括时钟单元、供电单元、复位逻辑和外扩的SDRAM存储器和FLASH存储器,其中内存0基地址分配给FLASH存储器,用于存储固化程序以及音频告警等掉电不丢失数据;内存1基地址分配给DDR存储器,用于暂存程序代码和其他运行数据;内存2基地址分配给ZYNQ-PL部分,用于对FPGA数据读写寻址;ZYNQ-PL功能单元由时钟、配置单元和FPGA逻辑组成,时钟为ZYNQ-PL工作提供时钟源,配置单元存储掉电不丢失的FPGA固化代码,上电时完成ZYNQ-PL配置加载,ZYNQ-PL加载完成后输出时钟、复位信号完成ZYNQ-PS初始化配置;ZYNQ-PS与ZYNQ-PL间通过AXI总线接口通信,完成AD数据的缓存、组帧、串并转换,并以中断方式通知ZYNQ-PS取数。
话音处理平台软件流程图如图9所示。ZYNQ上电后运行初始化程序,完成AD芯片、FLASH、DDR等硬件资源的初始化配置,同时设置中断函数实时监测是否有ZYNQ-PL的缓存中断,当监测到有中断到来时调用中断响应函数,读取FIFO内音频数据,每次中断函数读取8 ms话音数据,为了满足音频准平稳信号特性,需将本次8 ms采集到的信号与前2次(16 ms)采集的信号进行组帧,构成24 ms音频数据,组帧后的语音信号是短时平稳信号,对组帧后的数据进行加窗,窗函数选择Hamming窗[13],将连续的语音信号转换成分段信号便于后端数字处理。
图9 音频处理算法流程
Fig.9 Audio processing algorithm flowchar
加窗调制后的信号送入话音活动性检测模块进行检测,若检测到无话音活动送入舒适背景噪声生成模块重构背景噪声,噪声生成模块采用随机白噪声产生算法生成舒适白噪声, 以填补话音信号中无音段。若检测到有话音活动送入自适应噪声抑制模块进行降噪处理,经降噪后的信号送入语音增强模块进行话音增强, 本文中采用的是改进的自动增益控制AGC算法,该算法是建立在短时帧能量基础上,将话音信号分为25个量化等级,对不同等级的话音信号进行增益调节和控制,能够很好的压缩信号的动态范围和平滑背景噪声,经上述流程处理后的的音频信号送入数字音频D/A转换模块进行转换, 再将转换后的信号送入模拟音频功率放大模块,进行功率放大、匹配滤波等操作,该模块处理后的模拟音频信号直接输出,去驱动耳机、话筒等音响设备,流程结束。
为了验证话音处理平台的性能,选取不同信噪比条件下,随机白噪声与纯净的语音叠加的带噪信号作为输入激励信号,送入处理平台进行处理,在PC机上运行软件实时监控处理平台的各算法模块运行状态,将运算结果导入Matlab软件进行分析,仿真结果如下:
1) 话音活动检测模块
选取一段信噪比为20 dB飞行员语音信号送入活动检测模块进行话音端点检测,判决结果如图10所示。
图10 语音VAD判断结果(能量判决,SNR=20 dB)
Fig.10 Voice VAD judgment result (energy judgment, SNR=20 dB)
从图10中可看出带噪话音信号经过该模块处理后,有音段和无音段能够被准确识别出来。经测试该模块在信噪比大于5 dB时,识别率可达到98%,具有较高的准确性。
2) 自适应噪声抑制模块
选取2段不同信噪比(0、10 dB)的带噪的话音信号,送入自适应噪声抑制模块进行噪声抑制,结果如图11所示。
图11 不同信噪比下的噪声抑制效果
Fig.11 Noise suppression effects under different signal-to-noise ratios
从图中可看出该模块能够很好的抑制环境噪声,提高话音信号信噪比。特别是在信噪比较低时(0 dB),噪声抑制的效果可达9 dB以上。
3) 自动增益控制模块
对经过噪声抑制后的话音信号,进行自动增益控制,仿真结果如图12所示。
图12 AGC输出语音信号
Fig.12 AGC output voice signal
从图12中可以看出,原始飞行员话音包含三段能量不同的有音段信号,经AGC处理后输出信号有音段能量被增强,噪声段的能量被抑制,仿真结果表明该模块能精确的控制增益衰减及步进,达到了压缩信号的动态范围和平滑背景噪声的目的,提高飞行员通话的舒适性。
为了验证数字音频处理系统的功能和性能,搭建如图13所示验证环境。在外场机载环境[14]下录制了一段飞行员的通话语音信号,信噪比为20 dB。将该信号作为音源的输入测试激励,话音信号处理前与处理后的结果如图14所示。
图13 音频处理仿真环境
Fig.13 Audio processing simulation environment
图14 数字话音处理效果对比
Fig.14 Comparison of digital voice processing effects
图14(a)为输入带噪话音段,经本系统处理后输出的音频信号如图14(b)所示。从图中可看出输入信号为带有强噪音的机载话音信号,经过处理后有音无音段被准确的识别出来,噪声信号被有效抑制,话音被明显增强。
为了进一步评价话音信号质量,采用主客观评价相结合的方法,主观评价采用ITU组织在ITU-T P.800和P.830建议书中制定的测试标准:平均意见得分(mean opinion score,MOS[9])标准进行测试;客观评价采用ITU组织推荐的语音传输质量测试标准P.862-PESQ算法[15],选用基于PESQ算法[16]开发的商用话音质量测试仪进行测试。
本文中选取10位受试者对不同信噪比的话音进行主观MOS评分,取所有受试者评分的平均值作为最终MOS得分,同时选用通用话音质量测试仪对话音进行评分,两者的结果填入表1中。
表1 话音质量评价
Table 1 Voice quality evaluation
被测话音处理前的话音MOS评分①测试仪评分处理后的话音MOS评分②测试仪评分评分差值0 dB1.21.152.62.511.385 dB1.21.243.93.862.6610 dB2.22.284.94.852.63520 dB2.62.775.95.833.18
注:① 其中MOSi为第i为受试者对测试话音的评分; ② 评分差值=处理后(MOS评分+测试仪评分)/2-处理前(MOS评分+测试仪评分)/2。
从表1可看出,对比4种不同信噪比条件下话音信号,处理前评分较低,话音质量较差。处理后评分有明显提高,评分结果较处理前提高约2分左右。特别是在10 dB/20 dB高信噪比条件下,话音信号质量改善的程度更加显著。另外通过多人主观测试反馈,处理前话音信号夹杂有强环境噪声,音量强度忽强忽弱,可听度差,处理后输出的话音信号噪声明显减弱,话音平稳可听度好,试验结果表明该系统能够有效抑制噪声并改善话音质量,取得了较好的话音增强效果。
提出了一种基于ZYNQ架构的数字话音处理系统,解决了机载话音处理平台噪声抑制的问题,主要创新和结论如下:
1) 设计了音频处理架构,其中模拟音频部分完成模拟音频小信号的匹配、滤波、放大和AD/DA转换;数字音频部分利用ZYNQ-PL的优越的并行处理能力和ZYNQ-PS强大的算法处理功能,实现了数字话音处理算法的嵌入式平台移植。
2) 通过构建仿真和实物平台验证,该系统能够有效抑制机载环境通话的噪声,提高话音信号的信噪比,改善飞行员通话的可听可懂度和舒适度。
3) 该系统可推广应用于航天、船舶、车载等领域的通信系统,具有广阔的应用前景,后续在话音识别降噪方向进一步研究。
[1] 刘伟,张明星,许刚.综述未来空战系统全程隐蔽攻击技术方向研究[J].兵器装备工程学报,2021,42(2):6-10.LIU Wei,ZhANG Mingxing,XU Gang,et al.A review of the research direction of full range covert attack technology for future air combat systems[J].Journal of Ordnance Equipment Engineering,2021,42(2):6-10.
[2] 郁伟,张春,王宝寿.多喷管超声速射流噪声的实验及数值模拟研究[J].兵器装备工程学报,2023,44(8):234-239.YU Wei,ZHANG Chun,WANG Baoshou.Experimental and numerical simulation on supersonic multijetnoise[J].Journalof Ordnance Equipment Engineering,2023,44(8):234-239.
[3] 李声飞.一种改进的动态可重构信号处理平台设计[J].兵器装备工程学报,2022,43(10):274-279.LI Shengfei.Design of an improved dynamic reconfigurable signal processing platform[J].Journal of Ordnance Equipment Engineering,2022,43(10):274-279.
[4] MURRAY A J,CUNANE P,HARVEY M.An undergraduate laboratory experiment to build and characterize a thermionic triode for use as an audio amplifier[J].European Journal of Physics,2020,41(6).DOI:10.1088/1361-6404/aba997.
[5] JIANJUN Y U,YI W.Digital signal processing for high-speed THz communications[J].Chinese Journal of Electronics,2022.DOI:10.1049/cje.2021.00.258.
[6] ROLL S F.Suppression of acoustic noise in speech vising spectral subtraction[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1979,27(2):113-120.
[7] SHAM E E,VIDYARTHI D P.CoFA for QoS based secure communication using adaptive chaos dynamical system in fog-integrated cloud[J].Digit.Signal Process,2022,126:103523.DOI:10.1016/j.dsp.2022.103523.
[8] BAI G,SONG Y,ZUO Y,et al.Multitarget location capable of adapting to complex geomorphic environment for the airborne photoelectricreconnaissance ystem[J].Journal of Applied Remote Sensing,2020,14(3):1-.DOI:10.1117/1.JRS.14.036510.
[9] JASSIM W A,HARTE N.Comparison of discrete transforms for deep-neural-networks-based speech enhancement[J].IET Signal Process,2022,16:438-448.
[10] LEE J,KANG H G.Real-time neural speech enhancement based on temporal refinement network and channel-wise gating methods[J].Digit.Signal Process,2023,133:103-108.
[11] MATSUOKA S,SINDELAR M,BANSAL S,et al.Quantitative rotational-echo double resonance for Carbon-13 spin clusters[J].Journal of Magnetic Resonance,2021.
[12] HEO H,KIM H,YOU D,et al.PLL-based nanoresonator driving IC with automatic parasitic capacitance cancellation and automatic gain control[J].Measurement and Control,2022,55(1/2):3-12.
[13] CHENG L F,NI S,CHEN S.An improved PMF-FFT algorithm based on hamming window[J].Journal of Physics:Conference Series,2021,11(4):450-453.
[14] KANG G S,MARK L L.Automatic gain control[J].IEEE ICASSP Proceeding of the conference,2014(19):1-4.
[15] ITU-T Recommendation P.800.Methods for Subjective Determination of Transmission Quality, August 2016.
[16] ITU-T Recommendation P.862.Perceptual Evaluation of Speech Quality (PESQ) an Objective Method for End-To-End Speech Quality Assessment of Narrowband Telephone Networks and Speech Codecs, February 2001.