基于谱减与自适应子带对数能熵积的端点检测

张洪德1,韩鑫怡1,柳 林2,柳 扬1

(1.陆军工程大学 通信士官学校, 重庆 400035; 2.合肥讯飞数码科技有限公司, 合肥 230088)

摘要:针对低信噪比环境下语音端点检测准确率低、鲁棒性差,提出了一种将谱减降噪和自适应子带对数能熵积相结合的语音端点检测算法。首先利用改进的多窗谱估计谱减法提升语音信号质量,再以自适应子带对数能熵积这一新的语音特征参数为阈值,使用动态阈值双门限检测法进行语音端点检测。实验结果表明,该算法针对低信噪比语音信号具有更好的准确性和鲁棒性。

关键词:语音端点检测;子带对数能量;子带谱熵;多窗谱估计谱减法;双门限检测

1 引言

随着人工智能技术的发展,语音信号处理技术的应用越来越广泛,语音端点检测作为语音信号处理技术中的关键环节,也是成为研究者们关注的重点。准确的检测,不但可以获得较好的处理效果,更能够极大地减少计算量,提升处理效率。常用的语音端点检测方法主要分为两大类[1]:模式识别类和语音特征类。其中模式识别类主要以深度学习[2]和神经网络[3]为基础,由于需要进行建模和数据训练,通常该类方法计算量大且复杂;语音特征类是基于语音特征参数的一类检测方法,这类方法复杂度低、实时性高,因此在实际应用中多使用特征参数法进行检测。常用的语音特征参数包括短时能量[4]、短时过零率[5]、Mel倒谱距离[6] 、能零比[7]和能熵比[8]等,这些参数在高信噪比环境下具有较高的准确率,但随着信噪比降低,检测性能也相应下降,特别是在5 dB甚至0 dB的极低信噪比环境下,常规的检测方法难以准确地进行检测。

针对上述问题,本文提出了一种由改进的多窗谱估计谱减法与自适应子带对数能熵积法相结合的端点检测算法,即首先使用改进的多窗谱估计谱减法对信号进行增强处理,再利用自适应子带对数能熵积这一新的语音特征参数进行端点检测。此算法在低信噪比环境下具有较好的准确率和鲁棒性。

2 改进的多窗谱估计谱减法

谱减法[9]是对纯净语音信号的幅度谱或功率谱进行估计重构的一种增强方法,因此谱估计的准确程度将直接影响谱减效果。多窗谱估计[10]是利用多个正交的数据窗对同一个数据序列分别求谱后进行平均的一种误差更小的谱估计。

多窗谱估计谱减法使用FFT变换,得到信号xi(m)的幅度谱|Xi(k)|和相位谱θi(k),以此计算信号xi(m)的相邻M帧的平均功率谱密度为:

(1)

式(1)中,ik分别表示第i帧和第k条谱线。

通过平均功率谱密度计算得到谱减增益值,即:

(2)

式(2)中:α为过减因子; β为增益补偿因子;为前导无话段的平均功率谱密度。

根据谱减增益值计算谱减后的幅度谱最后结合原始信号相位谱θi(k)重构得到增强信号即:

(3)

通过实验发现,过减因子α的取值直接影响谱减的效果,且最优过减因子的值随信噪比变化而变化。但传统多窗谱估计的谱减法的过减因子α为固定值,导致通常不能得到最优谱减效果。针对上述问题,本文提出基于自适应过减因子的改进多窗谱估计的谱减法,即过减因子的大小随信噪比变化而变化,而不再是固定值。经过大量实验测试,过减因子随信噪比的最优变化模型为:

(4)

式(4)中,SNR表示原始信号信噪比。实验中将增益补偿因子β固定为1×10-6

3 自适应子带对数能熵积法

3.1 自适应子带对数能量和谱熵

传统的对数能量[11]与谱熵的检测方法在低信噪比噪声环境下效果较差,文献[12]将子带技术应用于语音端点检测方法中,通过将每帧信号分成若干子带,计算每个子带的对数能量和谱熵,降低单一谱线幅值受到噪声的影响,能够提升在低信噪比环境下的检测准确率。

但常规子带方法中每帧信号子带数量的划分是固定的,而实际每帧信号受到的噪声干扰程度是不同的,且干扰的强弱直接影响信号有效子带的数量。因此,Wu等[13]提出自适应的子带划分方法,将第i帧的归一化最小带能参数NMinBEi和有效子带划分数量Nubi定义为:

(5)

(6)

根据每帧信号归一化最小带能参数的取值估计噪声干扰程度,进而确定有效子带划分数量,实现自适应子带划分的效果。具体自适应子带对数能量和谱熵的计算如下:

将第i帧的信号预划分为Nb个子带,Nb=N/b,其中N表示帧长,b表示子带的长度,则第i帧第j个子带功率谱能量为:

(7)

由式(5)和式(6)求得有效子带个数Nubi,并以此计算有效子带能量概率分布为:

(8)

i帧的自适应子带对数能量LEbi和自适应子带谱熵Hbi分别为:

(9)

3.2 自适应子带对数能熵积

通过大量的语音样本计算,可发现自适应子带对数能量和自适应子带谱熵的曲线(见图1)显著特征,即在语音区间上自适应子带对数能量的图像是向上凸起的,而自适应子带谱熵则刚好相反。

图1 2个特征参数曲线

Fig.1 Comparison of two characteristic parameters

根据上述特点,本文提出一种新的语音特征参数:自适应子带对数能量熵积LHb,具体定义如下:

(10)

式(10)中,LEb0Hb0分别表示前导无话段的自适应子带对数能量和自适应子带谱熵的平均值。

LHb作为端点检测的特征参数,不仅可以放大有话段和噪声段的数值差距,突出有话区间,增强彼此间的区分度,同时能够避免类似能熵比特征参数[8]中可能出现分母为0的错误。

3.3 动态阈值双门限检测

传统双门限检测法使用固定阈值进行检测,适应噪声变化能力差,本文将固定阈值改进为基于LHb特征参数的动态阈值,使其具备对噪声变化环境下的语音自适应检测能力。设初始阈值T1T2为:

(11)

式(11)中:LHb0为前导无话段的自适应子带对数能熵积的均值;LHbmax表示自适应子带对数能熵积的最大值;δ为标准差;ab分别为上下限系数。于是阈值的动态更新可以表示为:

(12)

式(12)中:A为阈值更新系数;LHbi为第i帧信号的自适应子带对数能熵积。其中上下限系数决定检测门限高低,阈值更新系数影响阈值随样本变化的更新率,两者取值通常根据经验值设定。

本文对测试样本经过反复实验,测得最优取值为:a=0.05,b=0.15,A=0.92。且若b值过高,则会出现漏检,而a值过低,则存在错检。

4 实验仿真

4.1 实验流程

本算法首先通过谱减提升语音信号质量,为后续端点检测奠定基础,而后计算增强信号的自适应子带对数能熵积,最后使用动态阈值更新双门限检测法进行端点检测,实验流程如图2所示。

图2 本文方法的实验流程框图

Fig.2 The experimental flow of this method

此外,本文对自适应子带对数能量和自适应子带谱熵特征值的提取进行以下优化:

1) 语音信号通常分布在3 500 Hz以下,且100 Hz以下存在交流频率干扰,因此仅提取信号在100~3 500 Hz的部分进行分析处理。

2) 根据文献[14],在式(8)中引入常量k=0.5,得到改进的有效子带能量概率分布为:

(13)

3) 加入中值平滑处理,保持平滑段之间数据的阶跃性,减少个别野点对结果的影响。本文选取前后共5帧进行中值平滑处理。

4) 设置最小有话段和最长静音长度,防止跳变的高能噪声被误判为语音或字间间断造成漏检。本文将最小有话段设为5帧,最长静音长度设为8帧。

5) 根据文献[11]提出的新对数能量关系,本文将式(9)中的常数a设置为2。

6) 通过大量实验测试,对文献[13,15]中的有效子带个数计算公式进行改进,具体如下:

(14)

实验主要步骤为:

步骤1利用改进的多窗谱估计谱减法对语音信号进行增强处理,得到增强语音信号,并提取频率分布在100 Hz到3 500 Hz的部分进行后续处理;

步骤2将每帧信号预划分成25个子带,计算每个子带功率谱能量。由式(5)和式(14)计算归一化最小带能参数NMinBE和有效子带个数Nub

步骤3由式(9)计算自适应子带对数能量LEb和改进的自适应子带谱熵Hb,再由式(10)计算自适应子带对数能熵积LHb,最后进行中值平滑处理;

步骤4由式(11)和式(12)设置动态阈值,利用单参数双门限法进行端点检测。

4.2 实验环境

本实验在Windows 10系统下,利用Python 3.7平台进行。实验音频分别采用采样频率为8 000 Hz,采样精度为16 bit纯净男声,内容为:“蓝天,白云,碧绿的大海”;另从TIMIT语音库中随机选取10条纯净语音。噪声选自Noisex-92数据库中的White、Pink、Babble、F16、Volvo和Factory噪声。

4.3 实验评价标准

为了验证本文方法的实际性能,分别对增强效果和检测准确率进行评价,具体评价标准如下:

1) 增强效果:分别从信噪比提高和语音质量感知评估测度(PESQ)2个方面综合验证增强性能。

2) 检测准确率:语音端点检测准确率可以定义为:

η=[N-(N1+N2)]/N×100%

(15)

式(15)中:N为语音段的总帧数,是将纯净语音信号端点检测结果和人工校验结果综合所得;N1为噪声被误检成语音的帧数;N2为语音被漏检为噪声的帧数。由于本文设置的最长静音长度为8帧,因此定义检测结果偏差值小于8帧均为检测准确。

5 性能分析

使用常规多窗谱估计谱减法[16]和本文改进的方法对10条TIMIT语音库纯净语音信号在不同信噪比环境下进行增强,结果取平均值如表1、表2所示。

对比表1和表2数据发现,本文改进的谱减法在各类噪声环境下的平均信噪比和平均PESQ分数都要好于传统方法,因此可以证明本文改进的多窗谱估计谱减法性能较好,能够有效提升语音质量。

表1 传统多窗谱估计谱减的平均信噪比/PESQ分数

Table 1 Average signal-to-noise ratio(SNR)/PESQ fraction of spectral subtraction estimated by traditional multiwindow spectrum

10 dB5 dB0 dB-5 dBWhite13.72/2.3410.57/1.745.52/1.373.62/1.13Pink13.55/2.339.64/1.955.46/1.413.23/1.18F1613.40/2.318.83/1.926.25/1.543.83/1.27Factory14.26/2.7910.81/2.488.78/2.126.26/1.69Volvo14.78/3.2711.92/3.118.52/3.007.05/2.44Babble12.83/2.258.12/1.943.54/1.360.86/0.87

表2 本文改进谱减法的平均信噪比/PESQ分数

Table 2 Average signal-to-noise ratio/PESQ score of the improved spectral subtraction is presented in this paper

10 dB5 dB0 dB-5 dBWhite15.39/2.4712.15/1.856.56/1.454.09/1.21Pink14.30/2.4210.35/2.026.29/1.533.63/1.27F1614.07/2.409.89/2.046.59/1.674.09/1.35Factory15.01/2.8611.22/2.569.14/2.256.48/1.81Volvo15.69/3.5012.61/3.258.70/3.057.24/2.57Babble12.94/2.318.50/2.033.82/1.490.94/0.95

为验证自适应子带对数能熵积法的准确性和鲁棒性,本文利用不同种类噪声在不同信噪比环境下进行仿真测试,同时使用传统短时能量和过零率方法[17]以及文献[6]基于MFCC倒谱距离与对数的方法进行对比分析。图3~图5为0 dB White噪声环境中上述3种方法对“蓝天,白云,碧绿的大海”语音段的检测结果。

图3 0 dB White噪声环境中短时能量和过零率检测曲线

Fig.3 Short time energy and zero crossing rate detection in 0 dB White noise environment

图4 0 dB White噪声环境中文献[6]提出的MFCC距离检测曲线

Fig.4 MFCC distance detection method proposed in literature[6] in 0 dB White noise environment

图5 0 dB White噪声环境中本文提出的自适应子带对数能熵积法检测曲线

Fig.5 Adaptive sub-band logarithmic energy entropy-product method proposed in this paper in 0 dB white noise environment

图3中,短时能量和过零率检测法漏检掉了3.5 s左右的“大海”这一部分内容。虽然文献[6]和本文提出方法均较为完整地检测出所有的语音段,但如图4所示,文献[6]方法在2.1 s附近区域将部分噪声错检为语音。

图6~图8为0 dB Volvo噪声环境中上述3种方法的检测结果。如图6所示,短时能量和过零率检测法此时出现了大量的错检,将噪声段检测为语音段;图7中,文献[6]基于MFCC倒谱距离与对数的方法同样在3.5 s左右出现部分错检,将部分噪音错判断为语音;图8中,本文使用的自适应子带对数能熵积法能够较为准确的检测出各语音段,没有出现明显的漏检和错检。

图6 0 dB Volvo噪声环境中短时能量和过零率检测曲线

Fig.6 Short time energy and zero crossing rate detection in 0 dB Volvo noise environment

图7 0 dB Volvo噪声环境中文献[6]提出的MFCC距离检测曲线

Fig.7 MFCC distance detection method proposed in literature[6]in 0 dB Volvo noise environment

图8 0 dB Volvo噪声环境中本文提出的自适应子带对数能熵积法检测曲线

Fig.8 Adaptive sub-band logarithmic energy entropy-product method proposed in this paper in 0 dB Volvo noise environment

为进一步验证本文算法的稳定性和鲁棒性,将随机提取的10组TIMIT语音库纯净语音信号分别以-5、0、5和10dB的信噪比添加选取的6种不同噪声,而后使用3种语音端点检测方法进行检测,将所得检测结果取平均值,得到各自检测法的平均检测准确率如表3~表5所示。

表3 短时能量和过零率法的平均准确率

Table 3 Average accuracy of short-time energy and zero crossing rate method

10 dB5 dB0 dB-5 dBWhite92.4385.1782.3671.21Pink90.6382.3975.9864.43F1688.8580.9173.3566.37Factory86.8878.1170.8963.07Volvo91.8883.8476.8568.34Babble86.4575.8468.0958.74

表4 文献[6]提出的MFCC距离法的平均准确率

Table 4 Average accuracy of MFCC distance method proposed in literature[6]

10 dB5 dB0 dB-5 dBWhite93.6691.2687.1782.16Pink92.2089.3583.4476.11F1691.6988.7382.8977.71Factory89.4586.9681.5675.32Volvo92.9490.3384.1978.36Babble87.5680.2175.8868.52

表5 本文方法的平均准确率

Table 5 The average accuracy of the method in this paper

10 dB5 dB0 dB-5 dBWhite93.5391.1989.2685.91Pink92.7490.0385.7878.12F1691.9590.2184.4179.65Factory91.5388.6883.2477.98Volvo93.1890.8787.1680.92Babble88.1881.6377.1571.36

对上述结果进行分析,发现3种方法在White噪声环境下表现都好于其他噪声,而Babble噪声对检测结果影响最大。短时能量和过零率检测法总体检测效果最差;文献[6]的算法在高信噪比环境下检测效果较好,但在极低信噪比环境下的表现有待提高;本文采用的自适应子带对数能熵检测法虽然在极低信噪比环境下也存在个别漏检和错检,但整体表现明显优于另外2种检测方法,在不同的噪声环境下准确率较其他方法也有提升。

6 结论

提出一种新的语音端点检测方法,通过改进的多窗谱估计谱减法,提高语音信号的信噪比,改善语音质量,并以自适应子带对数能熵积为阈值,基于动态阈值双门限检测方法进行端点检测。仿真实验结果表明,基于谱减与自适应子带能熵积检测法在低信噪比环境下检测性能得到有效提升,相比短时能量和过零率检测法和基于MFCC倒谱距离与对数的语音端点检测方法,能够更为准确的实现语音端点检测,且具有更好的抗噪性和鲁棒性。

参考文献:

[1] 韩云霄,邵清,符玉襄,等.复杂噪声中基于MFCC距离的语音端点检测算法[J].计算机工程,2020,46(03):309-314.

Han Y X,Shao Q,Fu Y X,et al.Speech endpoint detection algorithm based on MFCC distance in complex noise[J].computer engineering,2020,46(03):309-314.

[2] Jinku L,Jan S,Zakizadeh S T,et al.Phase-sensitive joint learning algorithms for deep learning-based speech enhancement[J].IEEE Signal Processing Letters,2018,25:1276-1280.

[3] Ivry A,Berdugi B,Cohen I.Voice Activity Detection for Transient Noisy Environment Based on Diffusion Nets[J].IEEE Journal of Selected Topics in Signal Processing,2019,13(02):254-264.

[4] 林琴,涂铮铮,王庆伟,等.一种基于近邻传播聚类的语音端点检测方法[J].安徽大学学报(自科版),2019,43(03):27-32.

Lin Q,Tu Z Z,Wang Q W,et al.Voice activity detection based on affinity propagation clustering[J].Journal of Anhui University(Natural Science edition),2019,43(03):27-32.

[5] Zaw T H,War N.The combination of spectral entropy,zero crossing rate,short time energy and linear prediction error for voice activity detection[C]//Proc.of the 2017 20th International Conference of Computer and Information Technology(ICCIT),2017.

[6] 曾树华,吕敬祥,聂小武.基于MFCC倒谱距离与对数的语音端点检测方法[J].电声技术,2016,40(09):51-55.

Zeng S H,Lv J X,Nie X W.Speech endpoint detection method based on fusion of MFCC distance and logarithmic energy parameter[J].Audio Engineering,2016,40(09):51-55.

[7] 唐俊龙,刘远治,禹智文,等.语音端点检测中能零比方法的改进[J].电子测试,2020(07):47-49.

Tang J L,Liu Y Z,Yu Z W,et al.Speech endpoint detection method based on improved energy-zero ratio[J].Electronic test,2020(07):47-49.

[8] 张毅,王可佳,席兵,等.基于子带能熵比的语音端点检测算法[J].计算机科学,2017,44(05):304-307.

Zhang Y,Wang K J,X b,et al.Speech endpoint detection algorithm based on sub-band energy-entropy-ratio[J].Computer Science,2017,44(05):304-307.

[9] Makhoul J,Berouti M.Adaptive noise spectral shaping and entropy coding in predictive coding of speech[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1979,27(01):63-73.

[10] Thomson D J.Spectrum estimation and harmonic analysis[J].Proceedings of the IEEE,1982,70(09):1055-1096.

[11] 肖述才,王作英.端点检测中的一种新的对数能量特征[J].电声技术,2004(06):37-41.

Xiao S C,Wang Z Y.A new logarithmic energy feature for endpoint detection[J].Audio Engineering,2004(06):37-41.

[12] 曾剑飞.低信噪比条件下的语音端点检测算法研究[D].广州:华南理工大学,2019.

Zeng J F.Research on voice activity detection algorithm in low SNR[D].Guangzhou:South China University of Technology,2019.

[13] Wu B F,Wang K C.Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments[J].IEEE Transactions on Speech & Audio Processing,2005,13(05):762-775.

[14] 王琳,李成荣.一种基于自适应谱熵的端点检测改进方法[J].计算机仿真,2010,27(12):373-375.

Wang L,Li C R.An improved speech endpoint detection method based on adaptive band-partition spectral entropy[J].Computer Simulation,2010,27(12):373-375.

[15] 虎大力.噪声环境下语音信号端点检测的方法研究[D].成都:西华大学,2012.

Hu D L.Methods of speech endpoints detection in noisy environments[D].Chengdu:Xihua University,2012.

[16] Hu Y,Loizou P C.Speech enhancement based on wavelet thresholding the multitaper spectrum[J].IEEE Transactions on Speech and Audio Proceessing,2004,12(01):59-67.

[17] 宋知用.MATLAB语音信号分析与合成[M].北京:北京航空航天大学出版社,2018.

Song Z Y.MATLAB speech signal analysis and synthesis[M].Beijing:Beijing University of Aeronautics and Astronautics Press,2018.

Endpoint detection based on spectral subtraction and logarithmic energy entropy product of adaptive sub-bands

ZHANG Hongde1, HAN Xinyi1, LIU Lin2, LIU Yang1

(1.Communication Sergeants College, PLA Army Engineering University, Chongqing 400035, China; 2.Hefei Flytek Digital Technology limited company, Hefei 230088, China)

Abstract: Aiming at the problems of low accuracy and poor robustness of speech endpoint detection in low SNR environment, a speech endpoint detection algorithm combining spectral noise reduction and the product of logarithmic energy entropy of adaptive sub-bands was proposed. The improved multi-window spectral subtraction method was used to improve the quality of speech signals. A new speech feature parameter, the logarithmic energy entropy product of adaptive sub-band, was used as the threshold, and the dynamic threshold double-threshold detection method was used to detect speech endpoints. Experimental results show that the proposed algorithm has better accuracy and robustness for low SNR speech signals.

Key words: speech endpoint detection; sub-band logarithmic energy; sub-band spectral entropy; multi-window spectrum estimation spectrum subtraction method; double threshold detection

收稿日期:2021-03-01; 修回日期:2021-03-30

基金项目:军内科研项目(LJ20191C070659)

作者简介:张洪德(1977—),男,博士,副教授,E-mail:hdzhang264@126.com。

通信作者:韩鑫怡(1993—),男(苗),硕士研究生,E-mail:976455756@qq.com。

doi: 10.11809/bqzbgcxb2022.02.042

本文引用格式:张洪德,韩鑫怡,柳林,等.基于谱减与自适应子带对数能熵积的端点检测[J].兵器装备工程学报,2022,43(02):267-273.

Citation format:ZHANG Hongde,HAN Xinyi,LIU Lin, et al.Endpoint detection based on spectral subtraction and logarithmic energy entropy product of adaptive sub-bands[J].Journal of Ordnance Equipment Engineering,2022,43(02):267-273.

中图分类号:TN912.3

文献标识码:A

文章编号:2096-2304(2022)02-0267-07

科学编辑 吕亚昆 博士(航天工程大学)责任编辑 唐定国