基于相对谱滤波的MFCC参数提取

发布时间:2014-04-28 08:13:46

基于相对谱滤波的MFCC参数提取
作者:李素平
来源:《电子世界》2013年第13

        【摘要】MFCC模拟了人的听觉心理效应,相对谱RASTA滤波技术具有补偿环境和声道的动态作用。特征参数RASTA-MFCC结合了两者的优点,其提取通过对原语音信号预加重,分帧,加窗,然后通过Mel滤波器求对数,最后通过DCT求倒谱和RASTA滤波获得。实验证明:RASTA-MFCC参数在语者识别方面相比于MFCC有更大的优势,其更大程度上体现了语音信号激励源声带的信息。

        【关键词】RASTA-MFCCMFCC;相对谱滤波

        1.引言

        真正意义上的自动说话人识别的研究始于20世纪60年代.此后40多年间人们提出了多种关于语音信号参数的模型[1]。其中Mel频率倒谱系数MFCC应用最为广泛,尤其是在提高说话人的识别率方面。人们对MFCCMel Frequency Cepstrum Coefficient))参数进行了很多的研究[2-5]Mel频率倒谱系数(MFCC)模拟了人的听觉心理效应,消除环境和声道的动态特性,相对谱滤波器补偿了环境和声道的动态作用。本文采用了Mel倒谱算法提取语音参数,再通过对语音信号的滤波处理,使得提取的参数准确性提高,使得提取的参数准确性提高。

        2.RASTA-MFCC参数设计

        对说话人用MFCC进行语音识别,将语音信号简单化,但由于识别的语音信号会受到环境的影响,不能完全辨认出说话人,此时将MFCC通过相对滤波器[6]本文中将通过RASTA滤波后的MFCC参数称为RASTA-MFCCRelative Spectral Based Mel Frequency Cepstrum Coefficient)。相对滤波器就是对声道的补偿,使语音信号不受环境的影响,最终完成整个设计[7]

        2.1 带通滤波器RASTA的设计

        语音信号在携带有语音信息的同时也受到通信环境的影响,频率特征对语音信号的短时频谱有强烈地影响。相对滤波器就是对声道的补偿,降低环境变化对于因信号的影响程度[8].

        语音信号是由声道运动编码的,而非语音的干扰成分的变化速率通常位于声道形状变化的典型值之外,因此,Hermansky提出了语音信号的经典RASTA滤波技术,具体见参考文献[9]

        2.2 RASTA-MFCC参数提取及各阶系数物理意义

        如图1所示,为消除嘴唇处辐射的影响,先对原语音信号进行预加重,然后对加窗分帧后信号进行快速傅立叶变换后进行Mel滤波,以此来模拟人耳的掩蔽效应。之后对取对数后的信号进行DCT变换,最后通过RASTA滤波后得到RASTA-MFCC参数。

        由语音信号的发生机制知:语音信号可看作声带为激励源,声道为滤波器的发生模型。倒谱参数的高阶更多地反映了激励源的信息,而低阶参数则更多地反映了声道的信息。MFCC可分为高阶(高频)部分与低阶(低频)部分,从而MFCC高阶参数描述的主要是激励源,也就是说话人的语音信号的激励,低阶描述的是说话人发音的声道特性。

        3.仿真实现

        本文的采用了22050Hz采样率、16bits量化、单声道语音,每帧24ms(约512点),帧移量12ms,并利用汉明窗进行短时分析,创建了几个简单韵母和简单名词的语音库。选择由相同人发声的韵母ao及由和上述韵母发声非同一人发声的简单词汇作为被分析对象。

        2是单个韵母“a”“o”语音滤波前后倒谱系数MFCCRASTA-MFCC对比图。

        由图2可知:低阶倒谱波动幅度较大,高阶波动较小,且滤波后的RASTS-MFCC高阶参数幅值变得更小,即高阶参数的波动趋向平稳。这是由于,高阶倒谱系数反映了说话人声带即激励源的信息,而无论滤波前后图2描述的都是同一说话人的声音。由此可见,RASTA-MFCC参数相比于MFCC参数进一步优化了声带特性。

基于相对谱滤波的MFCC参数提取

相关推荐