摘 要:为了降低语音识别系统中噪声的影响,提出一种利用隐空间投影算法的模型自适应方法。该方法利用状态间的相关性提取出反映码本和待识别语音共同特性的基矢量。由于语音与噪声是相互独立的,因此,当语音识别系统中有噪声存在时,认为不能用基矢量表示的那部分余量就是噪声。与本征音方法相比,该方法可以有效地降低噪声对语音识别系统的影响。该方法在提取基矢量时利用了自适应教据,并且节省了存储空间。实验结果表明:该方法在噪声环境下相对于最大似然线性回归自适应方法有4~9百分点的提高,相对于最大后验概率和本征音方法有更大的提高。
关键词:信息处理;说话人自适应;隐空间投影;空间相关性
语音识别技术近些年来取得了很大的进展,得到了广泛的应用,但是,稳健性问题仍然是语音识别中一个严重的问题。所谓的稳健性是指语音识别系统在各种条件下都能保持较高识别率的这样一种性质,稳健性问题的解决将是推动语音识别技术实用化的一个关键因素。模型自适应是一种解决稳健性问题比较有效的方法,通过利用少量的待识别语音更新码本,使得自适应后的码本更接近于待识别的语音的特性,同时使得自适应后的码本更接近于识别环境。
声学码本的各个状态之间是相互关联的,某些状态间存在着很强的相关性,这种相关性被称为“空间相关性。由于噪声与语音信号是统计独立的,语音信号的相关性是噪声所不具备的,因此,可以利用语音信号的空间相关性提高语音识别系统的稳健性。
为了减弱噪声对语音识别系统的影响,本文提出了一种利用隐空间投影projection to latentstructure(PLS)的模型自适应方法,该方法利用声学状态间的相关性,通过模型自适应降低噪声对语音识别系统的影响。
目前比较有效的自适应技术有最大似然线性回归(maximum likelihood linear regression,MLLR)、最大后验概率(maximum a posterior,MAP)和本征音(eigenvoice,EV)等几种,MLLR利用期望值最大(expectation maximization,EM)算法使得自适应数据的似然值最大,MAP利用最大后验概率更新当前码本参数。EV算法利用主分量分析(principal componentanalysis,PCA)来提取出一组基,用这组基来表示码本的性质,由于码本的状态间存在着相关性,因此,可以用较少的基来表示码本的特性,然后根据待识别说话人的特性调整各个基的系数;但是,由于这些基是从训练数据中提取出来的,当码本训练数据有限时,它可能不能充分地反映待识别的说话人的特性,或者说待识别说话人与码本之间的相关性。PLS方法则可以解决这个问题,它与EV算法的主要区别在于,PLS方法在提取基矢量的过程中利用了待识别的说话人数据。由于噪声与语音是统计独立的,因此,可以认为待识别说话人数据中不能用这组基线性表示的余量就是噪声。
1 PLS模型自适应
如果用X表示码本,Y表示待识别语音(来自同一说话人),PLS模型则要寻找一组基矢量ti,这组基矢量既可以用来表示X,也可以用来表示Y,即X和Y均表示成隐变量ti的线性变换。当有噪声存在时,不能用基矢量的线性组合表示的那部分语音就是噪声。表示如下:

其中:X是K×N维矩阵;Y是K×M维矩阵,K表示特征维数,N表示码本状态个数,M表示说话人统计量包含的状态数目(M≤N);ti是K×1维的列矢量,ti的个数用A来表示,即i=1,2,…,A;pi是N×1维的列矢量;ri是M×1维的列矢量。这里的pi和ri分别表示ti在X中及Y中的权重,矩阵E和F表示预测误差矩阵,那么噪声就表示为误差矩阵F。
1.1 基向量的求解
假设从两组变量中分别提取成分t和u,t是自变量X的一个线性变换t=Xw,u是因变量X的一个线性变换u=Yv。
欲使得t和u的相关程度达到最大,即可以通过让t和u的内积最大来实现,即一个条件极值问题:

利用Langrange乘数法,可知当t是矩阵
的最大特征值对应的特征向量时,u是矩阵
的最大特征值对应的特征向量时,t和u的相关程度达到最大。
1.2 PLS说话人自适应算法计算步骤
根据上面给出的基向量求解方法,可以给出下面的PLS说话人自适应算法的计算步骤。
步骤l变量去均值归一化处理,X和Y的各个分量都要去均值归一化,设Xo和Yo分别表示经过归一化和去均值处理后的矩阵。
下面用Xi、Yi、ti、pi、ri分别表示第i次迭代得到的自变量、因变量、基矢量、自变量系数、因变量系数,其中i=1,2,…,A,A表示基矢量的个数。
步骤2 又分为3步。

步骤3 利用Yi更新码本中相应状态的均值。
与EV算法相比,PLS利用了待识别说话人的数据提取基矢量,因此,它所提取出的基矢量能反映待识别的说话人的特性,可以用于说话人自适应。此外,当待识别的语音中含有噪声时,由于这组基也是反映码本特性的,因此,利用它来表示的说话人语音特征可以抑制噪声的影响。
PLS自适应方法与本征音自适应方法比较如下。
1)本征音需要在训练时得到说话人相关矩阵的本征矢量。由于每个说话人矢量是一个维数很高的矩阵,因此需要大量的存储空间。
PLS是在识别时结合说话人特征统计信息计算基矢量,不需要很大的存储空间,但是增加了自适应时的计算时间;
2)PLS在说话人自适应的同时还可以利用余量矩阵克服噪声的影响。
本征音方法虽然在有噪声时也能达到自适应说话人的效果,但是没有考虑噪声对基矢量的影响。
2 实验结果
实验采用的数据集是国家“八六三”高技术项目提供的数据,共83个男声文件,每个文件对应一个说话人,每个说话人650句左右。实验采用的语音识别模型是基于段长分布的隐含马尔可夫模型(duration distribution based hidden Markov model, DDBHMM),状态采用全协方差的单Gauss分布(single Gauss distribution,SGD)来描述,利用双音子模型,一共857个状态,特征提取14维MFCC系数加上能量维和一、二阶差分共45维。实验中,取前76个说话人的语音作为训练集,后7个说话人的语音作为测试集,7个人的平均识别结果作为最后结果。测试时取前120句用于有监督自适应得到说话人相关码本,其余的用于识别测试。实验所用的噪声为NOISE92数据库提供的white、hfchannel、f16和pink噪声,采用人工迭加方式,信噪比分别为20 dB、25 dB。表1、表2分别给出了25 dB、20 dB两种信噪比下的声学层首选无调拼音格识别错误率。

从表1、表2可以看出,在white,hfchannel,f16,pink几种噪声25 dB、20 dB情况下,PLS相比于MLLR,有4~9个相对百分点的提高,相对于MAP、EV方法的改进更大。
3 结 论
实验结果证明了PLS方法可以显著地降低系统的识别错误率,当有噪声存在时性能明显优于MAP、EV和MLLR方法;但是,由于PLS方法中对应于同一基矢量的各状态系数都是变化的,因此,需要估计的参数较多,需要一定的自适应数据量才可以优于其他的自适应方法。如果能够找到一种可以降低需要估计的参数数目的方法,将有可能提高自适应速度,使得这种方法在较少数据量时候的识别性能得到进一步改善。

