当前位置:首页 > 嵌入式 > 嵌入式教程


1 引言

从20世纪50年代开始对语音识别的研究开始,经过几十年的发展已经达到一定的高度,有的已经从实验室走向市场,如一些玩具、某些部门密码语音输入等。

随着DSP和专用集成电路技术的发展,快速傅立叶变换以及近来嵌入式操作系统的研究,使得特定人识别尤其是计算量小的特定人识别成为可能。因此,对特定人语音识别技术在汽车控制上的应用的研究是很有前途的。

2 特定人语音识别的方法

目前,常用的说话人识别方法有模板匹配法、统计建模法、联接主义法(即人工神经网络实现)。考虑到数据量、实时性以及识别率的问题,笔者采用基于矢量量化和隐马尔可夫模型(HMM)相结合的方法。

说话人识别的系统主要由语音特征矢量提取单元(前端处理)、训练单元、识别单元和后处理单元组成,其系统构成如图1所示。

图1 系统构成

由上图也可以看出,每个司机在购买车后必须将自己的语音输入系统,也就是训练过程,当然最好是在安静、次数达到一定的数目。从此在以后驾驶过程中就可以利用这个系统了。

所谓预处理是指对语音信号的特殊处理:预加重,分帧处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。用具有 6dB/倍频程的提升高频特性的预加重数字滤波器实现。虽然语音信号是非平稳时变的,但是可以认为是局部短时平稳。故语音信号分析常分段或分帧来处理。

2.1 语音特征矢量提取单元

说话人识别系统设计中的根本问题是如何从语音信号中提取表征人的基本特征。即语音特征矢量的提取是整个说话人识别系统的基础,对说话人识别的错误拒绝率和错误接受率有着极其重要的影响。同语音识别不同,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性。因此,单一的语音特征矢量很难提高识别率。该系统在说话人的识别中采用倒谱系数加基因周期参数,而在对控制命令的语音识别中仅采用倒谱系数。其中,常用的倒谱系数有2 种,即LPC(线性预测系数)和倒谱参数(LPCC),一种是基于Mel刻度的MFLL(频率倒谱系数)参数(Mel频率谱系数)。

对于LPCC参数的提取, 可先采用Durbin递推算法、格型算法或者Schur递推算法来求LPC系数,然后求LPC参数。设第l帧语音的LPC系数为αn,则LPCC的参数为


1<n≤p
其中p为LPCC系数的阶数,k为LPCC系数的递推次数。
进一步的研究发现,引入一阶和二阶差分倒谱可以提高识别率。
对于MPCC参数的提取,若根据Mel曲线将语音信号频谱分为K个频带,每个频带的能量为θ(Mk),则 MFCC参数为
1<n≤p
通过对LPCC和MFCC参数对识别率影响的实验比较,笔者选取LPCC参数及其一阶和二阶差分倒谱稀疏作为特征参数。

基音周期估计的方法很多,主要有基于求短时自相关函数的算法、基于求短时平均幅度差函数(AMDF)的算法、基于同态信号处理和线性预测编码的算法。笔者仅介绍基于求短时自相关函数的算法。

设Sw(n)是一段加窗语音信号,它的非零区间为0<n≤n-1。Sw(n)的自相关函数称为语音信号的S(n)的短时自相关函数,用Rw(l)表示,即
Rw(l)=

可知短时自相关函数在Rw(0)处最大,且在基音周期的各个整数倍点上有很大的峰值,选择合适的窗函数(窗长为40ms的Hamming窗)与滤波器(带宽为60~900Hz的带通滤波器)后,只要找到自相关函数的第一最大峰值点的位置并计算它与零点的距离,便能估计出基音周期。

2.2 训练单元

训练单元的功能是把事先收集到的语音利用一定的算法为每一个待识别的说话人训练出与之相匹配的参数。针对说话人识别在汽车应用中的不同的要求,训练单元也分为2部分:对说话人识别的训练和对待识别词的训练。

对于说话人识别部分的训练, 针对说话人的特征进行训练,为每个合法用户建立一套或多套HMM模型,同时采用基于矢量量化(VQ)的方法,为每个合法用户建立VQ码本。VQ码本的设计采用LBG算法,初始码本的设置采用分裂法初始码本。

第2 部分针对控制命令中用到的每个孤立的词条建立多个训练样本,或称为词条样本,估计出该词条的HMM参数(一套或多套)。对一个HMM过程的完整的描述包括:2个模型参数N和M,3组概率度量A,B和π。为了方便起见,通常采用如下方式表示一个完整的模型:λ=(N,M,π,A,B),或者简写为:λ= (π,A,B)。而对于每一个词条V的模型参数,V=1~V,可以用Baum-Welch重估算法。

2.3 识别单元

识别单元的功能是利用经训练已经获得的HMM模型参数 和测得的说话人的基音周期在一定的判决条件下辨认出待识别的说话人并估计出待识别的控制命令词串。针对HMM模型参数通常采用的判决条件是最大后验概率,用Viterbi算法实现。

2.4 后处理单元

充分利用每个说话人的声道参数和词条中各状态持续时间的概率分布来改进系统的识别率。

3 系统的实现

由于汽车的控制命令是有限的词条和数字串的组合, 对这些语音命令的识别属于特定人小词汇量的连接词的识别以及与文本有关的说话人确认,不论是从目前的DSP运算速度还是存储空间来说,实时实现这些语音命令的识别都是完全可能的。

识别系统组成框图如图所示:在此系统中,对运算能力和存储单元要求非常高的语音识别部分完全由DSP完成。

框图中识别系统的功能是完成语音的输入、A/D转换及识别,系统中核心部分采用TMS320VC5410。其原因是它的运算速度和存储空间都能满足要求,同时它的一些并行运算硬件结构也非常适合语音识别的各种算法,程序和已经脱机训练好的HMM参数表及相应的词典存放在程序存储器中,数据存储器存放识别过程中的中间计算数据。A/D芯片采用TLC320AD50C, 里面含有A/D、D/A以及低通滤波器和采样保持电路。模拟语音信号的输入主要是通过传声器,保证语音门禁的安全性,转换后的数字语音数据以同步串行通信方式传送给DSP。如图2。

图2 识别系统的组成框图

4 结束语

语音控制汽车是未来的一种趋势。目前,将语音技术应用于汽车的产品只有在一些玩具中用到,由此可想利用语音技术进行汽车控制这一领域蕴涵着相当大的潜在市场。

而且,说话人识别技术已经发展到可以应用到实际的阶段了,但目前对说话人识别的应用并不是很多。笔者尝试提出一种比较容易实现的方案,将说话人识别技术应用到实际中。但在实际应用中,说话人识别系统都面临一个共同的问题,即无法区分一个发音是现场发音还是录音回放。针对该现象,笔者提出的说话人识别系统可以有效地防止这种情况发生。具体实现说话人识别系统时,可采用随机或其它方法来生成提示文本。如随机的数字串,以使假冒者无法事先录音,增加驾驶的安全性。


本文来源:PLC&FA 作者:张志刚 陈昌巨

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭