浅谈语音识别技术的发展趋势与应用前景

[导读] 　　一、语音识别技术定义　　语音识别技术，也被称为自动语音识别Automatic Speech Recognition，（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输

　　一、语音识别技术定义

　　语音识别技术，也被称为自动语音识别Automatic Speech Recognition，（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

　　语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

　　二、语音识别技术原理

　　语音识别系统提示客户在新的场合使用新的口令密码，这样使用者不需要记住固定的口令，系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了，不一致环境造成的性能下降是应用中的一个很大的障碍。

　　其工作原理：

　　动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogert et al出版了《回声的时序倒频分析》。通过交换字母顺序，他们用一个含义广泛的词汇定义了一个新的信号处理技术，倒频谱的计算通常使用快速傅立叶变换。

　　从1975年起，隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法，频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。

　　平均频谱法使用有利的倒频距离，语音频谱中的音位影响被平均频谱去除。使用矢量量化法，语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是，当训练向量的数量很大时，这种直接的描绘是不切实际的，因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacie et al在倒频向量的时序中应用多变量自回归模式来确定语者特征，取得了很好的效果。

　　想骗过语音识别系统要有高质量的录音机，那不是很容易买到的。一般的录音机不能记录声音的完整频谱，录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统，模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的，所以语音识别系统会结合个人身份号码识别或芯片卡。

　　语音识别系统得益于廉价的硬件设备，大多数的计算机都有声卡和麦克风，也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化，所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率，因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说，系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池为电源的系统。

　　三、语音识别的技术实现方式

　　语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面，其中，最基础的就是语音识别单元的选取。

　　（1）语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种语音识别单元由具体研究任务的类型决定：

　　单词（句）单元在中小词汇语音识别系统中应用广泛，但由于模型库过于庞大，模型匹配算法复杂，实时性不强，所以不适合大词汇系统；

　　音节单元主要应用于汉语语音识别，因为汉语是单音节结构的语言，虽然有大约1300个音节，但无调音节共408个，相对较少，所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

　　音素单元之前曾广泛应用于英语语音识别，也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成，把声母细化，虽然增加了模型数量，但是提高了易混淆音节的区分能力

　　（2）特征参数提取技术。特征提取就是对语音信号进行分析处理，把丰富的语音信息中的冗余信息去除，获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程，目前经常采用的特征参数提取技术是线性预测（LP）分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱对人耳处理声音的模拟，进一步提高了语音识别系统的性能。

　　（3）模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术（DTW），它在孤立词语音识别中获得了良好性能，但是由于对大词汇量以及连续语音识别的不准确，目前已经被隐马尔可夫模型（HMM）和人工神经元网络（ANN）所取代。