原创

语音识别技术原理

时间：2024-03-29 14:00:01

关键字：语音识别数字信号信号处理

手机看文章

扫描二维码
随时随地手机看文章

[导读]需要将人类语音通过麦克风等设备转换成数字信号。这一步通常涉及信号处理技术，如滤波和分帧，以去除背景噪声和提高信号质量。

语音识别技术是一种将人类语音中的词汇内容转换为计算机可读的输入的技术，其基本原理包括以下几个步骤：

语音信号采集与预处理：首先，需要将人类语音通过麦克风等设备转换成数字信号。这一步通常涉及信号处理技术，如滤波和分帧，以去除背景噪声和提高信号质量。

特征提取：在预处理之后，将语音信号分割成小段(称为帧)，并对每一帧进行特征提取。这个过程涉及将语音信号从时域转换到频域，提取能够反映语音本质特征的关键信息，如MFCC(Mel频率倒谱系数)等。

建立声学模型：声学模型是基于声学特性计算语音信号特征向量在声学特征上的得分。它包括所有文字的发音，用于识别语音信号与哪个声学模型最匹配。234

建立语言模型：语言模型基于语言学理论，计算语音信号对应的可能词组序列的概率。它包括各种语言表达，如句子、文言文等。

解码与识别：最后，根据声学模型和语言模型的结果，对词组序列进行解码，得到可能的文本表示。这个过程涉及将输入语音信号的特征参数与模板库中的特征参数进行对比，以识别语音信号。

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。2019年8月17日，北京互联网法院发布《互联网技术司法应用白皮书》，该《白皮书》阐述了十大典型技术应用，其中包括语音识别技术。随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科拄发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 [2]语音识别技术属于人工智能方向的一个重要分支，涉及许多学科，如信号处理、计算机科学、语言学、声学、生理学、心理学等，是人机自然交互技术中的关键环节。 [5]语音识别较语音合成而言，技术上要复杂，但应用却更加广泛。语音识别ASR的最大优势在于使得人机用户界面更加自然和容易使用。

语音识别的技术原理是什么?

语音识别主要基于深度学习的技术，其整个过程可以大致划分为声音信号处理、特征提取、声音模型训练、语言模型训练和识别这几个关键步骤。

首先，声音信号处理。因为我们发出的声音是连续的声音波，为了方便后续处理，我们需要对这些连续信号进行分段处理，这就是语音信号的预处理工作。要把连续的声音切分成一小段一小段的，每一小段也叫一帧。

然后，进行特征提取。这是提取出每一帧声音的特征值，如频率、能量等等。当我们有了这些特征值，我们就可以把他们送到神经网络中去训练，然后用模型来进行预测。

随后是声音模型训练，这是为了获取发音的规律。通过大量的语音数据，用深度神经网络进行训练，得到一个模型，这个模型能够根据语音的特征，预测出这段语音最可能的发音。

在声音模型训练之后，就是语言模型训练。语言模型主要是为了获取语言的规律，比如哪些词经常会在一起出现，哪些词后面会跟哪些词等等。通过大量的文本数据进行训练，得到一个能够预测语句合理性的模型。

最后，识别就是根据声音模型和语言模型，对输入的语音进行解码，得出最可能的文字结果。

这个过程就好比我们学习一门新的语言。首先我们会把这种语言拆解成单词，逐个学习并理解其意思。然后通过对该语言的熟练掌握，我们能够理解并使用这门语言进行沟通。语音识别无非就是让机器做同样的事情，只不过机器学习的方式是训练数据模型和神经网络。

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

2、语音识别技术的发展历史及现状

1952年，AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年，美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统，该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959 年，Fry和Denes等人尝试构建音素器来4个元音和9个辅音，并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。

从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代，苏联的Matin等提出了语音结束点的端点检测，使语音识别水平明显上升;Vintsyuk提出了动态编程，这一提法在以后的识别中不可或缺。

60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术，有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚，取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式，它正逐步成为信息技术中人机接口的关键技术。

3、语音识别的方法

目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。

动态时间规整算法(Dynamic Time Warping，DTW)是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。

隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。

矢量量化(Vector Quantization)是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型，它与 HMM正好相反，其分类决策能力和对不确定信息的描述能力得到举世公认，但它对动态时间信号的描述能力尚不尽如人意，通常MLP分类器只能解决静态模式分类问题，并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构，但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显着进展，其识别率已经接近隐含马尔可夫模型的识别系统，进一步提高了语音识别的鲁棒性和准确率。

支持向量机(Support vector machine)是应用统计学理论的一种新的学习机模型，采用结构风险最小化原理(Structural Risk Minimization，SRM)，有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力，在解决小样本、非线性及高维模式识别方面有许多优越的性能，已经被广泛地应用到模式识别领域。

4、语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑，可以将识别系统分为三类：(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。(2)非特定人语音系统。识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习。(3)多人的识别系统。通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。

如果从说话的方式考虑，也可以将识别系统分为三类：(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现。(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。

如果从识别系统的词汇量大小考虑，也可以将识别系统分为三类：(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统，将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

5、语音识别的应用

语音识别可以应用的领域大致分为大五类：

办公室或商务系统。典型的应用包括：填写数据表格、数据库管理和控制、键盘功能增强等等。

制造业：在质量控制中，语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控(部件检查)。

电信：相当广泛的一类应用在拨号电话系统上都是可行的，包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。

医疗：这方面的主要应用是由声音来生成和编辑专业的医疗报告。

其他：包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制，如车载交通路况控制系统、音响系统。