当前位置:首页 > 消费电子 > 消费电子
[导读]语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。2019年8月17日,北京互联网法院发布《互联网技术司法应用白皮书》,该《白皮书》阐述了十大典型技术应用,其中包括语音识别技术。

完整的语音芯片识别系统涵盖了很多技术,成熟的语音识别技术,几乎改变了互联网和人机交互的方式,语音识别技术的发展速度也是迅速的,几乎每年都会有新的惊喜出现,那么完整的语音识别系统到底包含哪些技术呢?

完整的语音识别系统包含哪些技术

一、信号处理技术

对语音信号进行分析处理,通过静音处理、噪音处理、语音增强等方法,消除外部环境对语音的影响,去除多余信息。

二、声学特征提取技术

接收信号处理后等到的有效信号,对波形进行声学特征提取,提取关键信息和表达语言含义的特征信息。

三、声学模型处理技术

声学模型是语音识别技术中最关键的部分,它可以提取语音特征矢量序列,计算发音模板的距离,生成声学模型分数。

四、语音模型技术

语音模型对语音识别技术也非常的重要,通常采用的是统计语法的语音模型、语义和语法结构命令语言模型为主,对语法和语义进行分析,减少搜索空间,提高系统识别率。语音识别技术是将声音转化成文字的一种技术,类似于人类的耳朵,拥有听懂他人说话的内容并将其转换成可以辨识的内容的能力。

不妨设想一个场景,当你加完班回到家中,疲惫地躺在沙发上,随口一句“打开电视”,沙发前的电视按命令开启,然后一个温柔的声音问候你,“今天想看什么类型的电影?”或者主动向你推荐目前流行的一些影片。

这些都是语音识别所能够处理的场景,虽然看似科幻,但是实际上这些场景已经不再是以往人们的设想,正在悄悄地走进你我的生活。

2018 年,谷歌在开发者大会上演示了一个预约理发店的聊天机器人,语气惟妙惟肖,表现相当令人惊艳。相信很多读者都接到过人工智能的推销电话,不去仔细分辨的话,根本不知道电话那头只是一个能够做出语音处理的聊天机器人程序。

“语音转换”“人机对话”“机器人客服”是语音识别应用广泛的三部分,也是商业价值较高的一些方向。此外,还有看图说话等一些带有娱乐性质的应用。这些统统是语音识别技术的应用。

语音识别通常称为自动语音识别(Automatic Speech Recognition,ASR),主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。

语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键环节。但是,语音识别自诞生以来的半个多世纪,一直没有在实际应用过程得到普遍认可。一方面,语音识别技术存在缺陷,其识别精度和速度都达不到实际应用的要求;另一方面,业界对语音识别的期望过高,实际上语音识别与键盘、鼠标或触摸屏等应该是融合关系,而非替代关系。

深度学习技术自 2015 年兴起之后,已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过95%,意味着具备了与人类相仿的语言识别能力,而这也是语音识别技术当前发展比较火热的原因。

随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,特别是远场语音识别已经随着智能音箱的兴起,成为全球消费电子领域应用最成功的技术之一。由于语音交互提供了更自然、更便利、更高效的沟通形式,因此语音必定成为未来主要的人机互动接口之一。

当然,当前技术还存在很多不足,如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升;另外,多人语音识别和离线语音识别也是当前需要重点解决的问题。虽然语音识别还无法做到无限制领域、无限制人群的应用,但是至少从应用实践中我们看到了一些希望。当然,实际上自然语言处理并不限于上文所说的这些,随着人们对深度学习的了解,更多应用正在不停地开发出来,相信读者会亲眼见证这一切的发生。

1993~2009年,语音识别一直处于高斯混合-隐马尔科夫(GMM-HMM)时代,语音识别率提升缓慢,尤其是 2000~2009 年,语音识别率基本处于停滞状态;

2009年,随着深度学习技术,特别是循环神经网络(DNN)的兴起,语音识别框架变为循环神经网络-隐马尔科夫(DNN-HMM),并且使得语音识别进入了神经网络深度学习时代,语音识别精准率得到了显著提升;

2015年以后,由于“端到端”技术兴起,语音识别进入了百花齐放时代,语音界都在训练更深、更复杂的网络,同时利用端到端技术进一步大幅提升了语音识别的性能,直到 2017 年,微软在 Switchboard 上达到词错误率 5.1%,从而让语音识别的准确性首次超越了人类,当然这是在一定限定条件下的实验结果,还不具有普遍代表性。

1) 高斯混合-隐马尔科夫时代

20 世纪 70 年代,语音识别主要集中在小词汇量、孤立词识别方面,使用的方法也主要是简单的模板匹配方法,即首先提取语音信号的特征构建参数模板,然后将测试语音与参考模板参数一一进行比较和匹配,取距离最近的样本所对应的词标注为该语音信号的发音。

该方法对解决孤立词识别是有效的,但对于大词汇量、非特定人的连续语音识别就无能为力。因此,进入 80 年代后,研究思路发生了重大变化,从传统的基于模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。

HMM 的理论基础在 1970 年前后就已经由 Baum 等人建立起来,随后由 CMU 的 Baker 和 IBM 的 Jelinek 等人将其应用到语音识别中。语音识别技术主要包括语音信号处理、声学模型、语言模型和解码器四大部分。其中,语音信号处理用于对原始语音数据进行预处理;声学模型利用高斯混合模型、深度神经网络等方法建立音素到声学特征的映射关系;语言模型则用于根据语法规则预测出可能的单词序列;解码器则根据声学模型和语言模型的结果,对单词序列进行后处理得到最终文本。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭