当前位置:首页 > 智能硬件 > 智能硬件
[导读]语音识别已成为人与机器通过自然语言交互重要方式之一,本文将从语音识别的原理以及语音识别算法的角度出发为大家介绍语音识别的方案及详细设计过程。

语音识别已成为人与机器通过自然语言交互重要方式之一,本文将从语音识别的原理以及语音识别算法的角度出发为大家介绍语音识别的方案及详细设计过程。

语言作为人类的一种基本交流方式,在数千年历史中得到持续传承。近年来,语音识别技术的不断成熟,已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言?本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。

随着计算机技术的飞速发展,人们对机器的依赖已经达到一个极高的程度。语音识别技术使得人与机器通过自然语言交互成为可能。最常见的情形是通过语音控制房间灯光、空调温度和电视的相关操作等。并且,移动互联网、智能家居、汽车、医疗和教育等领域的应用带动智能语音产业规模持续快速增长, 2018年全球智能语音市场规模将达到141.1亿美元。

 

 

目前,在全球智能语音市场占比情况中,各巨头市场占有率由大到小依次为:Nuance、谷歌、苹果、微软和科大讯飞等。

 

 

语音识别的本质就是将语音序列转换为文本序列,其常用的系统框架如下:

 

 

接下来对语音识别相关技术进行介绍,为了便于整体理解,首先,介绍语音前端信号处理的相关技术,然后,解释语音识别基本原理,并展开到声学模型和语言模型的叙述,最后,展示我司当前研发的离线语音识别demo。

1.前端信号处理

前端的信号处理是对原始语音信号进行的相关处理,使得处理后的信号更能代表语音的本质特征,相关技术点如下表所述:

1)语音活动检测

语音活动检测(Voice Activity Detection, VAD)用于检测出语音信号的起始位置,分离出语音段和非语音(静音或噪声)段。VAD算法大致分为三类:基于阈值的VAD、基于分类器的VAD和基于模型的VAD。

基于阈值的VAD是通过提取时域(短时能量、短时过零率等)或频域(MFCC、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的。

基于分类的VAD是将语音活动检测作为(语音和非语音)二分类,可以通过机器学习的方法训练分类器,达到语音活动检测的目的。

基于模型的VAD是构建一套完整的语音识别模型用于区分语音段和非语音段,考虑到实时性的要求,并未得到实际的应用。

2)降噪

在生活环境中通常会存在例如空调、风扇等各种噪声,降噪算法目的在于降低环境中存在的噪声,提高信噪比,进一步提升识别效果。

常用降噪算法包括自适应LMS和维纳滤波等。

3)回声消除

回声存在于双工模式时,麦克风收集到扬声器的信号,比如在设备播放音乐时,需要用语音控制该设备的场景。

回声消除通常使用自适应滤波器实现的,即设计一个参数可调的滤波器,通过自适应算法(LMS、NLMS等)调整滤波器参数,模拟回声产生的信道环境,进而估计回声信号进行消除。

4)混响消除

语音信号在室内经过多次反射之后,被麦克风采集,得到的混响信号容易产生掩蔽效应,会导致识别率急剧恶化,需要在前端处理。

混响消除方法主要包括:基于逆滤波方法、基于波束形成方法和基于深度学习方法等。

5)声源定位

麦克风阵列已经广泛应用于语音识别领域,声源定位是阵列信号处理的主要任务之一,使用麦克风阵列确定说话人位置,为识别阶段的波束形成处理做准备。

声源定位常用算法包括:基于高分辨率谱估计算法(如MUSIC算法),基于声达时间差(TDOA)算法,基于波束形成的最小方差无失真响应(MVDR)算法等。

6)波束形成

波束形成是指将一定几何结构排列的麦克风阵列的各个麦克风输出信号,经过处理(如加权、时延、求和等)形成空间指向性的方法,可用于声源定位和混响消除等。

波束形成主要分为:固定波束形成、自适应波束形成和后置滤波波束形成等。

2.语音识别的基本原理

 

 

3.声学模型

 

 

传统的语音识别系统普遍采用基于GMM-HMM的声学模型,示意图如下:

 

 

 

 

基于GMM-HMM的语音识别只能学习到语音的浅层特征,不能获取到数据特征间的高阶相关性,DNN-HMM利用DNN较强的学习能力,能够提升识别性能,其声学模型示意图如下:

 

 

GMM-HMM和DNN-HMM的区别在于用DNN替换GMM来求解发射概率,GMM- HMM模型优势在于计算量较小且效果不俗。DNN-HMM模型提升了识别率,但对于硬件的计算能力要求较高。因此,模型的选择可以结合实际的应用调整。

 

 

5.语音识别效果展示

基于PC的语音识别展示demo如下视频所示:

此处插入视频zal_asr_demo_video.mp4

视频包括使用“小致同学”唤醒设备,设备唤醒之后有12秒时间进行语音识别控制,空闲时间超过了12秒将再次休眠。

我们的语音识别算法已经部分移植到了基于AWorks的cortex-m7系列M1052-M16F12 8AWI -T平台。语音识别的声学模型和语言模型是我司训练的用于测试智能家居控制的相关模型demo,在支持65个常用命令词的离线识别测试中(数量越大识别所需时间越长),使用读取本地音频文件的方式进行语音识别“打开空调”所需时间0.46s左右。下面是在M1052-M16F128AWI- T的实测效果:

 

 

最后附上M1052-M16F128AWI-T产品图片:

 

 

6.关于算法库获取

目前语音识别系统处于研发阶段,广大客户可将自身需求反馈给广州立功科技股份有限公司与立功科技·致远电子相关市场人员,我们会以最快速度研发客户需要的产品。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

近年来,随着现代医疗技术的进步,人类的平均寿命不断延长,导致人口老龄化危机加剧[1]。在这一背景下,中风发病率预计将呈上升趋势,为提高患者的运动能力,机器人在康复领域得到了广泛的应用,尤其是下肢外骨骼机器人[2]。这类机...

关键字: 脑机接口 SSVEP 深度学习

本文中,小编将对语音识别技术予以介绍,如果你想对语音识别技术的详细情况有所认识,或者想要增进对它的了解程度,不妨请看以下内容哦。

关键字: 语音识别 语音识别技术

在这篇文章中,小编将为大家带来语音识别技术的相关报道。如果你对本文即将要讲解的内容存在一定兴趣,不妨继续往下阅读哦。

关键字: 语音识别 语音识别技术

在下述的内容中,小编将会对语音识别技术的相关消息予以报道,如果语音识别技术是您想要了解的焦点之一,不妨和小编共同阅读这篇文章哦。

关键字: 语音识别 语音识别技术

今天,小编将在这篇文章中为大家带来语音识别技术的有关报道,通过阅读这篇文章,大家可以对它具备清晰的认识,主要内容如下。

关键字: 语音识别 语音识别技术

以下内容中,小编将对机器学习的相关内容进行着重介绍和阐述,希望本文能帮您增进对机器学习的了解,和小编一起来看看吧。

关键字: 机器学习 深度学习

今天,小编将在这篇文章中为大家带来机器学习的有关报道,通过阅读这篇文章,大家可以对机器学习具备清晰的认识,主要内容如下。

关键字: 机器学习 深度学习

随着科技的不断进步,人工智能(AI)已成为当今世界的热门话题。它以其强大的计算能力和深度学习能力,在多个领域展现出巨大的应用潜力。本文将对人工智能技术进行详细的探究,包括其定义、发展历程、主要技术、应用领域以及面临的挑战...

关键字: 人工智能 深度学习 计算机

语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。

关键字: 语音识别 深度学习 Audry系统

本文中,小编将对机器学习予以介绍,如果你想对它的详细情况有所认识,或者想要增进对它的了解程度,不妨请看以下内容哦。

关键字: 机器学习 深度学习
关闭
关闭