当前位置:首页 > 消费电子 > 音视频及家电
[导读] (文章来源:钛媒体APP) 语音识别技术是让机器通过识别把语音信号转变为文本,进而通过理解转变为指令的技术。目的就是给机器赋予人的听觉特性,听懂人说什么,并作出相应的行为。语音识别系统通

(文章来源:钛媒体APP)

语音识别技术是让机器通过识别把语音信号转变为文本,进而通过理解转变为指令的技术。目的就是给机器赋予人的听觉特性,听懂人说什么,并作出相应的行为。语音识别系统通常由声学识别模型和语言理解模型两部分组成,分别对应语音到音节和音节到字的计算。一个连续语音识别系统(如下图)大致包含了四个主要部分:特征提取、声学模型、语言模型和解码器等。

(1)语音输入的预处理模块,对输入的原始语音信号进行处理,滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检测(也就是找出语音信号的始末)、语音分帧(可以近似理解为,一段语音就像是一段视频,由许多帧的有序画面构成,可以将语音信号切割为单个的“画面”进行分析)等处理。

(2)特征提取,在去除语音信号中对于语音识别无用的冗余信息后,保留能够反映语音本质特征的信息进行处理,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。

(3)声学模型训练,声学模型可以理解为是对声音的建模,能够把语音输入转换成声学表示的输出,准确的说,是给出语音属于某个声学符号的概率。根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数与声学模型进行匹配,得到识别结果。目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。

(4)语言模型训练,语言模型是用来计算一个句子出现概率的模型,简单地说,就是计算一个句子在语法上是否正确的概率。因为句子的构造往往是规律的,前面出现的词经常预示了后方可能出现的词语。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的时候预测下一个即将出现的词语。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词。

语言建模能够有效的结合汉语语法和语义的知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到语言模型。

(5)语音解码和搜索算法,解码器是指语音技术中的识别过程。针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,这样就确定这个语音样本所包含的文字了。所以,解码操作即指搜索算法,即在解码端通过搜索技术寻找最优词串的方法。

连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。

语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、以及近年来基于深度学习和支持向量机等语音识别方法。
       

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

上海2024年4月17日 /美通社/ -- 近日,国际公认的测试、检验和认证机构SGS为歌尔股份有限公司(以下简称"歌尔")颁发QTL认可实验室证书,彰显了歌尔在产品佩戴体验舒适度检测及声学检测领域的...

关键字: 声学 测试 ISO 检测技术

本文中,小编将对语音识别技术予以介绍,如果你想对语音识别技术的详细情况有所认识,或者想要增进对它的了解程度,不妨请看以下内容哦。

关键字: 语音识别 语音识别技术

在这篇文章中,小编将为大家带来语音识别技术的相关报道。如果你对本文即将要讲解的内容存在一定兴趣,不妨继续往下阅读哦。

关键字: 语音识别 语音识别技术

在下述的内容中,小编将会对语音识别技术的相关消息予以报道,如果语音识别技术是您想要了解的焦点之一,不妨和小编共同阅读这篇文章哦。

关键字: 语音识别 语音识别技术

今天,小编将在这篇文章中为大家带来语音识别技术的有关报道,通过阅读这篇文章,大家可以对它具备清晰的认识,主要内容如下。

关键字: 语音识别 语音识别技术

分贝比(Decibel, dB)是一个用来量化声音强度或功率比的单位,广泛应用于声学、电子工程和通信等领域。本文旨在全面解析分贝比的概念、历史背景、应用领域以及它如何影响我们的日常生活。通过深入理解分贝比,读者将能够更好...

关键字: 分贝比 电子工程 声学

语音识别系统是一种通过捕捉语音信号后对其进行分析和处理的技术。它主要依赖于模式匹配、统计建模和人工神经网络等方法来进行语音识别操作。语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元。

关键字: 语音识别 语音信号

歌尔股份发布公告称,近日收到境外某大客户的通知,暂停生产其一款智能声学整机产品。目前与该客户的其他产品项目合作仍在正常开展。本次业务变动预计影响2022年度营业收入不超过人民币33亿元,约占公司2021年度经审计营业收入...

关键字: 声学 无线耳机 AIRPODS

北京2022年11月5日 /美通社/ -- 11月5日,第五届中国国际进口博览会(进博会)在上海拉开帷幕,集中展示各行业前沿产品与创新成果。全球知名食品饮料公司雀巢携八大业务单元、来自全球16个国家的300余款畅销产品入...

关键字: HM PRESS BSP 可持续发展

新版本为已有产品带来了全面的功能更新和性能提升,进一步增强了COMSOL Multiphysics®多物理场仿真平台的分析能力和在工业产品研发中的应用。 美国马萨诸塞州伯灵顿2022年11月4日 /美通社/ -...

关键字: COMSOL MULTIPHYSICS 声学 模拟
关闭
关闭