当前位置:首页 > 消费电子 > 音视频及家电
[导读] (文章来源:读芯术) 自动语音识别(ASR)是一种将口语转换为文本的过程。该技术正在不断应用于即时通讯应用程序、搜索引擎、车载系统和家庭自动化中。尽管所有这些系统都依赖于略有不同的技术流

(文章来源:读芯术)

自动语音识别(ASR)是一种将口语转换为文本的过程。该技术正在不断应用于即时通讯应用程序、搜索引擎、车载系统和家庭自动化中。尽管所有这些系统都依赖于略有不同的技术流程,但这些所有系统的第一步都是相同的:捕获语音数据并将其转换为机器可读的文本。

但 ASR 系统如何工作?它如何学会辨别语音?本文将简要介绍自动语音识别。我们将研究语音转换成文本的过程、如何构建ASR 系统以及未来对ASR技术的期望。ASR 系统:它们如何运作?因此,从基础层面来看,我们知道自动语音识别看起来如下:音频数据输入,文本数据输出。

但是,从输入到输出,音频数据需要变成机器可读的数据。这意味着数据通过声学模型和语言模型进行发送。这两个过程是这样的:声学模型确定了语言中音频信号和语音单位之间的关系,而语言模型将声音与单词及单词序列进行匹配。这两个模型允许 ASR 系统对音频输入进行概率检查,以预测其中的单词和句子。然后,系统会选出具有最高置信度等级的预测。*

*有时语言模型可以优先考虑某些因其他因素而被认为更有可能的预测。在这里,值得一提的是,如果自动语音识别系统是语音用户界面的一部分,则 ASR 模型将不是唯一在运行的机器学习模型。许多自动语音识别系统都与自然语言处理 (NLP) 和文本语音转换 (TTS) 系统配合使用,以执行其给定的角色。也就是说,深入研究语音用户界面本身就是个完整的话题。

那么,现在知道了 ASR 系统如何运作,但需要构建什么?关键是数据。建立 ASR 系统:数据的重要性。优秀的 ASR 系统应该具有灵活性。它需要识别各种各样的音频输入(语音样本),并根据该数据做出准确的文本输出,以便做出相应的反应。

为实现这一点,ASR 系统需要的数据是标记的语音样本和转录形式。比这要复杂一些(例如,数据标记过程非常重要且经常被忽略),但为了让大家明白,在此将其简化。ASR 系统需要大量的音频数据。为什么?因为语言很复杂。对同一件事有很多种讲述方式,句子的意思会随着单词的位置和重点而改变。还考虑到世界上有很多不同的语言,在这些语言中,发音和单词选择可能会因地理位置和口音等因素而不同。

哦,别忘了语言也因年龄和性别而有所不同!考虑到这一点,为 ASR系统提供的语音样本越多,它在识别和分类新语音输入方面越好。从各种各样的声音和环境中获取的样本越多,系统越能在这些环境中识别声音。通过专门的微调和维护,自动语音识别系统将在使用过程中得到改进。

因此,从最基本的角度来看,数据越多越好。的确,目前进行的研究和优化较小数据集相关,但目前大多数模型仍需要大量数据才能发挥良好的性能。幸运的是,得益于数据集存储库和专用的数据收集服务,音频数据的收集变得越发简单。这反过来又增加了技术发展的速度,那么,接下来简单了解一下,未来自动语音识别能在哪些方面大展身手。

ASR 技术已融身于社会。虚拟助手、车载系统和家庭自动化都让日常生活更加便利,应用范围也可能扩大。随着越来越多的人接纳这些服务,技术将进一步发展。
     

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月30日 亚马逊云科技持续引领云上数据服务创新,助力企业构建全面的数据基座以充分发挥数据潜力,加速生成式AI技术落地。在生成式AI时代,数据是企业脱颖而出的关键——基础模型依赖于大规模高质量数据集,生...

关键字: 生成式AI 数据 模型

上海2024年4月17日 /美通社/ -- 近日,国际公认的测试、检验和认证机构SGS为歌尔股份有限公司(以下简称"歌尔")颁发QTL认可实验室证书,彰显了歌尔在产品佩戴体验舒适度检测及声学检测领域的...

关键字: 声学 测试 ISO 检测技术

上海2024年4月16日 /美通社/ -- 4月14日,为期四天的第89届中国国际医疗器械博览会(CMEF)盛大收官。澳鹏Appen很荣幸再次作为唯一的人工智能训练数据参展商参与此次"航母级"规模医疗...

关键字: APP 医疗器械 PEN 模型

福州2024年4月16日 /美通社/ -- 4月15日,第61届中国高等教育博览会(以下简称“高博会”)于福州隆重开幕。索贝以“视听新体验•数智向未来,让知识传递更加精准高效”为主题,携全新升级的智慧教育资源管理平台、课...

关键字: 模型 数字化 AI算法 质量评估

未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析。

关键字: 语音识别 语音 模型

通过大量的数据,训练出一个能处理此类数据的模型,使得这个模型可以根据已知的数据,准确率很高的判断出未知的数据,从而使得人类能够采取正确的方法去处理某些事情。

关键字: 机器学习 模型 图像

分贝比(Decibel, dB)是一个用来量化声音强度或功率比的单位,广泛应用于声学、电子工程和通信等领域。本文旨在全面解析分贝比的概念、历史背景、应用领域以及它如何影响我们的日常生活。通过深入理解分贝比,读者将能够更好...

关键字: 分贝比 电子工程 声学

在下述的内容中,小编将会对语音识别系统的相关消息予以报道,如果语音识别系统是您想要了解的焦点之一,不妨和小编共同阅读这篇文章哦。

关键字: 语音识别 语音识别系统

本文中,小编将对语音识别系统予以介绍,如果你想对语音识别系统的详细情况有所认识,或者想要增进对语音识别系统的了解程度,不妨请看以下内容哦。

关键字: 语音识别 语音识别系统

在这篇文章中,小编将为大家带来语音识别系统的相关报道。如果你对本文即将要讲解的内容存在一定兴趣,不妨继续往下阅读哦。

关键字: 语音识别 语音识别系统
关闭
关闭