当前位置:首页 > 消费电子 > 音视频及家电
[导读] 语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一

语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。

语音识别,通常称为自动语音识别,英文是Automatic Speech RecogniTIon,缩写为 ASR,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别( Speech To Text, STT )更合适,这样就能与语音合成(Text To Speech, TTS )对应起来。

深度学习技术自 2009 年兴起之后,已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过 95%,意味着具备了与人类相仿的语言识别能力,而这也是语音识别技术当前发展比较火热的原因。

语音识别的端到端方法主要是代价函数发生了变化,但神经网络的模型结构并没有太大变化。总体来说,端到端技术解决了输入序列的长度远大于输出序列长度的问题。端到端技术主要分成两类:一类是 CTC 方法,另一类是 Sequence-to-Sequence 方法。传统语音识别 DNN-HMM 架构里的声学模型,每一帧输入都对应一个标签类别,标签需要反复的迭代来确保对齐更准确。

目前,主流语音识别框架还是由 3 个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后处理。随着各种深度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布自己新的声学模型结构,刷新各个数据库的识别记录。由于中文语音识别的复杂性,国内在声学模型的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术。

开源语音识别 Kaldi 是业界语音识别框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。该模型是一种类似于 CTC 的技术,建模单元相比于传统的状态要更粗颗粒一些,只有两个状态,一个状态是 CD Phone,另一个是 CD Phone 的空白,训练方法采用的是 Lattice-Free MMI 训练。该模型结构可以采用低帧率的方式进行解码,解码帧率为传统神经网络声学模型的三分之一,而准确率相比于传统模型有非常显著的提升。

语音识别这半个多世纪的产业历程中,其中共有三个关键节点,两个和技术有关,一个和应用有关。第一个关键节点是 1988 年的一篇博士论文,开发了第一个基于隐马尔科夫模型(HMM)的语音识别系统—— Sphinx,当时实现这一系统的正是现在的著名投资人李开复。

从 1986 年到 2010 年,虽然混合高斯模型效果得到持续改善,而被应用到语音识别中,并且确实提升了语音识别的效果,但实际上语音识别已经遭遇了技术天花板,识别的准确率很难超过 90%。很多人可能还记得,在 1998 年前后 IBM、微软都曾经推出和语音识别相关的软件,但最终并未取得成功。

所有语音交互产品都是端到端打通的产品,如果每家厂商都从这些基础技术来打造产品,那就每家都要建立自己云服务稳定,确保响应速度,适配自己所选择的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这从产品方或者解决方案商的视角来看是不可接受的。这时候就会催生相应的平台服务商,它要同时解决技术、内容接入和工程细节等问题,最终达成试错成本低、体验却足够好的目标。

类比过去的 Android,语音交互的平台提供商们其实面临更大的挑战,发展过程可能会更加的曲折。过去经常被提到的操作系统的概念在智能语音交互背景下事实上正被赋予新的内涵,它日益被分成两个不同但必须紧密结合的部分。

这两边在操作上,属性具有巨大差异。解决前者需要参与到传统的产品生产制造链条中去,而解决后者则更像应用商店的开发者。这里面蕴含着巨大的挑战和机遇。在过去功能型操作系统的打造过程中,国内的程序员们更多的是使用者的角色,但智能型操作系统虽然也可以参照其他,但这次必须自己来从头打造完整的系统。(国外巨头不管在中文相关的技术上还是内容整合上事实上都非常薄弱,不存在侵略国内市场的可能性)

人与数字世界的接口,在现在越来越统一于具体的产品形态(比如手机),但随着智能型系统的出现,这种统一则会越来越统一于系统本身。作为结果这会带来数据化程度的持续加深,我们越来越接近一个百分百数据化的世界。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

深度学习需要大量的计算。它通常包含具有许多节点的神经网络,并且每个节点都有许多需要在学习过程中必须不断更新的连接。换句话说,神经网络的每一层都有成百上千个相同的人工神经元在执行相同的计算。

关键字: 机器学习 神经网络 TensorFlow

分贝比(Decibel, dB)是一个用来量化声音强度或功率比的单位,广泛应用于声学、电子工程和通信等领域。本文旨在全面解析分贝比的概念、历史背景、应用领域以及它如何影响我们的日常生活。通过深入理解分贝比,读者将能够更好...

关键字: 分贝比 电子工程 声学

随着科技的飞速发展,人工智能、大数据、云计算等技术逐渐渗透到各个领域,为人们的生活带来了极大的便利。在这其中,语音技术作为人机交互的重要方式之一,已经成为了当今科技领域的研究热点。本文将对语音技术的关键技术进行探讨,并分...

关键字: 语音技术 语音识别

随着电动汽车的普及,充电桩作为电动汽车的重要基础设施,越来越受到人们的关注。然而,对于许多电动汽车用户来说,直流充电桩和交流充电桩的接口和区别仍然是一个令人困惑的问题。本文将从接口和区别两个方面,详细探讨直流充电桩和交流...

关键字: 电动汽车 接口 充电桩

武汉2023年9月19日 /美通社/ -- 目前,在国家政策和市场需求双重驱动下,国内数据库行业呈现出百花齐放的态势。充分竞争的市场环境下,达梦数据连续数年保持中国数据库管理系统市场占有率前列地位,成为当之无愧的国产数据...

关键字: DM DSC 国家电网 接口

深圳2023年9月15日 /美通社/ -- 9月14-15日,2023全球AI芯片峰会(GACS 2023)在深圳正式举行。峰会以【AI 大时代 逐鹿芯世界】为主题,共探AI芯片的产学研用,邀请了清华大学教授、中国半导体...

关键字: 接口 芯科 内存 AC

Type-C接口已经成为当今市场上备受青睐的接口之一。它以其小巧轻便、高速传输、支持多种协议等特点,吸引了越来越多的关注。

关键字: Type-C 接口 USB

USB-C和Type-C是两种不同的USB接口类型,它们在外观、结构和功能上有一些区别。下面将详细介绍这两种接口类型的区别和特点,帮助大家更好地了解和认识它们。

关键字: usb-c type-c 接口

USB接口是现代电子设备中常用的接口之一,它具有通用性强、传输速度快、易于使用等特点。USB接口的应用范围非常广泛,从智能手机、笔记本电脑到电脑外设、智能家居等都可以看到它的身影。在USB接口的发展历程中,出现了多种不同...

关键字: USB 接口

USB接口是一种常见的串行接口,它的全称是Universal Serial Bus,由USB Implementers Forum制定。USB接口具有通用性强、传输速度快、支持多种设备同时连接等优点,因此在现代电子设备中...

关键字: USB 接口 串行接口
关闭
关闭