1952年世界上第一个能识别10个英语数字发音的实验系统的诞生拉开了语音识别技术研究的帷幕。语音识别技术经历了由小词汇量、孤立词的识别到大词汇量、非特定人连续语音识别的飞跃。今天,iPhone4S内置的Siri语音搜索助理更是将语音识别技术发挥得淋漓尽致。Siri的亮相,实现了语音识别技术的华丽变身。
Siri的问世不仅给语音识别带来了一场技术革命,更是人机交互、人工智能技术的一个重大突破。
首先,前台人机交互方面,利用语音识别技术是把用户的口语转化成文字,其中采用了强大的语音知识库,需要用到所谓的"云计算"技术。再利用语音合成技术将返回的文字结果转化成语音输出。
其次,后台语音处理方面则需要将人工智能与人机交互及智能搜索紧密地联系起来,以实现机器要根据对用户所说的话进行理解,并快速寻找答案以语音的方式回答用户。包括了:
①以Google为代表的网页搜索技术;
②以Wolfram Alpha为代表的知识搜索技术(或者知识计算技术);
③以Wikipedia为代表的知识库(和Wolfram Alpha不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);
④以Yelp为代表的问答以及推荐技术。处理用户的请求,并返回最匹配的结果。
最终实现了Siri可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,它会结合上下文结构去理解,还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会你的意思。更加人性化的特点是,一旦你开始和Siri进入一段对话,它甚至能理解许多含义模糊或者引申的语义。
智能语音技术是人工智能的研究领域之一,其技术原理涉及声学、语言学、数字信号处理、计算机科学等多个学科。智能语音技术的研究周期长、投入大,使得智能语音行业具有较高的进入壁垒。
在全球范围内,目前已形成寡头垄断竞争格局,仅有Nuance、IBM、微软和Google等少数厂商具备较强竞争力。早在苹果推出内置Siri语音搜索功能的iPhone4S前,谷歌在2009年就已经推出语音搜索软件,并支持中文,而微软高管也透露早于苹果一年研究语音搜索技术,并会在Windows8上内置该服务器。我国的科大讯飞与联想也正加紧合作开发本土的语音软件。
智能语音技术不仅仅只是将程序植入到手机、平板电脑、电视等多个终端设备上,未来智能语音技术的发展方向必是面向自然语言的处理,而在口语对话中提供自然的语言处理是一个双重挑战。首先,你必须识别这些单词,然后,你必须理解这个意思。第一部分变得更加容易了。但是,第二部分仍然很难解决:意思是根据上下文确定且难以应付的,人类做的语法分析也不是总是成功的。尽管苹果的Siri被称为iPhone4S中语音驱动的"虚拟助手",但也有用户称Siri在使用时故障不断。看来要真正实现人机无障碍地交流,创造一个能力更高的语音助手,还有一段很长的路要走。不过可以肯定的是Siri的问世促使了语音搜索势必会成为各大厂家的下一个竞争点,智能语音手机、智能电视和智能汽车的时代已经来临。