基于智能语音识别的云电视系统设计

时间：2016-12-21 14:32:19

关键字：云电视智能语音

[导读] 为了提高智能电视的可操作性，文章提出了一种基于智能语音设别的云电视系统设计方案。该系统在传统的智能电视上加入语音输入和云端网络技术，对语音智能处理之后达到操作电视的作用，可以通过语音输入自动查找或者使用电视功能，提高了智能电视的可操作性，让智能电视使用更方便，适合更多的使用人群。

为了提高智能电视的可操作性，文章提出了一种基于智能语音设别的云电视系统设计方案。该系统在传统的智能电视上加入语音输入和云端网络技术，对语音智能处理之后达到操作电视的作用，可以通过语音输入自动查找或者使用电视功能，提高了智能电视的可操作性，让智能电视使用更方便，适合更多的使用人群。

当前，随着计算机和互联网技术的高速发展、3c融合的趋势以及电视机的数字化发展，作为家庭娱乐核心家电的电视机已经开始向智能化多媒体网络电视方向发展。智能网络电视机是一台多功能的网络终端，用户可以通过该网络终端得到诸多信息和服务，然而伴随应用功能的增加，其操作也随之变得复杂。面对智能电视的功能复杂、操作难问题，仅仅是将电视机的纸质说明书或者做成电子文档以flash形式在电视机上进行播放，并没有详细的指引用户操作的导航功能，或者说有详细的说明，电视面对的是任何消费者，很多功能的操作他们也不是很明白，甚至很多功能都找不到。在电子产品智能化的今天，智能语音设别是一个热门话题，该技术的实现提高了电子产品的可操作性，为用户带来了更多的方便。所以设计一个基于智能语音设别的电视系统，用语音来实现快速导航到各个需要的功能、信息、服务等应用成为当务之急。

本系统为基于智能语音设别的云电视系统，将输入的语音数据传输到电视机系统，系统把该模拟语音数据预处理，转化为数字语音信号，根据各个模块需求把数字语音数据发送到云端，云端经过智能语义识别分析处理之后，返回具体的控制指令给电视予以处理。

1.系统总体设计

该电视系统结构图如图1所示，该系统分三个模块设计，语音设别、电视系统处理、云端处理。在有网络连接的情况下，通过麦克录入语音，再通过语音模块把录入的语音转化为特定的语音格式传输到云端的中央服务器，云端服务器把传输过去的的语音与许多表示特定字符的语音模型进行比较，以提供输入语音所包含特定字符的许多不同可能性。然后，云端服务器生成一个字符序列，根据基于字符的语言模型，这个字符序列表示了输入语音中所包含已知特定字符的特定序列的不同可能性。然后字符序列通过网络被传输到中央服务器，在这里，字符序列生成一个词汇序列，根据词汇表和基于词汇的语言模型，这个词汇序列表示了输入语音中所包含已知特定字符的特定序列的不同可能性。然后，云端服务器根据词汇表确定哪个特定词汇序列与输入语音最匹配，并将所确定的词汇序列经由网络输送回终端电视机系统，电视机系统再把得到的数据分模块处理(电视机系统不同模块有不同的功能)。该电视系统硬件使用MIPS构架CPU，配置Linux操作系统。语音通过MIC输入，设计有两路MIC接口，使用标准的网络接口用于网络通信。

2.语音识别系统设计

2.1　语音识别基础知识

语音设别技术，也被称为自动语音设别，即AutomaTIc Speech RecogniTIon(ASR)，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人设别及说话人确认不同，后者尝试设别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别系统本质上是一个模式识别系统。语音识别一般分两个步骤，第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型等。第二步是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法，采用语音分析方法提取出这种识别方法所要求的语音特征参数，按照一定的准则和测度与系统模型进行比较，通过判决得出识别结果。

2.2　语音设别系统设计

语音设别系统框图如图2所示。首先要把电视机麦克输入的模拟语音信号进行预处理，云端需要数字语音信号，这里预处理使用语音IC进行处理，包括预滤波、采样和量化、信号数字化、加窗、断点检测、预加重等。语音信号经过预处理后，接下来重要的一环就是特征参数提取，其目的是从语音波形中提取出随时间变化的语音特征序列。把特征提取的结果送到电视机操作系统中进行判断处理，分析是否需要将其传送到云端服务器，云端服务器在对接收到的语音进行智能分析处理之后传回电视机终端，进行相应的功能处理。

2.3　云端服务器智能处理

云端服务器处理主要针对数字化语音数据进行分析处理，本系统的功能比较复杂，语音处理工作量非常大，该设计基于云计算的服务器来完成，在服务器端对语音进行分析处理的同时还需要进行智能设别，该智能设别主要针对本电视机系统的一些关键字及语音的语义分析，同时对于电视机的不同模块进行分别处理，来完成使用者所想的功能。使用云计算服务器可以减少电视机终端的硬件成本，增加处理速度，来达到对用户命令的智能处理。

2.3.1　电视机与云端的传输协议

对于特定的电视机系统，每个模块具有特定的关键字，在传输数据到云端的时候，需要传输模块特征和相应的语音数据。

2.3.2　语音训练与识别的主要方法

在云端接收到数据之后，需要对语音数据进行设别。语音训练与识别是一个模式训练和识别的过程。模式训练是指依照一定的规则，对大量训练信息进行处理，获取能够反映该信息本质特征的模型参数，将从这些训练信息中得到的模型参数组合成一个模式库，而模式匹配则是指依据一定的规则规范，将输入的未知模式与模式库中的模式进行匹配，从模式库中寻找一个相似度最高，即最佳匹配的模式。这种训练和匹配的方法有许多种，目前较常见的方法主要有动态时间规整(DTW)、隐马尔可夫链(HMM)模型、人工神经网络(ANN)等。

2.3.3　隐马尔可夫链模型

本系统用隐马尔可夫链(Hidden Markov Models，HMM)模型来对语音进行训练和识别，在隐马尔可夫链模型中，它使用马尔可夫链来模拟信号统计特性的变化，本质上它是一个双重随机过程的概率模型。第一重随机过程的概率模型是指由马尔可夫链来表示状态之间的转移，另外一重随机过程的概率模型是指每个状态和多个观测值之间的随机对应关系。在实际问题的应用中，HMM的双重随机过程观察者不能直接看到状态，只能看到观察值，且只有利用一个随机过程去感知状态的存在以及特征。本质上说，人类的语言过程也是一个双重随机过程。语音信号本身是一个能够被观测到的时变序列，是由人的大脑根据语法知识和言语的需要而发出的音素的参数流，这部分就相对于 HMM模型中不可观测的各种状态。HMM模型可以很好地模拟这个双重随机过程，并且很好地描述了语音信号的局部平稳性以及整体的非平稳性，是一种描述语音信号的理想模型。

2.3.4　智能语音识别

此处采用的关键字识别系统为基于连续语音识别(LVCSR)的关键词识别系统，如图3所示，使用这种结构适用于连续语音关键词识别系统：语言经过连续语音音节识别器后，产生相应的N-Best词格或音节网格，然后使用关键词搜索算法对网格进行关键词搜索。其过程可以大致分成三步：第一步，搜索语音基元，也就是说通过这次搜索得到输入语音对应的拼音序列。通过连续解码，可以得到一个N- Best音节序列或者音节的网格。第二步，针对电视机终端功能模块选择不同的关键词表。第三步，根据上一步得到的音节序列和关键词词表对照，进行关键词的搜索，得到假象命中(可能成为关键词的词)。第四步，根据其他知识源分析第三步得到的假想命中的置信度，给出关键词识别的结果。第五步，对第四步输出的关键字结果进行智能处理，根据特定的电视机系统功能模块给出最终的输出结果。

3.电视机智能语音识别处理软件流程

3.1　录音检测

电视机智能语音识别处理流程图如图4，在需要使用语音设别时，首先需要按下录音键，这个时候系统会检测网络是否连接和麦克是否可以正常使用，如果其中有一项检测失败，系统不会做录音工作，提示检查网络或者检查麦克。

3.2　录音处理

在设备检测之后，进行录音，由于系统限制，录音有时间限制，不能太长。电视机终端把麦克录下的语音进行预处理和特征提取，然后再把语音和模块特征一起传输到云端服务器，云端服务器再做细致的处理，处理之后再把数据传回终端电视机。

3.3　智能功能处理

在电视机终端等待接收数据，在5秒之内没有接收到数据，视为TIme out，数据处理失败。如果接收到数据后做相应的处理，在云端就有对各个模块的关键字识别，将传回的数据再针对相应的模块做判断处理。比如在主功能界面，如果语音输入“shezhi”，系统将进入设置界面。或者在影视界面，如果输入“halibote”，系统会查找哈利波特这部影片。

4.实验应用

由于电视系统在使用过程中情况比较复杂，通过语音设别的准确率也有一些差异。为了得到相对准确的数据，测试分几种情况，一种是在电视系统没有播放audio的时候和在播放audio的时候，另一种是输入语音的长度不一致的情况。

4.1　测试嘈杂环境试验

这个测试分两种情况，一种是没有播放audio的时候(或者说audio mute的时候)，一种是在有播放audio的时候(由于audio播放时分贝不一样，所以以各种嘈杂环境的综合值为主)，实验结果见表1：

4.2　测试改变输入关键字长度试验

本系统为智能语音设别，需要做智能分析，通过输入语音来判断系统的动作，关键是在语音设别的准确性和智能识别处理上，而输入关键字的长度对系统的准确性判断相当关键。本次实验就是针对长度不一致的输入做分析，实验结果见表2：

从两个测试来看，系统识别准确率相当高，实验达到了预期的效果。关键是在特殊环境下进行处理时，本系统在识别之后还有关键字和智能处理，以达到更好的智能处理。

5.结语

该系统采用了高效的语音设别技术和稳定的MIPS硬件平台为基础，软件设计上以Linux操作系统为基础，在原有的智能电视系统上使用云计算处理语音数据，使之系统处理实时性更高。通过测试表明，该系统能非常准确地判断语音输入，数据处理速度快，系统稳定性高。此系统达到了在电视系统中使用智能语音设别的功能，这样通过语音操作，大大提高了系统的可操作性，使之使用方便，更加智能化。