当前位置:首页 > 电源 > 数字电源
[导读]针对语音识别这种典型的多类分类问题,提取MFCC参数作为语音特征,采用支持向量机(SVM)作为识别算法,进行非特定人孤立词识别。在给出一种多类分类方法并分析该算法优缺点的基础上,对算法中的所有参数进行测试,选取最佳参数进行实验,识别率达到95%以上。为了满足语音识别系统对实时性和便携性的要求,将该算法在OMAP5912嵌入式系统开发平台上进行实现,与传统的语音识别系统相比,该系统易于使用,语音识别更为快速使捷,并且具有一定的通用性。

随着语音识别和语音合成技术的不断更新与发展,将语音识别技术应用于嵌入式产品中已得到广泛应用。SVM(支持向量机)作为统汁概率模型已经被证明是一种很好的识别模型。OMAP5912处理器是由TI公司的TMS320C55X型DSP内核与低功耗、增强型ARM926EJ-S微处理器组成的双核应用处理器。ARM核可满足控制和接口方面的需要,DSP核以其低功耗高性能来实现多媒体应用。目前存0MAP平台上实现的多媒体应用有语音、音频、图像、视频等。在实验室开发的基于0MAP5912嵌入式语音识别系统上进行基于SVM的语音识别程序开发。


1 SVM多类分类方法
    SVM最初是为处理两类分类问题而设计的,如何有效地处理多类分类问题目前仍是一个持续研究的课题。采用SVM中的“一对一”方法实现多类分类,下面对这种方法进行简单介绍。
    S.Knerr等在1990年首次介绍了“一对一”方法。J.Friedman在1996年和U KreBel在1999年分别首次在支持向量机中使用这种方法。它需要构造k(k-1)/2个分类器,每个分类器由特定的某两类训练样本训练得到,判定测试样本的类别时,结合所有两类分类器对测试样本类别的判定意见,采用“投票法”的策略,并认为得票数最多(Max Wins)的类别就是测试样本所属的类别。具体如下:考虑K类的分类问题,设训练集

    首先对所有的(i,j)∈{(i,j)|i≤j,i,j=1,…,K}进行运算:从训练集中抽取所有y=i和y=j的样本点。基于这些样本点组成一个训练集Ti-j,每个两类分类SVM解决问题
   
    约束条件为:
   
    通过求解式(3)的最优化问题得到k(k-1)/2个决策函数,如果函数判断x属于i类,则i类的得票数增加1;否则j类的得票数增加1。最终判定得票数最多的类别就是测试样本x所属的类别。[!--empirenews.page--]
    “一对一”方法的特点是训练时需要构造k(k-1)/2个分类器,预测时则采用投票选择策略。这样做的优点是:每一个分类问题的规模较小,需要求的问题较简单,样本数量不很大时训练速度较快,而且由于类别有较少的重合,改善了样本拒分、错分的范同;缺点是:投票法可能存在得票相同的类,即可能存在一个样本同时属于多个类的情况。这可以使用其他方法解决,这里重点研究SVM算法在0MAP上的实现。

2 嵌入式系统开发环境的搭建
    0MAP5912处理器是由TI公司的TMS320C55x型DSP内核(192 MHz)与低功耗、增强型ARM926EJ-S微处理器(192 MHz)组成的双核应用处理器,采用0.13μm CMOS工艺制造。TMS320C55x型DSP可提供对低功耗应用的实时多媒体处理的支持;ARM926EJ-S MPU可满足控制和接口方面的处理需要。基于双核结构的0MAP5912具有极强的运算能力和极低的功耗,采用开放式、易于开发的软件设施,支持广泛的操作系统。嵌入式系统开发在解决了硬件平台的设计和操作系统的搭建后就需要考虑应用程序如何编译、主机如何与开发板通信、程序如何调试、程序如何下载到开发板这几个方面的问题。
2.1 通信环境
    采用minicom通信终端程序,通过minicom可以设置、监视串口工作状态,接收、显示串口收到的信息、并且在宿主机和开发板之间传递数据和控制指令,从而实现通过宿主机上调试开发板的目的。
    设置minicom参数值如下:“Serial Device”为/dev/ttyrSO(使用串口1);主机串口波特率为:115 200;数据位为:8位;停止位为:1位;奇偶校验位为:无;数据流控制为:无。完成后保存设置重启Minicom。
2.2 程序下载环境
    在程序开发期间,经常需要把程序下载到开发板上进行测试,采用通用开发模式:将宿主机和开发板通过以太网连接,在宿主机上运行minicom作为开发板的显示终端,通过NFS(Network File System,网络文件系统)来挂载宿主机硬盘,让应用程序直接运行在开发板上。
2.3 交叉编译环境的建立
    宿主机系统为Ubuntu version 2.6.27,将交叉编译工具arm-linux-gcc-3.4.1解压缩到/usr/local/arm目录下,然后在终端执行命令:#gedit/root/.bashrc,修改/root/.bashrc文件,在文件中加入export PATH=“$PATH:/sbin:/usr/local/arm/3.4.1/bin:/usr/local/bin:/usr/local”,最后在终端执行命令#source.bashrc.至此,交叉编译环境搭建完成。资源文件和库文件都
安装在/usr/local/arm/3.4.1/arm-linux目录下。交叉编译过程如图l所示。


2.4 安装NFS《Network File System)
    在开发阶段采用NFS比较方便,这样开发板的根文件系统可以放在宿主机上,然后通过NFS来挂载和运行。内核同样也可放在宿主机上,然后由引导器使用TFTP(Trivial FileTransferProtocol)协议通过以太网来获取。开发板同时具有以太网口和串口,且以太网连接的传输速度远比串口连接要快,因此,用以太网接口下载内核和根文件系统,而串口作为调试和控制台来使用。
2.4.1安装NFS
    Ubuntu上默认是没有NFS服务的,首先要安装NFS服务程序,#sudo apt-get install nfs-kernel-server,使宿主机相当于NFS服务器。同样地,开发板作为NFS的客户端,需要安装NFS客户端程序:#sudo apt-get install nfs-commmon。
2.4.2 配置portmap服务
    nfs-common和nfs-kernel-setver都依赖于portmap,所以需要配置portmap。#sudo dpkg-reconfigure portmap,对Shouldportmap be bound to the loopback address?选N。
    在/etc/hosts.deny和/etc/hosts.allow两文件中设置对portmap的访问:首先在/etc/hosts.deny中,禁止所有用户对portmap的访问,然后在/etc/hosts.allow中,允许特定用户对portmap进行访问。文件修改完后执行#sudo/etc/init.d/pottmap restart,重启portmap daemon使改动后的内容生效。
2.4.3 配置/etc/exports
    NFS挂载目录及权限由/etc/expotts文件定义。在该文件最后添加语句:
    /data/rootfs2.6 192.168.0.*(rw,sync,no_root_squash)
    使192.168.O.*网段内的NFS客户端能够共享NFS服务器/data/rootfs2.6目录内容,不仅有渎写权限,而且进入/data/rootfs-2.6目录后的身份为root。更新配置,重启NFS服务。
    #sudo exportfs-r
    #sudo/etc/init.d/nfs-kernel-server restait[!--empirenews.page--]
2.4.4 拷贝根文件系统
   
拷贝根文件系统到/data/rootfs2.6目录下,这时就可以启动minicom,作为虚拟终端,可以通过它来操作开发板。
2.5 修改开发板启动项
    bootargs参数设置Linux系统启动时挂载在NOR Flash上的JFFS2根文件系统。挂载宿主机上的网络文件系统,则bootargs参数应设置
    setenv bootargs=console=ttyS0,115200n8 noinitrd rw ip=192.168.0.158 root=/dev/nfs nfsroot=192.168.0.204:/data/rootfs2.6.nolock mem=62M
    #sayenv保存设置后重启u-boot,之后将顺利进入到开发板,调试应用程序。

3 实验及结果分析
    基于VC++6.0编程实现一种多类分类SVMs算法,PC机环境为Ubuntu version 2.6.27,开发板为Omap5912的ARM926ej-s,其环境为Lin-ux version 2.6.18;Boot Loader采用u-boot version 1.1.6;交叉编译工具链arm-linux-gcc version3.4.1。
    采用16个人分别对50个词的孤立词发音,在不同信噪比下(15、20、25、30 dB和无噪音)得到的语音数据作为样本,采用由MFCC特征提取算法得到的特征参数作为识别网络的输入。语音信号采样率为11.025 kHz,帧长N=256点,帧移M=128点。词汇量分别为10、20、30、40和50个词。训练样本由9人每人对每词在15、20、25、30 dB、无噪音下发音3次得到.测试样本由另外7人在相应SNR下对每词发音3次得到。识别算法采用RBF核函数的SVM算法,采用交叉验证和网格搜索法进行核参数选择并建立模型,对测试样本进行分类识别。核函数参数取最优为(c,y)=(32.0,O.000 122 070 312 5)。实验结果见表l所示,识别率均在95%以上。表1中同时列出同样条件下使用HMM识别网络的识别结果。


    HMM模型是典型的语音识别模型,它是目前语音识别效果最好的少数几种方法之一。在相同特征参数下将SVM与HMM模型进行对比,从实验结果看出:1)SVM比HMM模型具有更高的识别率;2)比较相同信噪比和词汇量下的测试精度,可发现HMM模型的测试精度有明显下降,而SVM的测试结果下降较少,说明SVM比HMM模型具有更强推广性。

4 结束语
    提出一种基于SVM的0MAP5912非特定人嵌入式语音识别系统的实现方法。在搭建的开发环境下运用SVM算法巾的“一对一”方法进行语音识别,获得良好结果。通过实验可以得出,对中小词汇量采用MFCC特征参数,“一对一”SVM作为后端识别方法可以得到较好的识别结果,比传统的HMM模型有明显优势。同时SVM算法作为应用程序集成到0MAP5912嵌入式系统里,存储量需求小,能够满足实用要求。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

亘喜生物科技集团宣布正在中国开展的、旨在全面评估GC007g治疗复发/难治性急性B淋巴细胞白血病效果的1/2期注册性临床试验顺利进入2期研究阶段,首例入组患者已给药。GC007g是亘喜生物旗下的一款靶向CD19的供者来源...

关键字: 移植 CD

有光科技(Fano Labs)宣布,公司已获得AEF大湾区创业基金(由戈壁大湾区管理)几百万美元投资,以拓展大湾区及东南亚业务。这次融资轮亦获得新视资本投资。有光科技是扎根香港的人工智能公司,专精于语音识别、话者分离、声...

关键字: ABS LAB 人工智能 语音识别

摘要:人工智能技术的飞速发展,促使传统家电走向智能化:而语音识别技术的进步,使得人与物之间沟通成为可能,拓宽了人的交流方式,为人类带来了诸多便捷。为了能让家电听懂人说话以及为人提供更优质的服务,以语音识别家电控制系统设计...

关键字: 语音识别 语音控制 家电系统

北京2022年9月9日 /美通社/ -- 诺诚健华(香港联交所代码:09969)今天宣布,tafasitamab (Minjuvi®)联合来那度胺治疗不适合自体干细胞移植 (ASCT) 条件的复发/难治弥漫性大B...

关键字: VI NJU BSP 移植

苏州2022年8月19日 /美通社/ -- 近日,华中科技大学同济医学院附属协和医院心外科董念国教授团队运用与心擎医疗联合研发的短中期体外全磁悬浮心室辅助装置MoyoAssist®,成功救治三例危重的终...

关键字: 磁悬浮 移植 IC 静脉

上海2022年8月17日 /美通社/ -- 2022年8月16日,聚焦于基因和细胞治疗的上海邦耀生物科技有限公司(以下简称"邦耀生物")宣布,其...

关键字: CD 移植 BSP ISP

将智慧医疗作为业务重点之一的云知声,很早便开始布局医疗行业数字化转型,其智慧医疗解决方案融合了智能语音识别技术(ASR)、自然语言理解技术(NLU)、临床知识图谱技术等,广泛而深入地应用于智慧医疗的各个场景,覆盖医政医管...

关键字: 智慧医疗 语音识别 人工智能

人工智能(英文全称Artificial Intelligence,简称AI),作为计算机学科的一个重要分支,于1956年在达特茅斯学会上正式被提出,在当前被人们称为世界三大尖端技术之一。

关键字: 人工智能 人脸识别 语音识别

苏州2022年6月28日 /美通社/ -- 2022年6月23日,首都医科大学附属北京安贞医院(以下简称安贞医院)与苏州心擎医疗技术有限公司(以下简称心擎)在北京、苏州两地线上连线,隆重召开体外心室辅助系统临床...

关键字: BSP 磁悬浮 创始人 移植

在我国健康医疗体系中,医院、医师、病床等方面资源比较短缺,难以很好地满足近年来持续提高的健康医疗需求。而智慧医疗可以很好地提高医疗服务的效率,优化医疗服务体验,扩大医疗服务的时域和领域,有效缓解基层医疗资源短缺和医疗服务...

关键字: 智慧医疗 语音识别 健康大脑

数字电源

15504 篇文章

关注

发布文章

编辑精选

技术子站

关闭