当前位置:首页 > 语音识别
  • 语音识别芯片有哪些类别?语音识别芯片应用有哪些?

    语音识别芯片有哪些类别?语音识别芯片应用有哪些?

    本文中,小编将对语音识别芯片的分类以及语音识别芯片的3类应用予以介绍,如果你想对语音识别芯片的详细情况有所认识,或者想要增进对语音识别芯片的了解程度,不妨请看以下内容哦。 一、什么是语音识别芯片 语音识别芯片也叫语音识别IC,与传统的语音芯片相比,语音识别芯片最大的特点就是能够语音识别,它能让机器听懂人类的语音,并且可以根据命令执行各种动作。除此之外,语音识别芯片还具有高品质、高压缩率录音放音功能,可实现人机对话。 二、语音识别芯片分类 在了解了语音识别芯片的基本知识后,我们再来看看语音识别芯片的分类。注意,此处仅是语音识别芯片的分类方法之一,也可具备其它的分类标准。 按照使用者的限制而言,语音识别 芯片 可以分为特定人语音识别芯片和非特定人语音识别芯片。 (一)特定人语音识别 特定人语音识别芯片是针对指定人的语音识别,其他人的话不识别,须先把使用者的语音参考样本存入当成比对的资料库,即特定人语音识别在使用前必须要进行语音训练,一般按照机器提示训练 2 遍语音词条即可使用。 (二)非特定人语音识别 非特定人语音识别是不用针对指定的人的识别技术,不分年龄、性别,只要说相同语言就可以,应用模式是在产品定型前按照确定的十几个语音交互词条,采集 200 人左右的声音样本,经过PC 算法处理得到交互词条的语音模型和特征数据库,然后烧录到芯片上。应用这种芯片的机器(智能娃娃、电子宠物、儿童电脑)就具有交互功能了。 非特定人语音识别应用有的是基于音素的算法,这种模式下不需要采集很多人的声音样本就可以做交互识别,但是缺点是识别率不高,识别性能不稳定。 三、语音识别芯片应用 在了解了语音识别芯片的两大分类后,我们来了解一下语音识别芯片在广告媒体、智能玩具和个人数字助理三方面的应用。 (一)广告媒体 在很多商场以及门店可以经常听到欢迎观临这样的语音欢迎词,这其实也是语音芯片的使用效果,常见的语音广告牌、镜子广告机、迎宾器、广告宣传器等都是内置了语音芯片这种设备,才可以让不会说话的广告牌播放流利的广告语,尤其是迎宾器的出现成为了替代迎宾礼仪人员的有效方式; 品质有保证的语音芯片还被运用在儿童玩具中,比如小汽车,布娃娃等产品上,可以让玩具发出欢快的歌曲也可以让玩具成为会说话的玩伴,语音芯片如今也在交通工具中有所使用,常见的有语音电动车,语音公交站等,未来语音芯片的适用范围将会更为广泛。 (二)智能玩具 通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。 (三)个人数字助理 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。 经由小编的介绍,不知道你对语音识别芯片是否充满了兴趣?如果你想对语音识别芯片有更多的了解,不妨尝试度娘更多信息或者在我们的网站里进行搜索哦。

    时间:2021-02-06 关键词: 语音识别芯片 语音识别 芯片

  • 基于语音识别技术的声控鼠标光标程序设计

    基于语音识别技术的声控鼠标光标程序设计

      摘要: 实现了一种基于语音识别技术的声控鼠标光标应用程序, 可以用语音控制鼠标光标移动到屏幕的任意位置, 能用来帮助伤残人士只用声音而不用鼠标和键盘就能操作电脑。分析了语音控制鼠标光标使用过程中的延时缺陷, 并做出了针对性的改进。   1 概述   电脑语音技术经过多年发展已经取得了巨大进步, 目前已经有一些产品和项目让人们有机会和计算机进行语音交互工作, 例如IBM公司的Viavoice 系列软件以及微软的新的Office 产品都有实用的语音功能, 可以进行语音听写录入文字等工作, 还出现了一些基于语音技术的应用系统。   语音技术特别是语音识别技术的发展, 使人们可能实现用语音控制电脑, 这对于世界上众多不能方便使用传统的鼠标及键盘的伤残人士有重大的意义; 另外在一些场合不方便操作电脑但又必须使用的情况下同样很有意义, 比如驾驶的同时查询电子地图。目前要真正控制一台图形界面的电脑, 必须做到使用语音控制也能像使用键盘和鼠标那样输入数据以及控制光标。因此一种有效的语音控制光标程序, 也就是可以定位在屏幕的任意位置, 并且可以模拟单击、双击拖拽等各种鼠标动作的语音控制程序, 对于实现语音控制电脑将是一个很有意义的工具。   本文利用微软的Speech SDK 5.1 免费的语音识别引擎和模拟鼠标技术, 用Delphi7.0 实现了一个语音控制鼠标应用程序, 可以实现语音控制鼠标移动、停止、单击等动作达到控制屏幕光标的作用, 并对语音控制鼠标程序中的延迟问题进行了分析, 提出并实现了一种改进方法。   2 基于语音识别的光标控制类型   目前有两种语音控制鼠标的模式: 一种是目标导向光标控制和方向导向光标控制[n]。对于前者, 用户需要用语音给出具体目标名称或者位置, 比如图标、菜单, 或者屏幕区域名称, 然后给出执行的命令如“单击”等, 这种方式对于单个软件还是有效的, 但是当目标增加的时候用户需要记忆很多目标的名称, 还可能出现同名称目标的情况, 因此工作中的错误率会增加。另一种方向导向光标控制又分为非连续控制和连续控制两种, 对于非连续的情况用户要同时说明方向和距离, 如命令“左8 厘米”, 那么光标就向左移动8厘米; 而对于连续的情况用户先说明方向如“向左”,光标就向左移动, 直到用户再说“停止”, 光标才停止运动。   本文讨论的声控光标是属于方向导向中的连续控制, 这种鼠标控制和日常的使用习惯比较一致, 用户使用起来比较适应。   3 实现   本文语音控制光标程序的语音控制是采用微软的Speech SDK 5.1 的语音识别引擎及其API 接口, 这是一个免费的开发包, 并且可以用它开发具有中文语音功能的软件。语音识别引擎通常可以分为两种工作方式, 一种就是命令控制(Command and Control) 方式, 这个方式下语音识别引擎可以识别简短的语音命令, 以便执行相应的程序; 另外一种是连续听写方式,这个模式下语音识别引擎要识别连续的语音, 这种功能实现起来比语音控制更复杂, 因为语音听写过程中需要对上下文以及相同相似发音的词语进行分析、作出判断, 而在命令控制语音方式中不需要作上下文分析。本文采用的是命令控制方式, 因为实现语音控制鼠标只需要对有限的几个简短的命令进行识别, 如“左”、“右”、“停”等。图1 是语音控制鼠标程序的结构图。      图1 语音控制鼠标程序结构   该应用程序主要包括两个部分: 第一部分语音控制应用主程序部分, 主要调用语音识别引擎识别用户的语音命令。   这部分程序主要完成几件工作:   ①导入辞书文法文件(XML 格式, 其中定义感兴趣的语音命令) , 完成对语音识别引擎接口的初始化工作, 激活语音识别引擎;②接收语音识别引擎的识别结果, 根据识别结果调用相应的鼠标控制程序。   下面的语法文件中定义了方向命令和鼠标事件命令的语法规则:   <GRAMMAR LANGID=“804”>   <DEFINE>   <ID NAME=“RID_start” VAL=“1”/>   <ID NAME=“PID_colour” VAL=“2”/>   <ID NAME=“PID_colourvalue” VAL=“3”/>   </DEFINE>   <! - - Rule definiTIons - - >   <RULE NAME=“start” ID=“RID_start” TOPLEVEL=“ACTIVE”>   <RULEREF NAME=“colour” PROPNAME=“colour”PROPID=“PID_colour” />   </RULE>   <RULE NAME=“colour” >   <L PROPNAME=“colourvalue” PROPID=“PID_colourvalue”>   <P VAL=“1”>上</P>   <P VAL=“2”>下</P>   <P VAL=“3”>左</P>   <p VAL=“4”>右</p>   <p VAL=“5”>停止</p>   <P VAL=“6”>单击</P>   <P VAL=“7”>双击</P>   <p VAL=“8”>关闭</p>   </L>   </RULE>   </GRAMMAR>

    时间:2020-09-08 关键词: 鼠标 光标控制 语音识别

  • 基于语音识别汽车空调控制系统设计

    基于语音识别汽车空调控制系统设计

      现在汽车上使用的电器越来越多,驾驶员需要手动操作的电器开关也越来越多,不但增加了驾驶员的负担,还影响了行车安全。本文以STM32F103VET6(以下简称STM32)芯片为控制核心,采用高性能LD3320语音识别芯片,设计基于语音识别的汽车空调控制系统。该系统可以用语音有效控制汽车空调,减轻了驾驶员的操作负担,保证行车过程中的安全。   1 系统硬件设计   运用语音识别技术,结合各种传感器对车身内外的环境(如气温、阳光强度等)以及制冷压缩机的状态等多种参数进行实时检测,与设定参数相比较,微控制器经过运算处理做出判断,输出相应的调节和控制信号。执行机构经过实时调整和修正,实现对车厢内空气环境全方位、多功能的调节和控制。系统的执行机构主要包括温度风门电机、模式风门电机、循环风门电机、鼓风机、压缩机、除霜控制继电器等。图1为系统结构框图。      1.1 主控制器   主控制器为基于ARM Cortex—M3内核的32位微控制器STM32F103VET6,内置64 KB RAM、512 KBFlash,以及丰富的增强I/O端口和联接到两条APB总线的外设,主要控制传感器模拟信号的采集、语音信号的收发和汽车空调控制信号的输出。   1.2 语音识别模块   语音识别芯片选用的是ICRoute公司的LD3320芯片。该芯片集成了语音识别处理器和一些外部电路,包括A/D转化器、D/A转换器、麦克风接口、声音输出接口等。本芯片在设计上注重节能与高效,不需要外接任何的辅助芯片(如Flash、RAM等),直接集成在现有的产品中即可以实现语音识别功能。识别的关键词语列表是可以任意动态编辑的。      参照LD3320数据手册,语音识别控制电路采用LD3320与STM32通过SPI串行方式进行连接。语音识别模块控制电路如图2所示。首先,要将MD接高电平,芯片时钟信号CLK连接到STM32时钟信号输出引脚MCO(PA8)上。引脚MBS是麦克风偏置,接了一个RC电路,保证能输出一个浮动电压给麦克风。   1.3 SD卡存储模块   要实现具有人机交互功能的语音识别控制系统,需要存放大量的MP3音频文件。本系统中,MP3音频播放文件存放在SD卡上,语音识别关键词也存放在SD卡上,这样可以很方便地更改要识别的关键词,而不需要更改程序内容。主控STM32将MP3数据依次从SD卡读出来,送入LD33 20芯片内部,这样就可以从芯片的相应的引脚输出声音。SD卡硬件连接如图3所示。SD卡与STM32通过SPI方式进行通信。将SD卡片选信号CS、数据输入信号DI、数据输出信号DO、时钟信号SCLK分别与STM32的PC11、PD2、PC8、PC12引脚连接。      1.4 传感器模拟信号输入模块   传感器模拟信号是控制系统的输入信号源。传感器把非电量的物理量变成电量后并不一定适合A/D转换器直接应用,还必须经过放大、滤波、隔离及保护措施,才能送给单片机。单片机通过检测这些传感器信号来判断系统的温度、湿度等是否满足用户的要求。以车内温度传感器为例分析,温度信号采集硬件连接图如图4所示。本系统采用NTC公司的高精度车内温度传感器Rntc,Rntc和电阻R0分压后输入到单片机。Rntc电阻值可以近似地用如下公式表达:      其中,R1为绝对温度下T1时的电阻值,T为要检测的温度,Rntc为该温度下的电阻值,B值反映了温度变化与阻值变化的关系。单片机信号输入端得到的电压为:      根据公式(2)电压计算出当前温度传感器的电阻,再由公式(1)计算出要检测的温度。   1.5 压缩机驱动模块   压缩机的动力是由发动机提供的,连接发动机和压缩机的重要电子部件是电磁离合器。根据汽车空调运行情况和压缩机开关的工作电压,单片机控制继电器吸合或断开,以此控制压塑机电磁离合器的吸合与断开。当蒸发器温度一旦低于设定值,压缩机就停止工作;反之,压塑机保持正常工作,开始制冷。汽车空调蒸发器就是一个热交换器,通过热交换将进入蒸发器的气体变为冷风,从而达到制冷的目的。控制蒸发器温度是空调自动控制系统的重要任务。      1.6 风门电动机驱动模块   汽车空调伺服电机选用直流电动机。伺服电机根据功能分为内外循环电动机、混合风门电动机、模式风门电动机。电机采用两个TA8083F系列芯片驱动,每个芯片可以驱动两个伺服电机。该芯片的输入端口可以直接和单片机连接,STM32单片机的PE0~PE3引脚分别与驱动芯片DI1A、DI2A、DI1B、DI2B引脚相连接。其硬件电路如图5所示。      根据输入信号的不同,电机工作状况也不同,具体的工作情况如表1所列。      1.7 鼓风机驱动模块   鼓风机驱动电路如图6所示。用四合一集成运算放大器LM2902将单片机的PWM输出信号T050放大,经放大后的信号Blwc传送给风机调速模块,从而调节鼓风机的转速。单片机输出信号Blowoff control作为控制鼓风机的开关信号。2SC2412作为控制鼓风机运转的开关。当单片机输出高电平时,2SC2412导通,鼓风机停止运转;当单片机输出低电平时,2SC2412反向截止,鼓风机正常运转。      1.8 后除霜驱动模块   前、侧挡风玻璃上的霜层通常是通过在汽车空调系统的风道中,调整模式风门的位置,利用空调系统中产生的暖气(或流动的空气),达到清除结霜的目的。对后挡风玻璃的除霜,常采用除霜热线。除霜热线是把数条电热线(镍铬丝)均匀地粘在后窗玻璃内部,各线两端相接,形成并联电路。当两端加上电压后,电热线就会升温而加热玻璃,从而达到防止或清除霜层的目的。后除霜控制电路如图7所示。IG2为汽车空调电源,单片机输出信号Defr通过三极管NIF5002N来控制继电器的通断,从而控制除霜热线的通断,来达到后除霜的目的。   2 系统软件设计   本系统软件设计采用C语言开发,用Keil uVision4软件进行编译。开发过程按照模块化分块进行,系统的主要模块包括语音识别模块、语音播放模块、SD卡模块以及空调控制模块。   2.1 语音识别模块   语音识别模块采用中断的方式进行工作,其工作流程大致为芯片初始化、写入识别列表、开始识别、中断响应并获取识别结果。语音识别流程如图8所示。在初始化程序里,主要完成软复位、模式设定、时钟频率设定和FIFO设定。在写入识别列表之前,首先要读取寄存器B2的值,检查LD3320是否处于空闲状态;然后,把识别语音列表信息写入LD3320的05和B9寄存器中,每个识别条目是标准普通话的汉语拼音(小写),每两个汉语拼音之间用一个空格间隔。在完成添加语音识别列表后,设定寄存器35的值为45H。此处设定的值越大,代表麦克的音量越大,识别距离也越远,但是可能产生较多的误识别;值越小代表麦克的音量越小,需要近距离说话才能启动语音识别功能,识别率也高。设定寄存器37值为06H,启动语音识别,即可开始语音识别。如果麦克风采集到声音,不管是否识别出正常结果,都会产生一个中断信号。进入中断函数后,首先清零寄存器29和寄存器02;然后,检查B2寄存器是否为0x21。若值为0x21,表示闲,可以检测2B的值;若为1,表示语音识别有结果产生。寄存器BF读到数值为0x35,可以确定是一次语音识别流程正常结束。寄存器BA表示语音识别有几个识别候选结果。最后,可以读取寄存器C5,获取识别结果。      2.2 语音播放模块   语音播放的软件设计流程包括通用初始化、MP3播放初始化、播放音量调节、开始播放声音以及中断响应。通用初始化时,首先连续读取寄存器06,相当于激活了芯片;然后,按顺序设置相关寄存器的值。MP3播放初始化时,首先要设置寄存器BD的值为02H,启动MP3播放模块;然后,向寄存器17写入48H,激活DSP。语音播放模块的音量分为16级,用4位二进制表示,这里需要设置寄存器8E的第2~5位的值来调节播放音量。当播放语音时,首先需要清零,开始播放位置。将寄存器1B的第3位设为1,然后执行循环。当播放条件为真时,顺序将MP3数据放入寄存器01(每次1个字节),播放位置值增加1。当寄存器06的第3位等于0或者播放位置小于MP3文件的总长度时,就跳出循环。等到芯片播放该段后会发出中断请求,而中断函数会不断接收数据,直到FIFO-DA-TA装满或声音数据结束。   2.3 SD卡模块   此模块分为SD卡初始化和SD卡数据读取。SD卡初始化时,在发送CMD命令之前,在片选有效的情况下,首先要发送至少74个时钟,否则将有可能出现SD卡不能初始化的问题。然后,就可以发送复位命令CMD0。发送复位命令后等待8个时钟周期,进入SPI总线模式,接着发送CMD1命令。如果正确接收响应信号,表示SD卡初始化完成,可以接受后续读写命令。初始化完成后,发送CMD17读命令。判断响应值是否全为0,然后,判断接收数据开始令牌是否为0xfe,如果是,就可以接收正式数据和CRC码。   2.4 空调控制模块   空调控制模块主要包括信号采集模块、风门电机控制模块、鼓风机控制模块、压塑机控制模块、后除霜控制模块5个子模块。空调控制流程如图9所示。首先,进行系统的初始化。若点火开关正常启动,信号采集模块开始采集传感器数据,根据采集到的数据,判断是否满足风机启动条件。若满足条件,则设置风机PWM占空比,进而调节风量的大小。当风量大小满足要求时,接下来就要判断是否满足压缩机的启动条件。若满足条件,启动压缩机;如果不满足条件,则判断风门位置是否满足条件。如果不满足条件,则调节风门电机转动,直到满足条件。最后,判断是否满足除霜条件,若满足则启动后除霜继电器。      在软件设计上,采用了指令冗余、软件陷阱和重复设置各种工作方式控制字等方法,消除干扰。使用“Watchdog”定时器,实时监测程序的运行;运用CPU运算与控制功能,采用算术平均法,实现数字滤波,消除传感器通道的千扰信号。   结语   本文介绍了基于语音识别的汽车空调控制系统,分别对硬件电路和软件设计进行了详细的介绍。本系统开发成本低、性能优越,系统测试表明,本系统具有一定的应用价值,可以用于中低档汽车。

    时间:2020-09-07 关键词: 控制系统设计 汽车芯片 汽车空调 语音识别

  • QNX推出全新“善解人意”的车载语音识别架构

      全新意图架构使AT&T WatsonSM语音识别引擎适用于更为广泛的车载系统和应用   2013年1月22日,中国北京——全球汽车电子软件平台领导厂商QNX软件系统有限公司日前推出一款使车载语音识别系统能理解说话者意图的全新强大架构。这款架构能从驾驶者的话语中领会其意图,让车载系统创建日程安排,口述电子邮件或短信,设置复杂的导航目的地,甚至进行一般的互联网搜索。   作为QNX CAR™ 应用平台的一个组件,该架构使车载应用程序可访问AT&T WatsonSM 的语音识别技术。 AT&T Watson是AT&T的先锋语音服务平台,助力开发超越语音的下一代技术,从而打造更先进的语言理解和自动语音识别及其他功能。AT&T Watson多模式和多语言语音引擎在云服务器上运行,延迟低,识别质量非常之高。   AT&T Watson语音引擎在服务器端进行语音分析并对照已知模式,确定驾驶者意图。分析结果从云传回车内,由QNX软件系统的车载意图引擎进行剩余的语音分析,决定如何行动。   QNX软件系统有限公司汽车产品市场经理Andy Gryc表示:“跨客户端和服务器分享工作为汽车制造商和终端用户提供了两全其美的解决之道。对于复杂问题,例如导航系统中驾驶者对目的地的几百种言语表达方式, AT&T Watson所提供的服务器端分析都能得到优化。而QNX客户端分析给予汽车制造商更大的灵活性,使AT&T Watson结果能适用于众多的车载应用、区域或个人喜好。   AT&T Labs技术研究助理副总裁Mazin Gilbert表示:“对大多数人而言,语音是最自然的交流方式。通过与QNX合作,并将我们在实验室所开发的众多丰富语音技术向外界开放,我们让更多的人运用声音的力量与车辆安全互联成为现实。为互联汽车提供新一代虚拟助理应用可以帮助驾驶者在行驶过程中实现眼不离前方,手不离方向盘,意义尤为重大。”   QNX意图识别架构系统可动态插拔,能根据应用程序改变识别词汇,并支持新的车载应用。   QNX软件系统有限公司战略联盟总监Linda Campbell表示:“提供自然直观的用户体验是我们打造互联汽车愿景的根本,而为汽车客户提供工具来创建这些用户体验则是我们产品策略的基础。新推出的意图识别系统令用户可以更好地利用AT&T卓越语音引擎的架构,将会加速语音识别在众多车辆上的部署。”   来自QNX软件系统公司的QNX CAR应用平台是一个全面、预集成的软件栈,旨在帮助汽车企业减少创建高度复杂和互联车载信息娱乐系统所需的时间和精力。   QNX软件系统公司已为全球数以百万计的车载系统进行了软件技术授权,包括数字仪表盘、免提系统、多媒体主机、连接模块和3D导航系统。   AT&T Watson由AT&T Labs开发,为市场上提供先进的语音服务已达数年。这一技术是研发时数超过一百万的话音技术的结晶,这些话音技术在美国申请的专利和已获专利已经超过600项。   供货   新意图识别架构将作为QNX CAR应用平台的组件于2013年开始供货。QNX CAR 2.0平台将于本月向汽车制造商供货。使用AT&T Watson组件需要来自AT&T的单独授权。   关于QNX 软件系统公司   QNX软件系统公司是 Research In MoTIon 公司(RIM)的子公司,是嵌入式系统市场上操作系统、中间件、开发工具和专业服务的领军者。包括思科、戴姆勒、通用电气、洛克希德·马丁和西门子在内的众多全球知名技术领先企业,都将QNX技术应用在网络路由器、车载远程信息处理装置、工业控制系统、医疗设备、安全防卫系统和其他任务关键性和生命关键型应用中。QNX软件系统公司成立于1980年,总部位于加拿大渥太华,其产品行销全球100多个国家或地区。

    时间:2020-09-06 关键词: 车载系统 3d导航系统 qnx公司 语音识别

  • 基于DSP和机器人的声控系统设计与实现

    基于DSP和机器人的声控系统设计与实现

      1 引言   机器人声控系统的研究一直是机器人研究的主要内容之一。传统的声音控制系统一般采用PC 机作为核心平台对机器人进行控制,虽然其具有处理能力强大、语音库完备、系统更新能力强等优点,但是PC 机体积大,功耗大,成本高,不适合于中、小型机器人使用。本文以SPCE061A 为核心,设计了一套机器人声控系统,和传统的PC 机声控系统相比较,具有成本低、体积小、耗能低和使用灵活方便等特点。   本系统采用的机器人平台是北京博创兴盛机器人技术有限公司提供的Voyager II 型地面移动机器人, 该机器人采用了模块化的设计理念,高负载能力的直流伺服控制,可选配声纳、红外、视觉、罗盘、GPS 等传感器和机械手等执行器。完全可以满足声控系统的设计要求。系统的整体设计分为硬件设计和软件设计两部分,下面首先介绍一下系统的硬件设计。   2 系统硬件结构   根据机器人平台情况, 声控系统的硬件结构主要由微处理器单元、供电单元、声音采集单元和串口输出单元四部分组成,如图1 所示:      2.1 微处理器单元   本系统采用凌阳公司的16 位单片机SPCE061A 作为核心控制芯片,内置32K 闪存,其较高的处理速度能使芯片非常快速的处理复杂的数字信号, 适用于语音识别等应用领域。   SPCF061A 的工作频率范围为0.32-49.152MHz.具备8 通道10位ADC 输入功能, 内置了具有自动增益控制的麦克风输入功能。双通道10 位DAC 音频输出功能及A、B 两个I/ 0 口输入输出功能。具有集成度高、性能可靠、价格低廉、功耗小等特点。这些特点充分体现了微控制器工业发展的新趋势。目前,凌阳单片机SPCE061A 的应用越来越广,深受广大用户的欢迎。   2.2 声音采集单元   声音采集单元的换能器采用驻极体话筒, 通过话筒将采集到的声音信号通过MIC_IN 通道传送给CPU,MIC_IN 通道专门用于对语音信号进行采样。语音信号经MIC 转换成电信号,由电容将其中的直流成分滤除, 然后输入到集成在SPCE061A 内部的前置放大器中。SPCE061A 的内部增益控制电路AGC 能随时跟踪、监视前置放大器输出的音频信号的电平,当输入信号过大时,自动减小放大器增益;当输入信号减小时,自动增大放大器增益。这样即可以使A/D 转换器接收到的信号一直保持在最佳电平,又可以使声音损失减至最少,从而提高语音识别的精度。   2.3 外接供电单元   外接供电单元是声控系统的选配单元, 由于声控系统的能耗很低,可以外接3 个1.5V 电池,作为外接供电单元给系统供电。在没有选配外接供电单元时,也可以直接使用Voyager II 型地面移动机器人的蓄电池为关济实: 讲师工学硕士声控系统供电,Voyager II 型机器人的蓄电池供电电压为24V, 将24V 电压先经过7805 转换成5V电压, 然后使用SPY0029 将5V 电压转换成3.3V 电压给SPCE061A 供电。   2.4 存储器单元   存储器单元也是声控系统的选配单元, 当需要识别的语音资源较少时,则使用单片机中集成的FLASH 存储器,就可以满足要求。当语音资源较丰富时,就需要连接外部存储器单元,对语音资源进行存储。为了保证系统的兼容性, 选用凌阳公司的SPR4096 作为外部存储器, LASHSPR4096 内部有512K&TImes;8bits F和4K&TImes;8bits SRAM 在进行FLASH 编程或擦除的时候,可以并发执行SRAM 的读写,SPR4096 内置了一个总线存储器接口和一个串行接口,它允许单片机通过8_bit 并行模式或者1_bit 串行模式访问FLASH SDRAM 的存储区。在本系统中,将SPR4096的SCK 和SDA 与SPCE061A 的IOB0 和IOB1 连接, 构成串行数据通信。   2.5 串口输出单元   由于SPCE061A 单片机的输入、输出电平是TTL 电平,而Voyager II 型机器人配置的是RS-232 标准串行接口,二者的电气规范不一致。因此,要完成SPCE061A 和机器人之间的串行通信,必须对SPCE061A 输出的TTL 电平进行电平转换,本系统中使用MAXIM 公司的MAX232 作为电平转换芯片。MAX232 使用单电源供电, 只需外接5 个0.1uF 的电容, 就可以实现SPCE061A 和Voyager II 型机器人之间的电平转换。   3 系统软件设计   软件设计中最重要的部分就是编写语音识别程序。语音识别过程本质上是一种多维模式识别过程。针对凌阳单片机编写语音识别程序,主要可以分为:训练、辨识、辨识结果输出三部分。   3.1 训练程序   当程序第一次运行时,需要进行语音识别训练。完成识别训练后,会在FLASH 存储器中设定标志位,下次重新启动时,可以跳过语音训练过程,直接进行语音识别程序。如果用户需要重新训练,也可以通过按键来擦除标志位,该部分程序框图如下:   

    时间:2020-09-05 关键词: DSP 机器人 人机交互 控制系统 语音识别

  • 全球最低功耗移动设备语音识别解决方案现已面世

    全球最低功耗移动设备语音识别解决方案现已面世

    英国爱丁堡,2013年2月26日—全球消费电子市场中领先的高性能混合信号半导体及音频解决方案供应商欧胜微电子有限公司,以及消费电子领域中领先的语音技术厂商Sensory公司日前宣??布:现可供应Sensory的完全免提语音控制方案(TrulyHandsfree Voice Control)和基于欧胜最新的超低功耗平台的、用于移动电话音频通道处理的音频监测前端。此次实现的这种前沿性嵌入式软件与DSP技术的结合,为移动设备的语音操作和免提运行(操作)带来了史无前例的性能。 欧胜和Sensory已在欧胜业界领先的WM5110高清(HD)音频系统级芯片(SoC)、以及欧胜的WM0010和WM0011数字信号处理器(DSP)产品上实现了Sensory的TrulyHandsfree技术。带有先进DSP的WM5110是市场上最强大和效率最高的HD音频处理器之一,能够为包括智能手机和平板电脑在内的便携消费电子设备提供超乎寻常的HD音频性能。WM5110或欧胜的WM0010和WM0011产品,结合Sensory的TrulyHandsfree解决方案,可以用非常小巧的占板面积和低功耗提供快速、精确、可靠及抗噪声性能,并且将对手持设备待机时间的影响降至最小,第一次真正实现了“一直在线,一直聆听”的体验。 欧胜WM5110 语音识别技术和云计算的发展已经使语音用户界面成为当今移动电话中“不可或缺”的功能。然而,所有这些仍然需要一次触摸来激活——这在用户双手均无空闲的情况下似乎难以实现,同时在开车时这很危险并且越来越不合法——或者使用“始终在线,始终聆听”的模式则存在着将设备电池耗尽的风险。现在,欧胜和Sensory拥有一套基于超低功耗的TrulyHandsfree解决方案。 “这种来自欧胜和Sensory的技术代表了一项移动电话使用模式中的语音控制方式的关键性突破,它不需要通过触摸来激活,使其在现实环境中成为一种成功的沟通解决方案。”欧胜微电子公司音频解决方案副总裁Rash Sahota说道。 “Sensory和欧胜在便携设备上创造出了一种无与伦比的超低功耗、高精确度语音识别解决方案。移动电话用户现在可以不必触摸屏幕或耗尽电池的情况下便可以实现语音控制、智能语音搜索及使用语音助理。” Sensory公司工程副总裁Bill Teasley说道。 欧胜引人注目的音频演示将在全球移动通讯大会(MWC)上出演,MWC从2月25日至2月28日期间于巴塞罗那举行,欧胜的展位号是2厅2A62。 TrulyHandsfree属于Sensory公司的商标。所有其他商标或注册商标均属于其各自拥有者。 关于欧胜微电子 欧胜微电子是一家全球性的、领先的高性能混合信号半导体音频解决方案供应商,其产品主要应用于消费电子市场。无论是在家中、在办公室还是在路上,欧胜富有创意的技术都是全球众多领先数字消费电子产品的核心,这些系统包括一流的高保真设备、移动电话、平板电脑、MP3播放器、平板电视、数码相机以及便携导航设备等等。 公司的总部位于英国爱丁堡,公司的客户已经遍布全球,因此其设计中心、销售办公室、应用团队以及工程专家也已遍布欧洲、美国和亚洲。 欧胜微电子股份有限公司已在伦敦证券交易所上市(LSE股票代码:WLF.L)。 如果想了解更多关于欧胜微电子的情况,请访问:http://www.wolfsonmicro.com 关于Sensory有限公司 Sensory有限公司是消费电子产品语音技术的领导者,可提供芯片和纯软件解决方案等完整的产品线,可用于语音识别、语音合成、语者验证、音乐合成和及其它领域。Sensory的产品广泛应用于消费电子应用中,包括智能手机、汽车、Bluetooth™产品、玩具和各种家用电子产品。Sensory的客户均是消费电子领域中的领先者,包括像AT&T、BlueAnt Wireless、Hasbro、JVC、Kenwood、Mattel、Mitsubishi、Toshiba、Uniden、VTech、三星(Samsung)和索尼(Sony)这样的公司。

    时间:2020-09-05 关键词: 移动设备 欧胜微电子 语音处理 语音识别

  • 语音识别渗透汽车市场 2019年过半新车将配备

    语音识别渗透汽车市场 2019年过半新车将配备

    语音识别应用在汽车市场的渗透率正快速攀升。IMS Research指出,随着语音识别应用在消费性电子市场日益普及,消费者也开始期望在汽车中使用此一功能,因而刺激车厂导入意愿;预估至2019年,全球约有55%的新车将具备语音识别功能,而整体车用语音辨识市场营收也将由2011年的8,100万美元,剧增至2019年的1亿7,000万美元。

    时间:2020-09-05 关键词: 语音识别

  • 汽车互联:娱乐信息系统开放平台

      陶瓷基板材料以其优良的导热性和气密性,广泛应用于功率电子、电子封装、混合微电子与多芯片模组等领域。本文简要介绍了目前陶瓷基板的现状与以后的发展。   1、塑胶和陶瓷材料的比较   塑胶尤其是环氧树脂由于比较好的经济性,至目前为止依然占据整个电子市场的统治地位,但是许多特殊领域比如高温、线膨胀系数不匹配、气密性、稳定性、机械性能等方面显然不适合,即使在环氧树脂中添加大量的有机溴化物也无济于事。   相对于塑胶材料,陶瓷材料也在电子工业扮演者重要的角色,其电阻高,高频特性突出,且具有热导率高、化学稳定性佳、热稳定性和熔点高等优点。在电子线路的设计和制造非常需要这些的性能,因此陶瓷被广泛用于不同厚膜、薄膜或和电路的基板材料,还可以用作绝缘体,在热性能要求苛刻的电路中做导热通路以及用来制造各种电子元件。   2、各种陶瓷材料的比较   2.1Al2O3   到目前为止,氧化铝基板是电子工业中最常用的基板材料,因为在机械、热、电性能上相对于大多数其他氧化物陶瓷,强度及化学稳定性高,且原料来源丰富,适用于各种各样的技术制造以及不同的形状。   2.2BeO   具有比金属铝还高的热导率,应用于需要高热导的场合,但温度超过300℃后迅速降低,   最重要的是由于其毒性限制了自身的发展。   2.3AlN   AlN有两个非常重要的性能值得注意:一个是高的热导率,一个是与Si相匹配的膨胀系数。缺点是即使在表面有非常薄的氧化层也会对热导率产生影响,只有对材料和工艺进行严格控制才能制造出一致性较好的AlN基板。目前大规模的AlN生产技术国内还是不成熟,相对于Al2O3,AlN价格相对偏高许多,这个也是制约其发展的瓶颈。综合以上原因,可以知道,氧化铝陶瓷由于比较优越的综合性能,在目前微电子、功率电子、混合微电子、功率模组等领域还是处于主导地位而被大量运用。   陶瓷基板材料以其优良的导热性和气密性,广泛应用于功率电子、电子封装、混合微电子与多芯片模组等领域。本文简要介绍了目前陶瓷基板的现状与以后的发展。   1、塑胶和陶瓷材料的比较   塑胶尤其是环氧树脂由于比较好的经济性,至目前为止依然占据整个电子市场的统治地位,但是许多特殊领域比如高温、线膨胀系数不匹配、气密性、稳定性、机械性能等方面显然不适合,即使在环氧树脂中添加大量的有机溴化物也无济于事。   相对于塑胶材料,陶瓷材料也在电子工业扮演者重要的角色,其电阻高,高频特性突出,且具有热导率高、化学稳定性佳、热稳定性和熔点高等优点。在电子线路的设计和制造非常需要这些的性能,因此陶瓷被广泛用于不同厚膜、薄膜或和电路的基板材料,还可以用作绝缘体,在热性能要求苛刻的电路中做导热通路以及用来制造各种电子元件。   2、各种陶瓷材料的比较   2.1Al2O3   到目前为止,氧化铝基板是电子工业中最常用的基板材料,因为在机械、热、电性能上相对于大多数其他氧化物陶瓷,强度及化学稳定性高,且原料来源丰富,适用于各种各样的技术制造以及不同的形状。   2.2BeO   具有比金属铝还高的热导率,应用于需要高热导的场合,但温度超过300℃后迅速降低,   最重要的是由于其毒性限制了自身的发展。   2.3AlN   AlN有两个非常重要的性能值得注意:一个是高的热导率,一个是与Si相匹配的膨胀系数。缺点是即使在表面有非常薄的氧化层也会对热导率产生影响,只有对材料和工艺进行严格控制才能制造出一致性较好的AlN基板。目前大规模的AlN生产技术国内还是不成熟,相对于Al2O3,AlN价格相对偏高许多,这个也是制约其发展的瓶颈。综合以上原因,可以知道,氧化铝陶瓷由于比较优越的综合性能,在目前微电子、功率电子、混合微电子、功率模组等领域还是处于主导地位而被大量运用。   3、陶瓷基板的制造   制造高纯度的陶瓷基板是很困难的,大部分陶瓷熔点和硬度都很高,这一点限制了陶瓷机械加工的可能性,因此陶瓷基板中常常掺杂熔点较低的玻璃用于助熔或者粘接,使最终产品易于机械加工。Al2O3、BeO、AlN基板制备过程很相似,将基体材料研磨成粉直径在几微米左右,与不同的玻璃助熔剂和粘接剂(包括粉体的MgO、CaO)混合,此外还向混合物中加入一些有机粘接剂和不同的增塑剂再球磨防止团聚使成分均匀,成型生瓷片,最后高温烧结。目前陶瓷成型主要有如下几种方法:   辊轴轧制将浆料喷涂到一个平坦的表面,部分干燥以形成黏度像油灰状的薄片,再将薄片送入一对大的平行辊轴中轧碾得到厚度均匀的生瓷片。   流延浆料通过锋利的刀刃涂复在一个移动的带上形成薄片。与其他工艺相比这是一种低压的工艺。   粉末压制粉末在硬模具腔内并施加很大的压力(约138MPa)下烧结,尽管压力不均匀可能产生过度翘曲但这一工艺生产的烧结件非常致密,容差较小。   等静压粉末压制这种工艺使用使用周围为水或者为的模及使用高达69MPa的压力这种压力更为均匀所制成的部件翘曲更小。   挤压浆料通过模具挤出这种工艺使用的浆料黏度较低,难以获得较小容差,但是这种工艺非常经济,并且可以得到比其他方法更薄的部件。   4 、基板种类及其特性比较   现阶段较普遍的陶瓷散热基板种类共有HTCC、LTCC、DBC、DPC四种,其中HTCC属于较早期发展的技术,但由于烧结温度较高使其电极材料的选择受限,且制作成本相对昂贵,这些因素促使LTCC的发展,LTCC虽然将共烧温度降至约850℃,但缺点是尺寸精确度、产品强度等不易控制。而DBC与DPC则为国内近几年才开发成熟,且能量产化的专业技术,DBC是利用高温加热将Al2O3与Cu板结合,其技术瓶颈在于不易解决Al2O3与Cu板间微气孔产生之问题,这使得该产品的量产能量与良率受到较大的挑战,而DPC技术则是利用直接镀铜技术,将Cu沉积于Al2O3基板之上,其工艺结合材料与薄膜工艺技术,其产品为近年最普遍使用的陶瓷散热基板。然而其材料控制与工艺技术整合能力要求较高,这使得跨入DPC产业并能稳定生产的技术门槛相对较高。   4.1 LTCC (Low-Temperature Co-fired Ceramic)   LTCC 又称为低温共烧多层陶瓷基板,此技术须先将无机的氧化铝粉与约30%~50%的玻璃材料加上有机黏结剂,使其混合均匀成为泥状的浆料,接着利用刮刀把浆料刮成片状,再经由一道干燥过程将片状浆料形成一片片薄薄的生胚,然后依各层的设计钻导通孔,作为各层讯号的传递,LTCC内部线路则运用网版印刷技术,分别于生胚上做填孔及印制线路,内外电极则可分别使用银、铜、金等金属,最后将各层做叠层动作,放置于850~900℃的烧结炉中烧结成型,即可完成。   4.2HTCC (High-Temperature Co-fired Ceramic)   HTCC又称为高温共烧多层陶瓷,生产制造过程与LTCC极为相似,主要的差异点在于HTCC的陶瓷粉末并无加入玻璃材质,因此,HTCC的必须再高温1300~1600℃环境下干燥硬化成生胚,接着同样钻上导通孔,以网版印刷技术填孔与印制线路,因其共烧温度较高,使得金属导体材料的选择受限,其主要的材料为熔点较高但导电性却较差的钨、钼、锰…等金属,最后再叠层烧结成型。   4.3DBC (Direct Bonded Copper)   直接敷铜技术是利用铜的含氧共晶液直接将铜敷接在陶瓷上,其基本原理就是敷接过程前或过程中在铜与陶瓷之间引入适量的氧元素,在1065℃~1083℃范围内,铜与氧形成Cu-O共晶液, DBC技术利用该共晶液一方面与陶瓷基板发生化学反应生成 CuAlO2或CuAl2O4相,另一方面浸润铜箔实现陶瓷基板与铜板的结合。   直接敷铜陶瓷基板由于同时具备铜的优良导电、导热性能和陶瓷的机械强度高、低介电损耗的优点,所以得到广泛的应用。在过去的几十年里,敷铜基板在功率电子封装方面做出了很大的贡献,这主要归因于直接敷铜基板具有如下性能特点:   热性能好;   电容性能;   高的绝缘性能;   Si相匹配的热膨胀系数;   电性能优越,载流能力强。   直接敷铜陶瓷基板最初的研究就是为了解决大电流和散热而开发出来的,后来又应用到AlN陶瓷的金属化。除上述特点外还具有如下特点使其在大功率器件中得到广泛应用:   机械应力强,形状稳定;高强度、高导热率、高绝缘性;结合力强,防腐蚀;   极好的热循环性能,循环次数达5万次,可靠性高;   与PCB板(或IMS基片)一样可刻蚀出各种图形的结构;无污染、无公害;   使用温度宽-55℃~850℃;热膨胀系数接近矽,简化功率模组的生产工艺。   由于直接敷铜陶瓷基板的特性,就使其具有PCB基板不可替代特点。DBC的热膨胀系数接近矽芯片,可节省过渡层Mo片,省工、节材、降低成本,由于直接敷铜陶瓷基板没有添加任何钎焊成分,这样就减少焊层,降低热阻,减少孔洞,提高成品率,并且在相同载流量下 0.3mm厚的铜箔线宽仅为普通印刷电路板的10%;其优良的导热性,使芯片的封装非常紧凑,从而使功率密度大大提高,改善系统和装置的可靠性。   为了提高基板的导热性能,一般是减少基板的厚度,超薄型(0.25mm)DBC板可替代BeO,直接敷接铜的厚度可以达到0.65mm,这样直接敷铜陶瓷基板就能承载较大的电流且温度升高不明显,100A电流连续通过1mm宽0.3mm厚铜体,温升约17℃;100A电流连续通过2mm宽0.3mm厚铜体,温升仅5℃左右。与钎焊和Mo-Mn法相比,DBC具有很低的热阻特性,以10&TImes;10mmDBC板的热阻为例:   0.63mm厚度陶瓷基片DBC的热阻为0.31K/W,0.38mm厚度陶瓷基片DBC的热阻为0.19K/W,0.25mm厚度陶瓷基片DBC的热阻为0.14K/W。   氧化铝陶瓷的电阻最高,其绝缘耐压也高,这样就保障人身安全和设备防护能力;除此之外DBC基板可以实现新的封装和组装方法,使产品高度集成,体积缩小。   4.3.1 直接敷铜陶瓷基板发展趋势   在大功率、高密度封装中,电子元件及芯片等在运行过程中产生的热量主要通过陶瓷基板散发到环境中,所以陶瓷基板在散热过程中担当了重要的角色。Al2O3陶瓷导热率相对较低,在大功率、高密度封装器件运行时须强制散热才可满足要求。BeO陶瓷导热性能最好,但因环保问题,基本上被淘汰。SiC陶瓷金属化后键合不稳定,作为绝缘基板用时,会引起热导率和介电常数的改变。AlN陶瓷具有高的导热性能,适用于大功率半导体基片,在散热过程中自然冷却即可达到目的,同时还具有很好的机械强度、优良的电气性能。虽然目前国内制造技术还需改进,价格也比较昂贵,但其年产增率比Al2O3陶瓷高4倍以上,以后可以取代BeO和一些非氧化物陶瓷。所以采用AlN陶瓷做绝缘导热基板已是大势所趋,只不过是存在时间与性价比的问题。   4.3.2直接敷铝(DAB)陶瓷基板与直接敷铜陶瓷基板(DBC)性能比较   直接敷铝基板作为一种绝缘载体应用于电子电路而取得长足进展,该技术借?了直接敷铜陶瓷基板技术。这类新型的直接敷Al基板在理论和实验上表现出好的特性。尽管它的特性在很多方面相似于直接敷Cu基板。对于直接敷Cu基板,由于金属铜的膨胀系数室温时为17.0 ′10-6/°C,96氧化铝陶瓷基板的热膨胀系数室温时为6.0′10-6/°C,铜和氧化铝敷接的温度较高(大于1000℃),接口会形成比较硬的产物CuAlO2,所以敷接铜的氧化铝基板的内应力较大,抗热震动性能相对较差,在使用中常常因疲劳而损坏。   铝和铜相比,具有较低的熔点,低廉的价格和良好的塑性,纯铝的熔点只有660℃,纯铝的膨胀系数在室温时为23.0′ 10-6/℃,金属铝和氧化铝陶瓷基板的敷接是物理湿润,在接口上没有化学反应,而且纯铝所具有的优良的塑性能够有效缓解接口因热膨胀系数不同引起的热应力,研究也证实Al/Al2O3陶瓷基板具有非常优良的抗热震性能。这是直接敷Cu基板无法比拟的,同时金属铝和氧化铝陶瓷之间的抗剥离强度也较大。   直接敷铝基板作为基板特别适合于功率电子电路直接敷铝基板性能不同于直接敷铜基板的性能,前者在高温循环下有更好的稳定性能。直接敷铝基板的芯片也表现出更好的稳定性,胜过直接敷铜基板。直接敷铝基板以它的高的抗热震性、低的重量,有望在将来开发出更好的性能,以满足更高的需求。   4.3.3敷铝陶瓷基板的发展趋势   敷铝陶瓷基板(DAB)以其独特的性能应用于绝缘载体,特别是功率电子电路。这种新型材料在很多方面都有和直接敷铜基板(DBC)相似的地方,而自身又具有显著的抗热震性能和热稳定性能,对提高在极端温度下工作器件的稳定性十分明显。由Al-Al2O3基板、Al-AlN基板做成的电力器件模组已成功应用在日本汽车工业上。DAB基板在对高可靠性有特殊要求的器件上具有巨大的潜力,这就使其非常适合优化功率电子系统、自动化、航空航太等。   4.4 DPC (Direct Plate Copper)   DPC亦称为直接镀铜基板, DPC基板工艺为例:首先将陶瓷基板做前处理清洁,利用薄膜专业制造技术-真空镀膜方式于陶瓷基板上溅镀结合于铜金属复合层,接着以黄光微影之光阻被复曝光、显影、蚀刻、去膜工艺完成线路制作,最后再以电镀/化学镀沉积方式增加线路的厚度,待光阻移除后即完成金属化线路制作,详细DPC生产流程图如下图。   5 、陶瓷基板特性   5.1热传导率   热导率代表了基板材料本身直接传导热能的一种能力,数值愈高代表其散热能力愈好。在LED领域散热基板最主要的作用就是在于,如何有效的将热能从LED芯片传导到系统散热,以降低LED 芯片的温度,增加发光效率与延长LED寿命,因此,散热基板热传导效果的优劣就成为业界在选用散热基板时,重要的评估项目之一。检视表一,由四种陶瓷散热基板的比较可明看出,虽然Al2O3材料之热传导率约在20~24之间,LTCC为降低其烧结温度而添加了30%~50%的玻璃材料,使其热传导率降至2~3W/mK左右;而HTCC因其普遍共烧温度略低于纯Al2O3基板之烧结温度,而使其因材料密度较低使得热传导系数低Al2O3基板约在16~17W/mK之间。一般来说,LTCC与HTCC散热效果并不如DBC与DPC散热基板里想。   5.2操作环境温度   操作环境温度,主要是指产品在生产过程中,使用到最高工艺温度,而以一生产工艺而言,所使用的温度愈高,相对的制造成本也愈高,且良率不易掌控。HTCC工艺本身即因为陶瓷粉末材料成份的不同,其工艺温度约在1300~1600℃之间,而LTCC/DBC的工艺温度亦约在850~1000℃之间。此外,HTCC与LTCC在工艺后对必须叠层后再烧结成型,使得各层会有收缩比例问题,为解决此问题相关业者也在努力寻求解决方案中。另一方面,DBC对工艺温度精准度要求十分严苛,必须于温度极度稳定的1065~1085℃温度范围下,才能使铜层熔炼为共晶熔体,与陶瓷基板紧密结合,若生产工艺的温度不够稳定,势必会造成良率偏低的现象。而在工艺温度与裕度的考量,DPC的工艺温度仅需250~350℃左右的温度即可完成散热基板的制作,完全避免了高温对于材料所造成的破坏或尺寸变异的现象,也排除了制造成本费用高的问题。   5.3工艺能力   工艺能力,主要是表示各种散热基板的金属线路是以何种工艺技术完成,由于线路制造/成型的方法直接影响了线路精准度、表面粗糙镀、对位精准度…等特性,因此在高功率小尺寸的精细线路需求下,工艺分辨率便成了必须要考虑的重要项目之一。LTCC与HTCC均是采用厚膜印刷技术完成线路制作,厚膜印刷本身即受限于网版张力问题,一般而言,其线路表面较为粗糙,且容易造成有对位不精准与累进公差过大等现象。此外,多层陶瓷叠压烧结工艺,还有收缩比例的问题需要考量,这使得其工艺分辨率较为受限。而DBC虽以微影工艺备制金属线路,但因其工艺能力限制,金属铜厚的下限约在150~300um之间,这使得其金属线路的分辨率上限亦仅为150~300um之间(以深宽比1:1为标准)。而DPC则是采用的薄膜工艺制作,利用了真空镀膜、黄光微影工艺制作线路,使基板上的线路能够更加精确,表面平整度高,再利用电镀/电化学镀沉积方式增加线路的厚度,DPC金属线路厚度可依产品实际需求(金属厚度与线路分辨率)而设计。一般而言,DPC金属线路的分辨率在金属线路深宽比为1:1的原则下约在10~50um之间。因此,DPC杜绝了LTCC/HTCC的烧结收缩比例及厚膜工艺的网版张网问题。   5.4、陶瓷散热基板之应用   陶瓷散热基板会因应需求及应用上的不同,外型亦有所差别。另一方面,各种陶瓷基板也可依产品制造方法的不同,作出基本的区分。LTCC散热基板在LED产品的应用上,大多以大尺寸高功率以及小尺寸低功率产品为主,基本上外观大多呈现凹杯状,且依用户端的需求可制作出有导线架 & 没有导线架两种散热基板,凹杯形状主要是针对封装工艺采用较简易的点胶方式封装成型所设计,并利用凹杯边缘作为光线反射的路径,但LTCC本身即受限于工艺因素,使得产品难以备制成小尺寸,再者,采用了厚膜制作线路,使得线路精准度不足以符合高功率小尺寸的LED产品。而与LTCC工艺与外观相似的HTCC,在LED散热基板这一块,尚未被普遍的使用,主要是因为HTCC采用1300~1600℃高温干燥硬化,使生产成本的增加,相对的HTCC基板费用也高,因此对极力朝低成本趋向迈进LED产业而言,面临了较严苛的考验HTCC。   另一方面, DBC与DPC则与LTCC/HTCC不仅有外观上的差异,连LED产品封装方式亦有所不同,DBC/DPC均是属于平面式的散热基板,而平面式散热基板可依客制化备制金属线路加工,再根据客户需求切割成小尺寸产品,辅以共晶/复晶工艺,结合已非常纯熟的萤光粉涂布技术及高阶封装工艺技术铸膜成型,可大幅的提升LED的发光效率。然而,DBC产品因受工艺能力限制,使得线路分辨率上限仅为150~300um,若要特别制作细线路产品,必须采用研磨方式加工,以降低铜层厚度,但却造成表面平整度不易控制与增加额外成本等问题,使得DBC产品不易于共晶/复晶工艺高线路精准度与高平整度的要求之应用。DPC利用薄膜微影工艺备制金属线路加工,具备了线路高精准度与高表面平整度的的特性,非常适用于复晶/共晶接合方式的工艺,能够大幅减少LED产品的导线截面积,进而提升散热的效率。   6、结论   经由上述各种陶瓷基板之生产流程、特性比较、以及应用范围说明后,可明确的比较出个别的差异性。其中,LTCC散热基板在LED产业中已经被广泛的使用,但LTCC为了降低烧结温度,于材料中加入了玻璃材料,使整体的热传导率降低至2~3W/mK之间,比其他陶瓷基板都还要低。再者,LTCC使用网印方式印制线路,使线路本身具有线径宽度不够精细、以及网版张网问题,导致线路精准度不足、表面平整度不佳等现象,加上多层叠压烧结又有基板收缩比例的问题要考量,并不符合高功率小尺寸的需求,因此在LED产业的应用目前多以高功率大尺寸,或是低功率产品为主。而与LTCC工艺相似的HTCC以1300~1600℃的高温干燥硬化,使生产成本偏高,居于成本考量鲜少目前鲜少使用于LED产业,且HTCC与LTCC有相同的问题,亦不适用于高功率小尺寸的LED产品。另一方面,为了使DBC的铜层与陶瓷基板附着性佳,必须因采用1065~1085℃高温熔炼,制造费用较高,且有基板与Cu板间有微气孔问题不易解决,使得DBC产品产能与良率受到极大的考验;再者,若要制作细线路必须采用特殊处理方式将铜层厚度变薄,却造成表面平整度不佳的问题,若将产品使用于共晶/复晶工艺的LED产品相对较为严苛。反倒是DPC产品,本身采用薄膜工艺的真空溅镀方式镀上薄铜,再以黄光微影工艺完成线路,因此线径宽度10~50um,甚至可以更细,且表面平整度高(《0.3um)、线路对位精准度误差值仅+/-1%,完全避免了收缩比例、网版张网、表面平整度、高制造费用…等问题。虽LTCC、HTCC、DBC、与DPC等陶瓷基板都已广泛使用与研究,然而,在高功率LED陶瓷散热领域而言,DPC在目前发展趋势看来,可以说是最适合高功率且小尺寸LED发展需求的陶瓷散热基板。

    时间:2020-09-05 关键词: 车载导航 车载娱乐 汽车互联 语音识别

  • CEVA携Sensory力推先进的语音识别解决方案

      全球硅智产(SIP)平台解决方案与数字信号处理器(DSP)内核授权厂商CEVA和消费性产品语音技术厂商Sensory宣布,两家公司已合作推出一款先进的语音识别解决方案。   CEVA音信及语音产品行销总监Moshe Sheier表示,在结合CEVA的TeakLite-4 DSP的第二代功耗调节单元,以及以音信/语音为目标的指令集架构后,产品开发人员能轻易地在设备中整合Sensory的高品质语音启动技术,而使其具有业界最低的功耗,以满足严苛的电池寿命设计规范。   此一方案以CEVA的TeakLite-4 DSP和Sensory的TrulyHandsfree始终连线(Always On)语音启动技术为基础,其中包括Sensory的Low Power Speech Detector技术,这项技术可大幅降低始终在收听设备的功耗,并也是这项技术首次在DSP内核上实现。   采用28纳米(nm)制程时,Sensory的语音启动技术在DSP上消耗的能量少于60微瓦(uW),说明在CEVA-TeakLite-4 DSP上部署Sensory技术时所具有的功耗优势,使其成为各式各样功耗敏感应用的理想选择,包括智能手机、平板电脑、游戏、电视及汽车。

    时间:2020-09-05 关键词: DSP 传感器 电池 28nm 语音识别

  • 音频IC市场在智能手机领域急剧增长

    音频IC市场在智能手机领域急剧增长

      据IHS公司旗下IMS Research发表的音频IC报告,由于能够改善音质和增强苹果Siri等语言识别用户界面,音频集成电路(IC)在手机领域的应用将急剧增长,预计未来五年用于降噪和自然语音的芯片的使用量将最大。   手机是音频IC的最大单一应用领域,以智能手机为主。在智能手机的两大音频IC应用领域中——音频信号处理IC和硅麦克风音频输入与输出IC,至少在2011-2016年会连续以两位数的速度增长。例如,智能手机硅麦克风音频输入与输出IC今年营业收入将从2011年的1.939亿美元增长到 3.228亿美元,2016年有望达到5.405亿美元。今年增长率为24%。   音频信号处理IC的营业收入呈现同样强劲的增长势头。在非基于内核的IC领域,包括专用集成电路以及专用标准产品在内,今年营业收入预计从2011 年的4.698亿美元增长到7.796亿美元,到2016年增长到13亿美元。今年预计增长24%,增长率与音频输入与输出IC领域一样。上述两类音频 IC的五年复合年度增长率均远高于18%。   音频IC市场的增长受媒体消费设备需求的影响很大。媒体内容目前普遍存储于互联网云等系统之中,然后以数字方式传输,音频内容消费的生态系统也在不断发展,专注于用户体验,以便于其立即获得新内容。   这类轻松访问,进而推动音频回放系统在移动PC、平板电脑和手机等便携设备市场的增长。2011年手机一项就占有24%的音频半导体营业收入,接近10亿美元,有望成为音频IC的最大单一应用。   两个增长趋势:噪声抑制与自然语言   由于通过便携设备消费个人娱乐内容成为常态,音频半导体厂商一直在努力向用户提供更好的音频体验。尤其是,主动噪声抑制与语言识别等应用正在进入新型产品之中,最成功的应用已被集成到硅片之中,用于解放处理器。使之可以处理额外功能,或者通过提高处理器效率来降低整体功耗与成本。   在噪声抑制方面,厂商正在采用MEMS麦克风来分辨使用者发出的声音和背景声音。例如,在非常高端的智能手机中,有时在接收器件中使用一个复杂的基于处理器的多维算法来消除环境噪声。甚至可以在接收器件中使用这个方法来消除围绕发射器件的环境噪声。   至于自然语言,自从有限的语音控制得到使用以来,该技术取得了飞跃式的发展。从采用Siri的苹果iPhone等智能手机以及三星Galaxy S开始,智能手机语音识别现在可以识别自然提问与命令并可以作出响应,不再只能对预先编程的短语做出反应。   IHS公司认为,预计自然语言功能未来五年将在其它智能手机中得到大量使用。此外,近期内该技术肯定会增强穿戴式电子产品、汽车驾驶辅助与语音敏感型安防等新应用。   考虑到这类应用的创新性发展,也许像《星际迷航》中的徽章通讯器、《至尊神探》中的手表和《钢铁侠》Jarvis界面等未来派语音控制情景已并不遥远。

    时间:2020-09-04 关键词: 智能手机 音频 麦克风 音频ic 语音识别

  • 车载体验智能化:搭载语音识别技术大势所趋

    车载体验智能化:搭载语音识别技术大势所趋

      Nuance通讯公司和中国本土领先汽车制造商比亚迪日前共同宣布,比亚迪全新思锐系列轿车将整合Nuance车载语音技术。比亚迪在“2013年上海国际车展”中展示了该款车型及其先进的车载导航系统。   据IHS Global Insight(IHS环球透视)数据显示,中国消费者对于高级车载信息娱乐系统的需求日益增大。目前,95%的新车均配备音响系统;到2017年,预计有25%,即700多万辆的新车将搭载导航系统。为满足这种与日俱增的消费者需求,比亚迪新款信息娱乐系统整合了 Nuance 语音识别技术,可以支持中文普通话,并提供更智能、更安全的车载体验。      搭载了Nuance领先语音技术,比亚迪全新思锐的智能语音控制系统引人注目   比亚迪思锐系列轿车的车载语音应用可实现对收音机、电视电台、碟片、媒体播放器和导航系统的语音控制。比如,人们可以说:   “播放收音机”, “播放新闻频道”,或要切换光盘模式,可以说“全屏播放”;   如想切换歌曲,可以说“播放下一首歌曲”;   或说“搜索加油站”,系统将自动为您查找最近的加油站路线,等等。   比亚迪汽车工业有限公司汽车电子及零部件事业部总工程师罗如忠说,“比亚迪一直是中国本土汽车市场车载 IT 和信息娱乐系统创新的佼佼者。通过在比亚迪最新一代信息娱乐系统中集成 Nuance的尖端语音识别技术,我们将能为广大国内消费者带来直观的语音对话体验。”   Nuance Mobile车载业务部副总裁兼总经理Arnd Weil 说,“Nuance语音识别技术应用广泛、灵活性强并具有卓越的性能,为比亚迪在中国市场提供创新产品的重要保障。与比亚迪的合作进一步展示了我们为中国消费者带来人性化语音应用引人入胜的使用体验的承诺。”   整合于思锐轿车车载系统的Nuance车载语音识别技术,可以支持普通话指令,是Nuance广泛的嵌入式、互联语音识别和语音合成产品组合的组成部分。Nuance多元化的语音识别技术使全球消费者能更加人性化地仅通过语音方式与其手机、平板电脑、电视、汽车和计算机进行互动。

    时间:2020-09-04 关键词: 人机交互 车载导航 车载娱乐 语音识别

  • NEC开发出在噪声环境下进行语音操作智能机的技术

      近日,通过组合噪音消除技术和语音增强技术,NEC开发出了在嘈杂场所也无需紧贴智能手机或平板电脑来进行语音操作的语音识别技术。   家电及便携终端等产品采用语音操作功能的越来越多,但目前还需要使内置麦克风靠近嘴边清楚地发音。因此,在开着电视的房间、正在做饭的厨房以及行驶中的汽车内等有噪音的环境下,存在终端对语音没反应或者对噪音产生反应、出现误操作的问题。   而使用NEC新开发的技术后,在原本很难使用语音功能的噪音环境下,即使是离开麦克风一定距离发出的语音也能被正确检测出来,实现对终端的操作。比如,能在嘈杂的客厅从距离约1m的位置操作放在桌子上的终端。此次开发的噪音消除技术和语音增强技术的概要如下。   (1)用副麦克风检测噪音成分,准确追踪噪音   智能手机等便携终端大多在正面配备主麦克风,在背面或侧面配备副麦克风。NEC的技术就着眼于这样点的双麦克风设计。采用双麦克风设计时,容易做到让主麦克风主要拾取语音输入,副麦克风主要拾取噪音,因此,在主麦克风没有语音输入时(比如语音输入即将开始前等),从副麦克风收集到的声音中可明确噪音成分。这样,在主麦克风有语音输入时也可轻松地准确追踪噪音,并将其去除。   (2)使用语音模型,调整为最适于语音识别的状态   针对去除噪音后出现失真而难以识别的语音,此次开发出了根据模型增强语音成分的技术。该技术可将失真的语音修正为类似波形的语音模型,使语音识别变得容易。据介绍,语音识别的精度比便携终端语音识别的全球标准ETSI Advanced Front-End(AFE)还要高。

    时间:2020-09-04 关键词: nec 语音识别

  • McAfee增加LiveSafe控制平台,确保公有云安全

    McAfee增加LiveSafe控制平台,确保公有云安全

      英特尔正在引进新思路以保证公有云的安全。英特尔将提供一项服务,在用户经过面孔识别和语音识别之后,允许用户访问在线文件。   英特尔旗下的McAfee将增加一个名为“LiveSafe”的产品。这个产品提供1GB容量的在线存储,可通过生物身份识别来访问。LiveSafe有一个基于网站的管理控制台,可以通过面孔识别、语音识别或者输入PIN号码对用户进行身份识别。LiveSafe还包括杀毒和其它安全功能。   McAfee把这项服务比喻为云中的在线储藏室,可以在那里存储敏感的信息。通过平板电脑、智能手机和PC都可以访问这项服务。各种设备的身份识别方案有所不同。   McAfee高管称,多因数身份识别对于存储在云中的文件是非常重要的。   McAfee全球消费者业务部门副总裁Gary Davis称,生物身份识别功能与配置英特尔芯片的笔记本电脑中的防盗和身份保护功能捆绑在一起。英特尔芯片增加一层额外的保护。宣布的这个消息的很大一部分是与英特尔合作的结果。   一台PC需要配置一个网络摄像头和一个英特尔处理器以便使用语音和面孔识别。在Mac计算机、移动设备和使用AMD的x86处理器的PC上,并非所有的生物识别形式都起作用。在没有提供生物身份识别功能的情况下,用户在输入正确的PIN号码之后也可以访问文件。LiveSafe还将兼容Android和苹果的iOS操作系统。   这个软件的价格是,对于在新PC上安装这个软件的用户,12个月的服务费为19.99美元。在此之后,用户每年需支付79.99美元的费用。对于现有的PC用户,这个软件12个月的订阅费为79.99美元。   Davis表示,安全文件存储在McAfee的数据中心。我们需要保证我们把文件放在绝对安全的地方。   “Total ProtecTIon”等McAfee软件有一项功能可以把文件存储在本地存储中的安全位置。LiveSafe将不与在本地存储中创建的安全文件库中的文件进行同步。   英特尔在2011年年初完成了76.8亿美元收购McAfee的交易。在那之后,英特尔采取一些步骤把这家安全公司的资产应用到芯片级。一个合并的产品是 DeepSafe。在英特尔芯片中的一个安全层允许McAfee的恶意软件保护软件识别和封锁rootkits等些安全威胁,或者分析潜在的恶意软件的隐蔽行为。   英特尔还说,它将利用McAfee的资产把安全功能集成到芯片级以便使自己的产品与竞争对手的产品有所不同。有些功能将嵌入到凌动处理器芯片中,帮助保护智能手机和平板电脑的安全。

    时间:2020-09-04 关键词: 英特尔 数据中心 mcafee 云存储 语音识别

  • 基于语音的终端映射技术如何实现智能交互?

    基于语音的终端映射技术如何实现智能交互?

      上一代系统使用汽车内置功能来提供娱乐与信息系统,而下一代汽车信息娱乐系统的功能将源于驾车者的移动设备,如iPhone、iPad和其它智能手机及平板电脑。这是一个巨大的变化。信息时代,屏幕已成为信息输出的重要介质,车载终端屏幕形成新的潮流。通过映射技术可在车载终端屏幕上充分发挥移动设备的优势。然而,驾驶者在开车时如何进行更便捷、更安全地进行人机交互才是关键所在。以往的普通手动操作势必会带来安全隐患,鉴于此,基于语音的映射技术将成为车载终端的大势所趋。   为满足消费者需求,有效结合智能手机和车载终端屏幕,大多汽车厂商很乐意将汽车和移动应用相结合,为驾乘者提供基于移动设备的信息娱乐系统。这些汽车厂商将跻身于在下一轮车载社交媒体和互动功能的革命前列。据IHS iSuppli分析,整合智能手机应用的趋势将在汽车产业中快速发展,2018年整合智能手机应用的汽车音响的销量,将从2011年的数千个增长至近500万个。   图1所示为基于语音的智能终端映射技术的实现过程。通过映射模块,包括智能手机、平板电脑在内的移动设备和车载显示屏以及车机有效的连接起来。由于智能手机联网功能丰富,又可随身携带,随时随地都可以使用,因此一系列的移动应用就能对应的移植到车载之中,从而让驾乘者得到更好的交互体验。 图1 基于语音的智能终端映射技术的实现过程   车载语音识别技术实现智能交互   与此同时,由于对驾驶者在开车期间不能使用手机,这使得语音识别系统应运而生。目前车载语音识别技术有两种,嵌入式和云计算。嵌 入式语音识别技术是一种本地的、个人的、狭义的语音识别。它有很明显的缺点,受终端存储容量的限制,无法实现对不同口音、不同人的语音识别。而云端识别则要进行噪音处理之后方可在车载环境中应用。   如今也有专属车载环境的语音识别技术,后台使用大量不同人的 口音训练模型和车载噪音模型,适用于车载环境,具有广谱性,识别率达到90%以上。   通过图2所示这种语音云平台的云端服务 + 映射终端对智能手机和显示设备的连接 + 终端应用服务启动的模式,就能有效的达到语音交互的目的。加入语音云平台后,用户可以根据自己的语言习惯表达意图指令,服务器进行语音识别响应指令,智能手机通过映射模块把内容传输到车载终端屏幕显示。映射模块采用智能终端映射芯片,能够通过A/V通道向显示设备传输音、视频信息,实现智能手机与显示设备间的双屏映射。 图2 语音云平台的云端服务 + 映射终端对智能手机和显示设备的连接 + 终端应用服务启动模式  

    时间:2020-09-04 关键词: 语音交互 车载语音识别 映射技术 语音识别

  • 车载语音识别市场剧增,车商行销紧抓新卖点

    车载语音识别市场剧增,车商行销紧抓新卖点

      核心提示:IMS Research指出,预估至2019年,全球约有55%的新车将具备语音识别功能,而整体车用语音识别市场营收也将由2011年的8,100万美元,剧增至2019年的1亿7,000万美元。为满足消费者需求,大多汽车厂商很乐意将汽车和移动应用相结合,并有效结合语音识别技术,为驾乘者提供基于移动设备的信息娱乐系统。   车内语音识别功能将成为各大车厂的行销利器。随着各国行车安全法规趋严及消费者对于行车安全日益重视,品牌车厂已将语音操控视为车载资通讯系统控制的重要途径,并正致力透过完善软件开发环境,与提高硬件规格,强化语音识别精准度。      福特汽车亚太和非洲区、欧洲连接服务总监Edward Pleet表示,SYNC AppLink功能可让消费者享受更多便捷的车载连接服务。   福特(Ford)汽车亚太和非洲区、欧洲连接服务总监Edward Pleet表示,目前欧洲、美洲及亚太地区等地国家,已开始制定除禁止开车时手持接听手机外的安全法规,其中,控制车载资通讯系统的方式更是各国法规制定单位的聚焦重点;因此,车商除加强人机界面的开发外,更不断提升语音识别系统完善度,让驾驶的双手能完全不离方向盘、双眼不离路面,确保行车安全。   福特此次于台北国际电脑展(Computex)亮相的新型车款,即内建具有语音控制功能的车载资通讯系统,举凡拨打/接听电话、聆听调频音乐、控制多媒体影音资讯等,驾驶的双手皆毋须离开方向盘,仅须轻按方向盘上的语音识别按钮并说出指令即可。   福特欧洲研究中心总监Pim van der Jagt指出,福特SYNC车载资通讯系统能够识别超过一万条语音命令,车主只须说出简短的指令,系统即可以完成多重功能的操作。福特为提高语音识别精准度,正透过资料库的改善,戮力提升该系统对各种口音的识别度,甚至,该系统本身亦具学习功能,若系统连接至云端资料库,则可透过语音资讯的更新,让系统具备呈现客製化服务的能力。   Pleet指出,为加速语音识别技术在汽车应用的普及度,福特在Computex亦宣布在亚太区推出SYNC AppLink软件功能,让消费者可以透过车辆的语音声控指令,使用喜爱的智慧手机应用程序。Pleet进一步指出,北美区在推出该功能后,已出现至少六十款的语音识别应用程序,使车载资通讯系统丰富度大增,而亚太区已逐渐成为车商主力市场,因此,亚太市场亦将跟进,首批将推出三款全新应用程序,包括Pandora、TuneIn Radio和Kaliki,让车主能在车上聆听喜爱的音乐与广播节目。此外,福特也同时发布一款名为AppLink Catalog App的应用程序,消费者可利用该程序,找到与AppLink相容的应用程序。   不仅如此,福特亦在亚太区及非洲区推出软件开发计划,并正式于GENIVI Alliance开放程序源代码,与软件开发商共享开发资源,以加快语音识别应用程序的开发速度。据统计,目前全球已有超过五百万辆福特车款搭载SYNC系统。随着该系统在欧亚市场日益普及,福特预计到2015年,全球将再增加约九百万辆福特汽车搭载SYNC系统。   关注更多车载语音的背景资料   语音识别渗透汽车市场 2019年过半新车将配备   语音识别应用在汽车市场的渗透率正快速攀升。IMS Research指出,随着语音识别应用在消费性电子市场日益普及,消费者也开始期望在汽车中使用此一功能,因而刺激车厂导入意愿;预估至2019年,全球约有55%的新车将具备语音识别功能,而整体车用语音识别市场营收也将由2011年的8,100万美元,剧增至2019年的1亿7,000万美元。【详情】   车载体验智能化:搭载语音识别技术大势所趋   据IHS Global Insight(IHS环球透视)数据显示,中国消费者对于高级车载信息娱乐系统的需求日益增大。目前,95%的新车均配备音响系统;到2017年,预计有25%,即700多万辆的新车将搭载导航系统。为满足这种与日俱增的消费者需求,比亚迪新款信息娱乐系统整合了 Nuance 语音识别技术,可以支持中文普通话,并提供更智能、更安全的车载体验。【详情】   基于语音的终端映射技术如何实现智能交互?   为满足消费者需求,有效结合智能手机和车载终端屏幕,大多汽车厂商很乐意将汽车和移动应用相结合,为驾乘者提供基于移动设备的信息娱乐系统。这些汽车厂商将跻身于在下一轮车载社交媒体和互动功能的革命前列。据IHS iSuppli分析,整合智能手机应用的趋势将在汽车产业中快速发展,2018年整合智能手机应用的汽车音响的销量,将从2011年的数千个增长至近 500万个。鉴于此,基于语音的映射技术将成为车载终端的大势所趋。【详情】  

    时间:2020-09-04 关键词: 人机界面 车载通信 车载终端 映射技术 语音识别

  • 语音识别技术助力可穿戴设备 英特尔出新招

    语音识别技术助力可穿戴设备 英特尔出新招

      据Quartz报道,Intel的可穿戴设备部门主管 Mike Bell称,Intel 和第三方机构合作研发的可以运行在Intel移动处理器上的语音识别软件,已经能够做到不将用户发出的语音传回云端,而直接在本地进行语音识别。      基于这一技术,Intel开发出的可穿戴设备原型Jarvis,可戴在耳朵上之后连入手机,以此实现听懂主人发出的指令、给予语音反馈的功能,充当类似siri的个人语音助手角色。而可以离线运行的最大优点便是即使在没有网络的情况下,Jarvis也能和其它设备相互连接从而起到操控的作用,这和其它的语音识别技术有很大不同。   不过目前 Jarvis还只是在试验阶段而已,但是从Intel在今年 CES 发布的Edison等产品来看,似乎是想凭借芯片强大的运算能力来让人们摆脱对云端的依赖。

    时间:2020-09-02 关键词: 英特尔 可穿戴设备 语音识别

  • 解析语音识别技术在手机中的应用

    解析语音识别技术在手机中的应用

      当语音识别技术应用到计算机桌面的时候,这看起来似乎是一个好主意。但是,对于大多数人来说,语音识别还不能取代键盘和鼠标。现在,语音技术正用于一个全新的环境:手机。语音识别技术在手机中的应用将进一步推动这种技术向新的方向发展和应用。这是语音识别技术在台式电脑应用中从来没有涉足的方向。   IBM 2011年纪念其创建100周年。IBM在60年代初期创建了一个名为“Shoebox”的试验性的语音识别系统。这个系统解决了口语算法问题。语音识别技术是在50年代作为一项早期的技术第一次出现的,当时主要是由于好奇。在60年代初,IBM的“Shoebox”设备能够识别出16个口语单词并且能够回答简单的数学问题,如“3 + 4 =?”。   Dragon Systems在80年代初为DOS计算机推出的DragonDictate可能是第一个语音识别应用程序。这个应用程序只能识别单个单词,每次只说一个单词。随着时间的推移,这个应用程序已经发展成为名为“Dragon NaturallySpeaking”(目前是第11个版本,由Nuance通讯公司所有)的产品。这个应用程序能够翻译以正常的会话语音和速度读出的文本。   语音识别技术在台式电脑中的应用有两个制约因素。第一,为了使这个应用程序以更高的准确性工作,这个应用程序必须要进行训练以便识别用户的语音特征。Windows Vista和Windows 7操作系统中的本地语音转换文本技术和Dragon NaturallySpeaking等第三方产品仍然都需要一个用户训练期才能使用。   第二个制约因素是键盘的流行程度。大多数人已经习惯于键盘打字而不是讲话,因此,语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候,为什么要学习使用Dvorak键盘呢?   微软TellMe团队是负责为多媒体环境开发语音识别技术的部门。TellMe团队高级产品经理Abhi Rele指出,在台式电脑环境,用户有方便的人机交流模式,如键盘和鼠标。因此,语音的使用主要是针对语音爱好者的。   语音控制的计算更广泛的应用需要两件事情:更好的方便的应用和主要使用语音的地方。手机正是很长时间以来一直在增长的这种地方。   Nuance 负责产品管理和营销的副总裁Matt Revis解释说,台式电脑和移动环境的区别是这样的:台式电脑是一个固定的环境,重点完全在于台式电脑的使用情况。因此,台式电脑的语音技术主要执行如下任务:支持办公应用程序、网络浏览、通讯等。在移动方面,语音更多地用于支持各种生活方式方面:移动中的专业人员、户外的有趣活动、免提电话等等。   Gartner分析师Tuong Nguyen赞同这个观点:语音在移动环境中更有意义。他说,从使用的角度看,掌上设备的语音识别功能价值更大。它增加了用户友好的、方便的输入方式。   Nguyen补充说,如果不用语音技术说出一个简单的说明语句,而是翻动许多菜单或者努力地在小显示屏键盘上进行输入,语音识别的价值就显现出来了。随着触摸屏设备(没有物理键盘)应用的增长,语音识别技术将用来增强数据输入和输出。语音识别还支持免提要求或者法律要求。   在移动设备方面   因为移动设备一般仅支持台式电脑的一部分存储和处理功能,语音处理需要一些时间才能以基本的形式出现在手机中。   语音处理Springer手册解释了手机在2000年代初的情况。尽管那时还有一些局限性,但是,手机经过编程之后能够识别逐个数字的拨号语音,在某种程度上还能识别人的名字。主要问题是内存,因此,大多数手机一次只能识别10个数字或者名字。但是,这些作者指出的另一个问题是这个功能使用的比较少,可能是因为手机厂商在这方面的营销很糟糕。   随着手机的增加内存和增强处理能力,普通手机的识别能力也增强了。三星电子在2005年发布的售价99美元的SCH-p-207型手机增加了语音至文本的听写功能和语音拨号功能。随着内存达到数百MB和存储容量达到数GB,目前这一代智能手机很少受到限制。   另一个关键的进步是网络速度。速度更快的无线网络浪潮抬高了许多大船,包括最新一代的语音处理技术。速度更快的网络能够把语音处理任务从网络迁移到远程服务器。   谷歌语音搜索产品经理Amir Mane解释了速度更快的网络是如何帮助谷歌语音应用程序的。他说,由于所有繁重的处理任务都是由谷歌服务器在网络上处理的,我们减少了掌上设备计算能力的限制。

    时间:2020-09-02 关键词: 智能手机 便携设备 语音识别

  • 中兴CEO:手机的下一个革命,是全语音操作

    中兴CEO:手机的下一个革命,是全语音操作

      中兴将在年底发布重磅手机的消息纷纷扬扬,为此,中兴通讯执行副总裁、中兴终端CEO曾学忠就此首度发声,确认中兴将于12月中旬发布下一代语音手机产品,并直言这将是全球市场一款“革命性的产品”。   智能手机走进创新瓶颈期   根据市场研究机构Strategy AnalyTIcs最新数据显示,2014年第三季度全球智能手机出货量达到3.2亿台,较去年增长26.7%,但这一增幅明显落后于去年同期的 46.4%。而国内市场也同样显现出这样的下滑趋势。根据工信部的研究报告,2014年1月到10月,全国市场智能手机出货量为3.12亿部,同比下降 10.4%。   而步入成熟期的智能手机却面临着一个更为严峻的现实——创新显现疲态。   在2014年的智能手机市场上,“大屏”再次成为炙手可热的词。苹果在抗拒了三年后,终于一口气推出了两款大屏手机,加入了三星开创的大屏阵营,有人认为,智能手机全面走进大屏时代。5英寸或者更大尺寸的屏幕已无可置疑的成为智能手机的标配。   在大屏之外,厂商也在寻找差异化的优势:比如搭载侧边曲面屏,主打“第二屏”的侧控式体验,又或者主打屏幕点胶悬挂技术,以减少碎屏率为卖点,指纹识别、快速充电技术也被运用到更多的手机上。   对此,曾学忠认为,“当前手机市场有亮点但无惊喜,很难给人一种耳目一新的感觉。”硬件配置的高度不断被刷新,大屏幕、高分辨率、高像素、电池续航能力等成为市场消费的共识,但硬件的比拼很难出现杀手级的应用。   全语音操作革命一触即发   “硬件的拼杀只会把整个行业逼进死胡同,仰望星空,将目光放得更长远一些,寻找下一个未来,才会给市场带来崭新契机。”而在曾学忠看来,下一个未来就是声控革命。   语音是人类进行信息沟通与交互最便利最自然的方式,具有天然的优势,业内也将语音技术、触控技术和视觉技术视作IT行业未来的三大趋势,寄予无限的想象空间。当下,全球厂商纷纷涌入语音产业,语音技术已经成熟,中兴语音识别率也已经达到90%以上,而关键性的下一步就在语音技术的应用上。   中兴声控技术研发开始于2011年。那时人们还沉浸在触控所带来的惊喜之中,中兴联合全球最大的语音识别厂商Nuance、最大的音频降噪技术厂商Audience,将目光锁定在全语音操作上,试图在触控之外打造第二个输入点。   首款“曾氏风格”的手机将面世   在谈到即将发布的新一代语音产品时,曾学忠坦言自己是带着“抱着产品入睡”的心态在做,他表示对于这款产品自己注入了很大的期待,他和他的团队也在全力投入。曾学忠全程参与新产品的规划、设计与调试的每个环节,并根据自己的试用体验给团队提出改进意见,调试修改到深夜一两点是再正常不过的事。到目前为止,新一代语音手机的语音版本已经经历了上百次的更新,“对每个细节逐一打磨,目的就是为了等新产品面世时给大家更多的惊喜。”   曾学忠此前曾向外界称,将有一款自己亲身参与、有着鲜明“曾氏风格”的手机面世,而这款“曾氏”手机或许就是这部让曾学忠投入如此之多的新一代语音产品。   “中兴的语音手机已经箭在弦上,蓄势待发,智能手机市场或将迎来新的转折点。”曾学忠感慨道,“三年前我们还很难想象人们拿着手机对着微信吼,而现在的手机语音与三年前的微信语音一样,在未来也会成为随处可见的场景,声控时代即将来临。”

    时间:2020-09-01 关键词: 智能手机 语音识别

  • 从Nuance现状分析中国语音识别技术市场

      从几年前Nuance轰轰烈烈入华,发展之路一直波澜不惊,除了在车载语音导航领域有所斩获后,在其它当初誓要拿下的金融、政府、呼叫中心等领域几乎毫无所得。直至2013年Nuance原大中华区总裁郑裕庆离开,Nuance作为全球语音老大在中国市场折桂的传闻一直在业界被讨论着。   尽管Nuance全球业绩依然亮丽,Nuance发布的财报显示:预计2013财年收入将达到22亿美元,而公司2005年只有2.32亿,10年时间增长了十倍。而且在Nuance官网上,也有很多Nuance对全球语音的描述:超过三分之二的财富120强企业使用Nuance解决方案;Nuance语音解决方案每年自动处理超过120亿次电话呼入互动业务;拥有8000多个客户语音服务解决方案;为超过七亿台移动设备提供语音支持;前十大汽车制造厂都是Nuance客户,目前有一亿辆采用Nuance语音解决方案的车行驶在路上……   但正如我们所看到的,这些成绩是Nuance全球市场的总和,而中国市场的数据,一直看不到公开数据发布。但Nuance在中国市场取得业绩的主要来源是车载市场,这是不争的事实。   Nuance一直强调,近两年来车载语音识别技术使用群体保持了可观的增幅,2012年全球有2000万台新车搭载了Nuance的语音识别技术,而在2013年这一数量已经攀升到2800万辆,同比增长了40%。但根据企业网D1Net笔者获得的一些消息,Nuance在车载领域的可观增幅,绝大部分也是得益于全球汽车增幅。主要客户是宝马、奥迪、奔驰等全球车企,中国市场的车企客户主要是比亚迪全新思锐系列轿车。   市场竞争已经加剧的中国语音市场,早已不是仅凭“一单就能打天下”的时代了,中国语音市场早已有了自身的格局。   总体规模   据中国智能语音产业联盟发布的《2013中国智能语音产业发展白皮书》称,智能语音已进入快速应用阶段。去年,中国智能语音产业规模约为8.6亿元,带动相关产业产值100亿元,预计到2017年,将带动相关产业规模增长1000亿元,占全球相关产业规模的比重将由去年的5.6%增至17.1%。   上述针对语音产业市场的数据并不是特别可信,仅科大讯飞刚刚公布的2013年年报显示,实现营业总收入125370.78万元,同比增长59.92%,实现利润总额32058.40万元。试问,上述白皮书的内容如何让人信服。   通过与各语音厂商的各种调研结果来看,笔者预计中国智能语音产业总体规模应在20亿左右。当然,从产业规模来看,语音产业相比较其它信息化建设,还处于小规模。   竞争格局   1、从市场构成区域来看:可以分为国际国内两大阵营   国际厂商主要以Nuance、Google、微软为主,但这些厂商因为定位的不同,对语音的理解及研究有着本质区别。Nuance一直专注于智能语音的研究,相对于Google、微软来讲,专业度与专注度更高。Google、微软主要是自身的语音应用。   国外语音厂商的主要优势是对于语音的研究起步甚早,基础积淀很深,另外,国外客户对语音服务的接纳程度也比较高。   相比较国外,国内语音技术提供商起步较晚,但发展迅速。最早的科大讯飞,后续捷通华声紧步相随,再加上中科信利、云知声等传统新秀语音企业的加盟,去年开始,百度、搜狗、腾讯等由于自身业务需求应用,也通过资本收购或者自主研发进军语音市场。   所以,从上述语音企业的构成来看,中国语音产业已形成了以科大讯飞为重点、围绕其它各传统语音企业,最外围以语音应用为主的产业格局。   很明显:中国语音市场起主导作用的还是中国自身的本土企业,这与其它IT信息化领域从一开始就由国际企业占据主导地位有着明显不同。   2、从行业市场构成来看:可以分为教育行业、汽车行业、呼叫中心、互联网应用、移动互联网应用等;   教育领域:科大讯飞无疑占据了绝大多数的市场份额,各个教育部门的普通话考级、听力考试,都引入了科大讯飞的语音技术。   汽车领域:国际品牌的汽车车载语音几乎被Nuance垄断,宝马、奥迪、奔驰等品牌的全球化策略,让Nuance的全球化语音识别技术优势得到充分的体现。相比较中国本土语音厂商还始终走在中国本土语言的路上,Nuance的全球化语音识别技术显然无人能比。   呼叫中心:笔者一直认为语音识别技术应该大力作用于呼叫中心,但呼叫中心作为客户服务的一种重要模式,在智能语音交互的探索上却一直止步不前,大规模推广应用的非常少。Nuance初进中国市场时,曾经信心满满的希望发力金融系统的呼叫中心,但收效甚危,所以转变了策略。   互联网应用:互联网应用是最近几年增长较快的一个市场,无论是智能语音搜索,还是地图导航,都被当成未来互联网竞争的一个关键因素。比如百度与搜狗就在进行着比拼,百度地图、百度导航刚刚开启语音应用,搜狗地图导航犬就全面运用了语音识别、语音合成、语义理解、语音唤醒等功能。   移动互联网应用:如果说互联网应用是最近几年增长较快的一个市场,那么移动互联网应用则是增长最快的市场,我们看到,各大语音应用厂商都对此进行了重点步局。   如Nuance针对手机、个人电脑、可穿戴设备、电视、互联汽车和移动应用程序的下一代智能系统的智能语音应用方面都做了规划;捷通华声打造的灵云平台以及科大讯飞的灵犀平台,都为移动互联网应用提供了语音接入。   很明显:中国语音产业应用领域还仅限于几个相对成熟的行业,服务应用模式还非常单一,也还没有形成特别有代表性的产品。相比较国外市场而言,一个苹果的Siri应用,就让Nuance一夜间响誉全球,中国有代表性的产品很难让人记住。   刚刚分析了一番中国语音市场的现状,接下来我们找找原因。   语音之伤   伤痛之一:非常规竞争;   中国语音市场有个很奇怪的现象,各语音厂商的掌门人在对竞争对手的称呼上都是“哥哥弟弟”的叫着,虽然这与大家都师出名门有关,但深究会发现,里面的暗门不少。   本身语音技术性要求较高,需要有长时间的基础科研做为背景,通过市场化运作的方式,实现科研生产力的真正落地。   中国语音技术提供商的确都师出名门:   科大讯飞有中国科技大学及中科院研究所背景,再加上安徽省政府的大力扶持,几乎是一枝独秀的走在前列。   捷通华声创始人来自于清华大学,但一直是民营企业出身,踉踉跄跄的跟在身后,去年终于拉上了百度和清华大学组成战略联盟,期望能在语音市场与竞争对手抗衡一番。   云知声虽然是后起之秀,因为有中国自动化研究所的背景,加上在盛大的应用历练,也在中国语音市场中拼出了一席之地。   中科信利则是在上述几家厂商的无序竞争中求得夹缝生存空间而得以迅速成长起来,在企业网D1Net笔者看来,上述企业似乎想通过培养自己某一亲信者,在各种博弈中平衡实力。在这种博弈中,中科信利独立成长起来。   中国语音厂商本来也就这几家,竞争是常规,但应该避免的是非常规竞争。   伤痛之二:互挖墙角   刚才也说道:语音产业基础技术研究深厚,因此,语音人才相对稀缺,各竞争厂商互挖墙角是常事。上不得台面的消息,本笔者就知道好几起行业内的人才争斗事件。   当然,人才竞争并不只是中国的独有现象,国际大牌公司的竞争其实更为冷酷。众所周知,Nuance因为苹果的Siri一举成名,但很快,苹果便宣布不再使用Nuance的语音。同时人才争夺战也在打响,据国外媒体报道:苹果在波士顿建立了一个研究中心,距Nuance 的伯灵顿总部只有15 英里,而前Nuance 员工就在里面研究非Nuance 版的Siri。最后的结果必然是,渐渐地iPhone 就可以做到去Nuance 化。   人才竞争永远都是公司成长的重要因素,但语音技术研究需要一个相对稳定的研究环境,过于频繁的互挖墙角,对人才的成长非常不利。   总结   当然,Nuance在中国市场的伤,因素有很多,Nuance作为全球知名语音企业,虽然有跨国优势,但毕竟对中国本土语音的理解会有差异,这是其一;   其二,Nuance 的语音技术基于统计推断,通过音素(音节)和上下文来进行识别,技术本身相对复杂,同时,Nuance针对语音的合作均需收取高昂的授权费,这一点也不符合中国国情。   第三,语音的收集与分析,已成为一个国家信息安全的最重要一部分,尤其是美国棱镜计划曝光之后,语音信息安全已受到足够重视,在此背景下,Nuance挺进中国市场的确是生不逢时。有此之伤,也就在意料之中了。

    时间:2020-09-01 关键词: 语音识别

  • 厂商逐鹿语音识别,谁能引爆市场?

      像《钢铁侠》中那样智能先进的语音助手,人类还需要多久能用上?去年,国内几家语音识别厂商先后公布自己的语音识别新策略,似乎人类与语音的自然交互渐行渐近。   科大讯飞曾公告称,自主研发的离线语音听写引擎将应用于“讯飞输入法”等产品,可满足用户在无网络或弱网络下对语音技术的需求。在这之前几天,另一家企业思必驰也在一次业内沙龙上宣布重新定义人机交互体验的方向,主张让机器从能听会说变成会听能做。   而国外巨头也在布局语音识别领域。有外媒报道称,微软正在研发代号为“Cortana”自有语音个人助手软件,并计划在下一个Windows Phone平台大升级中推出,以抗衡Google Now及苹果Siri。   如思必驰副总裁兼对话工场总经理李建辉所言,智能设备发展大潮和移动互联时代的到来,让感知计算成为未来人机交互的发展方向,需要更加自然、直观和身临其境的交互方式。   科大讯飞移动互联事业部副总经理章继东将语音识别产品进化形容为一场马拉松。在这个过程中,有不少厂商已经退出该领域,搜狗语音助手也不复曾经的高调推广,Airi在一年前已经停止更新。另一款小i机器人转做B2B市场。   有厂商退出,又有新的厂商进入,一轮基于语音识别应用的新的布局和竞技已然开始。   蹩脚的语音交互体验   尽管科大讯飞的讯飞输入法语音识别率可以达到95%以上,但从整个语音识别应用来看,现阶段的用户体验只能用蹩脚来形容。   一方面是语音交互的错误容易传递的先天缺陷使然。“如果语音识别的准确率在85%-95%之间,语义分析的准确率在85%-95%之间,最后识别的准确率只有70%-90%。”思必驰首席科学家俞凯说。   对于离线语音技术而言则更加困难。目前,拥有离线语音技术的有谷歌(微博)与苹果两大国际巨头以及科大讯飞。但受无网络连接、存储空间有限等原因,科大讯飞的离线语音识别成功率只有85%左右,“刚达到能用的水平。”   另一方面,语音识别技术因为技术门槛太高,往高级功能的进化还刚刚开始。“从语音评测、语音合成到对自然语义的理解,每一个方向都需要足够的语料和算法进行不断的优化。”章继东说。   在技术的优化的同时,还需要构建一个生态系统。比如社区问答,类似刘德华演的电影是什么的问题,或者是基于音乐、视频的知识图谱,类似刘德华都演过什么电影的问题。   “基于语音自然交互越来越便捷会取代键盘输入等方式这是一个趋势,但是上升到刚需的层面,现在不是时候。”章继东说。   重金投向语音识别   尽管困难重重,语音识别技术的大方向已然不可逆转。   “所有手机制造商都在投资语音、拓展语音技术领域的投资,打造更优雅的设计并将其深入集成到手机中。”语音识别技术公司Nuance高级副总裁迈克尔•汤普森这样说。   尽管苹果的Siri屡遭嘲笑,甚至被称为苹果最失败的产品之一,但苹果的投入有增无减。苹果甚至在麻省理工大学(MIT)附近组建了神秘办公室,用以做Siri 语音识别技术的研发。俞凯透露,Siri的语音技术部门的人员保持在1:4的配比。1个人负责研究语音的输入输出,4个人负责自然语言处理,用以攻坚语音自然交互的困难。   在语音识别领域深耕的国内厂商也获得投资用以研发。前年,思必驰获得联想和启迪等三方的联合投资。中国移动(微博)通过其子公司以13.63亿人民币的价格入股科大讯飞,占股15%,随后在当年12月联合推出智能语音门户产品“灵犀”。灵犀可以实现语音打电话、发短信、查天气等功能。   谁能引爆语音交互?   “有时候可能就是熬,甚至也有可能未来是由于其他方向带动起来。”章继东说。他认为微信是其中一例。   在微信刚刚推出之时,很多人看到别的用户在对着手机“自言自语”时会觉得很纳闷,后来才发现是微信的语音对讲功能。而现在,人们已经对朝着微信自说自话习以为常。   章继东认为,下一个有可能引爆语音识别应用的是正越来越流行的可穿戴设备。比如手环可以把用户数据传到云端去,然后分析出一个针对个人健康状况的建议。甚至,数据发现一个用户作息不规律,语音助手可以在用户需要休息的时候给出一个语音提示。   更现实的应用是智能手表等可穿戴设备,比如声纹识别和语音唤醒等功能可以成为典型应用。前者用户可以将自己的声音做为开启设备的密码,后者则在用户不接触设备的情况下唤醒设备。   “我们也在和芯片厂商合作,尝试将语音识别技术集成到智能可穿戴设备中,以此来降低功耗,扩大语音识别在可穿戴设备上的应用时间。”一家语音识别技术厂商的负责人说。

    时间:2020-09-01 关键词: 语音识别

首页  上一页  1 2 3 4 5 6 7 8 9 10 下一页 尾页
发布文章

技术子站

更多

项目外包