当前位置:首页 > 语音技术
  • 随着语音技术在医疗领域的广泛应用,医疗信息的录入效率大大提高

    随着语音技术在医疗领域的广泛应用,医疗信息的录入效率大大提高

    随着语音技术在医疗领域的广泛应用,它为医疗信息的录入提供了新的解决方案。 小编盘点了提供相关服务的行业巨头和初创公司,分析他们如何利用语音技术解决电子病历记录的痛点。 Medscape对15000名美国执业医生进行了调查,近三分之二的医生表示自己感到职业倦怠(42%)、情绪低落(15%)或两者兼而有之(14%)。主要原因包括临床医生必须处理各种复杂的医疗文件(56%)以及花费大量时间将患者信息输入电子健康记录中(24%)。而语音及人工智能技术正在解决该痛点。 而这无疑会成为一个很大的市场。 电子病历信息录入繁杂耗时:医生职业倦怠的主要原因 在过去十年里,随着电子病历(EHR:Electronic Health Record)在美国的普及,医疗保健领域发生了重大变化。医生们平均每天工作11个小时,其中6小时花在处理电子病历上,只有1.5小时用于处理纸质文件。但是,现在大多数EHR系统被设计成了庞大复杂的账单系统,而不是包括就诊、住院、药房、账单、报销等环节在内的专注于患者护理的系统,其可用性和效率也受到了影响。 这带来的复杂性和耗时性是医生职业倦怠和工作不满意的首要原因,也是当今医疗行业亟待解决的问题之一。去年9月,发表在Annals of Family Medicine上的一篇研究显示,初级护理医师花费在EHR上的时间超过总工作时间的一半,这意味着,他们将大部分的精力和注意力都投入到所谓的“行政”任务上。 而职业倦怠会导致患者满意度、医生护理质量降低,以及医疗错误率、医疗事故风险、医师和员工流失率升高。此外,它还与医师药物滥用和医师自杀有关。虽然产生职业倦怠的原因是多方面的,比如医院收购医疗机构、药品价格上涨、《平价医疗法案》的实施、支付方式逐渐向基于价值的模式转变。但记录患者就诊情况的过程繁琐耗时,会影响与患者面对面交流以及临床治疗的效果。而医疗数据的爆炸式增长,也让医生很难获取和管理有价值的患者信息,从而改善患者的健康状况。 因此,应对医生在整个工作流程中遇到的挑战,优化现有电子病历的录入过程,对提高整体效率和医疗服务质量、降低医疗成本至关重要。研究公司Technavio发布报告称,到2020年,全球医院支出将超过720亿美元,复合年增长率为6%,而语音识别技术是医院计划的一大推动力。 越来越多的医疗服务提供商加大了对语音识别技术的投资。比如,拥有五家医院和两家大型医疗中心的Premier Health,花费了160万美元来开发与Epic集成的语音识别软件。它帮助医生减轻工作负担,每天节省90分钟左右的时间。由于更高效的工作流程,这个软件帮助Premier Health节省了约130万美元的医疗费用。 语音是一个越来越受欢迎的功能,在医疗保健领域尤其适用。DRG Digital | Manhattan Research对2784名医生进行了调查,23%的人表示他们在工作中使用语音助手,比如苹果的Siri和亚马逊的Alexa。其中又有29%的医生说他们使用的语音助手系统是EHR的一部分。这些数据表明,随着越来越多的开发人员专门为临床工作创建语音工具,语音技术将为医疗信息的转录提供解决方案。 行业巨头与初创公司如何解决电子病历录入痛点 小编梳理了涉及电子病历语音录入服务的几家大型企业——谷歌、亚马逊、科大讯飞、云知声、Nuance,以及专注这一领域的新兴竞争者——Saykara、Suki、Notable。 医疗语音技术领域大公司布局情况 电商巨头亚马逊正在研究如何利用语音技术,为电子病历中输入和提取数据提供帮助,实现高效的信息交流。Alexa应用平台拥有来自Mayo Clinic(梅奥诊所)和Libertana等机构的轻量级医疗应用程序,可以回答医疗问题、在紧急情况下发送警报,并帮助用户与护理人员沟通。 语音助手Alexa还可以集成到电子病历中,成为一个被动的记录者。亚马逊正在美国各地的医院进行试验,包括Northwell、Mass General和Boston 's Children 's Hospital。然而,由于Alexa还不符合HIPAA标准,该软件完成的任务通常仅限于非可识别的用途,例如外科医生的检查清单、患者的疾病和药物信息以及医院信息。如果Alexa符合HIPAA标准,用途可以得到进一步扩展。 全球最大的语音识别技术公司Nuance推出的医疗解决方案已经覆盖了全美72%的医疗机构,客户遍及全球30多个国家,共获得3亿多医患交流数据,每年为超过50万名医生、1万家医疗机构提供服务。旗下产品Dragon Medical One致力于为临床专业人士提供语音导航文件系统和应用程序,以实现与患者进行全新交流的目标。相关技术的运用极大地提高了医生诊断的工作效率,使得患者病情采集工作快速、灵活而准确。 谷歌在目前进行的一项AI研究中,分析了216221份住院病例,涉及114003名病人以及超过460亿个数据点,为各种临床情景创建准确和可扩展的预测。基于这项研究,谷歌还在开发用于临床记录的语音识别系统,通过构建自动语音识别技术模型,改善电子健康记录的语音转录过程。 2017年4月,科大讯飞与中国医学科学院北京协和医学院签署全面战略合作框架协议,这表明科大讯飞的智慧医疗相关技术,如口腔科语音电子病历系统正式在北京协和医学院落地使用。 在此次战略合作协议签署前,上述的口腔科语音电子病历系统已经有过试验和落地。整个系统包括一个可以夹在医生领口的医学麦克风,一个可以装在医生口袋的发射器,还有一个可以插在医生工作电脑上的接收器。在接诊过程中,医生只需要以口述的方式说出患者的病历,医生的工作电脑上就会自动生成结构化的电子病历。之后,只需医生对电子病历内容进行简单修改确认,即可打印提供给患者,并完成电子档保存。 云知声智能医疗语音录入系统以面向医疗领域的高性能识别引擎为基础,通过语音来高效处理大量文本录入工作,通过语音和手持设备上的功能键与院内HIS、PACS系统等交互起来。医生通过语音录入方式可以有效避免复制粘贴操作,规范病历输入,增加病历输入安全性。 目前,这个系统可以有效节省医生超过38%的时间。面向医疗的整体方案推出以来,云知声已经在全国20多家有代表性的大型综合三甲医院正式上线使用,这些医院分布在华中、华北、华南、西部等地,其中包括北京协和医院、北大人民医院、第四军医大学西京医院、香港大学深圳医院等,还有约40家医院正处于试运行阶段。 不同于以上的大型企业单独推出语音服务,Saykara、Suki、Notable几家初创公司则更专注于语音识别技术在电子病历上的应用。其中成立于2015年的SayKara,其团队由来自亚马逊、微软、谷歌和Nuance的前产品负责人、工程师和机器学习专家组成。SayKara推出的人工智能语音助手可以自动创建文档,简化工作流,让医生更容易与EHR系统进行交互。数据表明,使用SayKara的医生在管理电子健康记录上花费的时间减少了70%,这样更有利于他们与患者进行交流并提供更高质量的医疗服务。目前,SayKara已和美国几个大中型医疗保健系统合作,包括作为早期试点之一的著名整形机构OrthoIndy。 Suki的前身是Robin AI,该公司推出的具有语音功能的人工智能助手帮助医生减轻文档负担,改善信息和数据的录入过程。Suki在加州和佐治亚州开展了12个试点项目,其中涉及内科、眼科和整形外科等领域。通过将其产品在三种不同EHR系统中每周使用五天,该项目的初步结果显示,Suki将医生花费在医疗记录上的时间减少了60%。此外,Suki还与苹果、谷歌、Salesforce和23andMe等合作,为消费者、医疗机构、大型企业等提供尖端技术产品。 Notable推出的产品可以自动记录医生的问诊记录,并更新电子病历。该公司的解决方案利用自然语言处理和语音识别技术,自动记录医患之间的互动,破译医生的笔记,并构建数据结构,以方便电子病历的录入。为了使该系统顺利运行,研究人员花了大量时间记录和监控2000多项医生与患者的互动。目前,Notable正在为Apple Watch开发产品。 医疗语音市场:存在困难却也前景广阔 目前,语音技术在医疗领域的应用仍然面临三大困难:准确性、安全性和标准化。 首先是关于电子病历语音转录的准确性,来自各方的担忧在过去几年一直阻碍着医学转录整体质量的提升。对于这一点,不同公司都在积极寻求解决办法,让语音识别技术可以更好地减轻医生的转录负担。 比如,谷歌开发并评估了两种自动语音识别(ASR)方法,用于简化医生的工作流程。第一种系统是CTC(connectionist temporal classificaTIon)模型,重点研究语音单元的位置和序列,直接将语音和相应的文字对应起来,实现时序问题的分类。 另一种是LAS(listen, attend, and spell)模型,它是一个由多部分组成的神经网络,将语音转换为语言的单个字符,然后根据先前的预测顺序选择后续条目。每一个模型都进行了超过14000小时匿名医学对话的训练,以便提高语音转录的准确性。 研究结果表明,CTC模型最终实现了20.1%的字错误率,而大多数错误发生在讲话的开头和结尾,说话者的发言时间少于一秒。而LAS模型最终达到18.3%的字错误率,大多数错误出现在对话阶段,与医学术语无关 研究人员表示:“随着电子病历系统的广泛应用,初级护理医师日益短缺,职业倦怠率也变得更高。通过优化信息提取和分析的过程,ASR技术能够改善电子健康记录的语音转录过程,帮助医生减轻所谓的行政负担,提供更优质、更专注的医疗服务。” 对于语音技术在医疗领域的应用,另一个关键挑战在于如何保护患者生成的数据,并确保符合HIPAA标准。依据美国联邦及各州的隐私法 (Privacy Laws),美国卫生与人类服务部(HHS)制定了有关患者安全和保护个人稳私的联邦健康保险携带和责任法规(HIPAA:Health Insurance Portability and Accountability Act )。HIPAA法规为医护人员设定了一套保护患者隐私的标准措施。在电子病历的信息录入时,必须严格遵守相关的规定。 最后涉及标准化的问题。2006年,美国医疗信息与管理系统学会(Healthcare InformaTIon and Management Systems Society, HIMSS ) 发布了《Electronic Medical Records vs. Electronic Health Records:Yes,There ls a Difference》白皮书,提出Electronic Medical Records AdopTIon Model(EMRAM,电子病历应用模型),并以此为依据,评价医疗机构的信息化建设水平。HIMSS评审围绕电子病历系统展开,共有八个等级。个性化医疗、循证医学、循证管理都决定性地依赖于对现代信息技术广泛而深入的使用。 中国除了对电子病历的书写、使用术语、编码进行了严格要求外,从2010年开始,也开展了“电子病历系统应用水平分级评价”工作,根据相关标准,电子病历系统应用水平划分为8个等级。每一等级的标准包括电子病历系统局部的要求和整体信息系统的要求。 虽然语音技术在电子病历领域的应用还面临着诸多阻碍,但可靠性、可移植性和成本效益都将成为医疗机构采用转录工具的关键因素。医疗转录行业被认为是医疗信息管理领域最具潜力的领域之一,因为它受到不断发展的技术的影响。 大多数医学转录设备由内置语音识别和记忆存储系统组成。而自动转录技术日益普及,预计将在不久之后取代各种模拟设备。相关医疗专业人员或内部转录员价值的上升以及医疗转录外包服务的增加等因素预计将在未来几年推动市场需求。

    时间:2020-06-28 关键词: 医疗电子 语音技术

  • 智能音箱普遍 但智能语音技术未来还有很长的路要走

    智能音箱普遍 但智能语音技术未来还有很长的路要走

    在某个非用语音不可的事物被发明之前,智能语音助手只能将在线内容读给你听。而这样的语音技术并不能被称之为智能语音,它也只不过是内容的复读机罢了。整体而言,在人工智能爆发的当下,智能语音技术并没有我们想象的那么成功,未来它还有很长的路要走。 很快我们就能够跟微波炉说话了,而且它会听从你的指令——如果你坚持这样做的话。 最近亚马逊宣布推出了售价 60 美元的声控微波炉,以及使用 Alexa 语音助手的其他 10 款产品。当然你可以不屑一顾,但从 Alexa 四年前发布开始,亚马逊就在全力推行 Alexa,从厨房到车辆 Alexa 将无处不在,而这款微波炉就是最新的例证。 不只是亚马逊一家公司,Google 也在不断加强其语音辅助小工具的阵容,最近他们宣布推出了 Google Home Hub,这是一个带有显示屏的智能音箱。Facebook 也推出了 Portal,这是一款专门提供视频通话服务的设备,还具有智能音箱的功能。苹果有自己的 HomePod,以及 2011 年推出的 Siri,从 iPhone 到 AirPods 所有的苹果设备都加载了 Siri。 语音助手可能会成为隐私噩梦,因为它们会越来越多地监控我们日常生活中的各个方面。然而,这种恐惧感似乎并没有影响这些产品的售卖。 随着圣诞节购物季的临近,加载了语音的智能音箱将会大卖,大约有四分之一到三分之一的美国人已经拥有了自己的智能音箱,并且每个月至少会使用一次语音助手。 采用语音接口的速度比历史上任何其他技术都要快。由于人们对语音驱动未来的预言激动万分,因此这类产品的大卖已经被炒得天花乱坠: Canalys 表示,全球智能音箱的购买将在两年内增加一倍以上,达到 2.25 亿部。 RBC Capital Markets 的数据显示,截止到 2020 年,仅 Alexa 一家的语音产品就能达到每年 50 亿美元的收入。 瞻博研究(Juniper Research)表示,到 2022 年全球语音助手的广告(目前尚不存在)支出将高达 190 亿美元,几乎等于当前商业广告杂志的规模。 虽然以上部分可能会成为现实,但商业炒作可能会掩盖语音技术的真实状况:这项技术的普及远远落后于我们的想象。 根据 NPR and Edison Research 今年早些时候的报告,大约有三分之一的人在购买了智能音箱一个月以后,使用它们的次数就会越来越少。只有一半多的人说他们不希望回到没有智能音箱的生活。 虽然人们对这项新技术充满热情,但该技术并没有完全改变生活。 现如今,语音助理和智能音箱最常用的方式是打开收音机,调低灯光或查看天气预报。但是如果想带来彻底的变革,那么它们还需要找到一种新颖、突破性的应用。 语音技术的成功点 但这并不是说它们没有用武之地。 人机对话语音交互是必然会出现的。随着价格实惠的消费设备以及快速无线网的激增(大多数语音助手都是通过远程服务器提供服务),它们正在推动真正的实用工具,并改变我们与机器交互的方式。 美国人使用智能音箱的目的:播放音乐和其他音频是目前语音助理最成功的用途。 研究表明,大约 70%-90% 的智能音箱用户表示他们通过智能音箱播放音乐。其中大约一半的用户每天都会通过智能音箱播放音乐。这些统计数据很有意义,它们显示了我们消费媒体的重大变化。 事实上,根据流媒体音乐公司的说法,与 Spotify 整体的用户相比,通过智能音箱收听 SpoTIfy 的用户更加愿意每天听音乐。他们很愿意在周末听音乐,而且喜欢听怀旧的歌曲。 传统的广播也因为智能音箱而受到青睐。NPR(美国国家公共广播电台,NaTIonal Public Radio,简称 NPR)个性化和策展总经理 Tamar Charney 表示,去年这个时候,美国国家公共广播电台 4% 的现场收听时间是通过智能音箱播放的,而现在这个比例高达 19%。 由于公共广播的资金来自听众,所以这个报告中的重点就是,听众数目确实在增加,因为 NPR 没有看到其他平台上用户数下降。Charney 说:“听众听广播的时间越长,表明他们感兴趣的内容越多,他们捐款的可能性就越大。”(公共广播电台现在经常提醒听众,他们可以通过智能音箱播放 NPR)。 据 Voicebot 博客和播客的创始人 Bret Kinsella 说,“智能音箱凭一己之力将广播重新带回了我们的生活。这款炫酷的语音应用正在召集音乐。” 就连很难受惠于语音助手的播客,用户量也有所增长。语音控制播客管理应用 Scout FM 的创始人 Cara Meverden 表示,用户通过智能音箱收听播客时长是通过手机收听的两倍。 对于以广告为主导的播客世界而言,更加引人注目的是智能音箱的听众不会像电脑或手机上的听众那样跳过广告。 Meverden 告诉 Recode:“人们不太可能跳过 Alexa 上的广告。告诉 Alexa 快进 30 秒很不方便,所以只好任广告播放。智能音箱的听众更加被动。语音界面的用户倾向于接受向他们播放的内容。” 语音技术有助于智能家居设备逐渐走向主流化,例如温控器、照明、锁和其他可以从任何地方控制的设备。Google 助手可以与其他厂商生产的一万多种智能家居设备配合使用。Alexa 则能与超过 2 万种配合。 语音助手可以承担很多复杂的任务,有了它你不必再通过远程控制开关灯,或编写智能家居中心;有时你只需插入设备,然后就可以通过语音助手控制设备。 Google 产品管理和硬件总监 Micah Collins 告诉 Recode:“以前只有设定了智能家居设备的人本人,才能使用该设备。通过语音界面控制事物代表了可用性的巨大变化。” 这导致了智能家居设备的销售增加。据 IDC 称,预计今年全球智能家居设备市场(包括智能音箱、数字媒体适配器、照明、恒温器、家庭监控以及安全设备)将增长 27%,达到约 5.5 亿台。 整个智能家居行业已经感受到了这种影响。 美国立维腾(Leviton)的大多数智能等开关和插座都可以通过 Alexa 或 Google 智能助理访问。这对产品销售有帮助吗?立维腾的 Leviton 产品经理 James Shurte 说:“那还用说嘛。语音控制的确是智能家居市场的主要推动力。” 在语音助手的帮助下,智能锁制造商 August 去年的收入增加了一倍。August 联合创始人兼首席执行官 Jason Johnson 表示:“一旦用户购买了智能音箱以后,他们就想购买与之相关的产品,比如连接到照明或锁。他们会寻找购买可以利用智能音箱的产品。” 在一个设置完美的房子里,你可以通过自己的声音控制音乐、温度和锁。动动嘴皮子就可以命令播放流媒体。这一切都非常酷,像动画片《杰森一家》的场景。但同时即便没有语音技术,大多数的事情也可以很简单地完成,比如多走几步或点击某个应用。 虽然流媒体广播和智能家居控制看起来可以让智能音箱发挥很好的功效,但是如果语音助手能做的如此有限,那未免也太令人失望了。似乎非语音不可的、改变生活的东西还未问世。 消费者没有选择语音购物 许多公司希望发生,但却没有发生的一件事情是:人们开始通过语音助手轻松地购物。大多数调查显示,只有约 20% 的智能音箱用户曾经使用他们的设备进行购物。每月都通过智能音箱购物的用户数量只有 10%。 来自 The InformaTIon 的一份更令人震惊的报告显示,到今年 8 月初,只有 2% 的 Alexa 用户使用该设备进行了购物。无论如何,这个数字都不是零售商们理想的数字。 事实上,根据 Voicebot 的一项调查显示,大多数人仍然喜欢在实体店购物。愿意通过智能音箱购物的美国人甚至不足 1%。 针对这种状况,亚马逊一直在试图说服消费者品牌在他们的广告和包装上展示 Alexa 的购物口令。 最新版本的智能音箱全都含有显示屏,这一点很有吸引力。这针对的是当前语音技术的限制性,特别是在商业方面。 Google 的 Collins 告诉 Recode:“我认为语音购物仍处于早期阶段,特别是只有语音的产品。购物主要是视觉和触觉的体验。” 通过语音购物,你在搜索产品时,只能获得一两个选择,而不能像在网上购物时一样看到一页又一页的产品目录。 所以,语音设备更适合购买家用消费品,而不是衣服等,因为它们价格低廉,需要经常补充,而且可以随意决定,不用像购买高价产品那样需要反复思考。 不过,对于各大品牌来说,语音设备依然是兵家必争之地。拿一卷卫生纸来说,占据语音助手推荐的第一位,就意味着成为消费者的购买首选。 各大品牌在语音上的孤注一掷 根据市场营销机构 Digitas 的一项研究表明,大约 85% 的通过语音助手购物的消费者表示他们购买了推荐的第一个产品。 因此,各大品牌正在试图抢占先机;他们会在语音购物尘埃落定之前就开始他们的语音战略。 坎贝尔的数字营销副总裁 Matt Pritchard 告诉 Recode 说:“我们认为,语音对消费者购物带来的影响将超过 2000 年 Google 搜索带来的影响。从现在开始两到四年,比我更聪明的人会将选择语音的搜索方式。如果你的网站和代码还没有准备好迎接语音的变革,那么你就会落伍。” 现在的状况如何呢?如果你对这亚马逊的 Alexa 或 Google 助手说:“洗发水”,它们会给出它们以为你想要的东西。Alexa 会通过一些标准来推荐购买的产品,比如:你的购物历史记录、产品是否可以享受会员免运费,以及产品是否包含“亚马逊推选”的字样(即口碑高、价格合理、能够立即发货的产品)。 Google 会从 Google Express 的商家中挑选与查询最相关的商品。它还会参考购物历史记录以及与用户的喜好相关的信息,还有是否有库存以及与搜索词的接近度。 这两家公司都没有特定的零售商或他们自己的产品。 各大品牌还无法为可见度付钱。目前,亚马逊和 Google 在努力建立信任度,让(寥寥几个)语音购物的买家相信他们的搜索结果尽可能接近相关度。然而,我们不用太多想象就可以预见,未来亚马逊或 Google 的商家可以付钱让智能助手的推荐他们的产品(例如网站中随处可见的赞助商广告),因为这种方式可以带来更多广告收入。 在此之前,各大品牌主要使用语音围绕产品进行营销和宣传活动。通常包括根据人们的话题更新搜索关键字,提供更多网站内容,并充实品牌的常见问题解答,从而为客户提出的问题提供准确的答案。 这方面最好的例子是,品牌商提供一个与产品相关的重要实用程序。该实用程序通常以技能或动作的形式出现,基本上形同于语音助手版的移动应用。 例如,汰渍创建了一个流行的语音技能,用于解释如何去除不同面料中的不同污渍。 美国坎贝尔公司根据你屋内的食材,手把手教你烹饪。坎贝尔的 Pritchard 说:“我们希望走近消费者,这样才能更好地了解和掌握他们。” Patrón Spirits 公司会教你在家里做他们推荐的新的鸡尾酒。 由于这些品牌希望尽可能地传播他们的品牌信息,所以他们不仅支持语音助手,还在试图支持所有的智能设备。 Patrón 的数字营销副总裁 Adrian Parker 告诉 Recode:“亚马逊的重心在购物上,而 Google 更加关注浏览与教育。我们的战略中两者兼顾。” 无论是语音设备主要厂商的合作者还是竞争者,这些公司都保持着开放的思想。 SpoTIfy、Sonos 和 Qualcomm 都与智能音箱和语音助手达成了合作,他们在平台选择上保持中立,才能覆盖大多数的客户。 高通公司高级副总裁兼网络连接总经理 Rahul Patel 表示,“我们拥有统一开放的平台,可有效扩展所有语音控制系统。”该公司为所有智能设备品牌提供软件和处理技术,他们最近发布了专门将耳机与数字助理集成的音频芯片。“我们保持中立,我们支持每个人。” Sonos 以其与 Alexa 和 Google 智能助手合作的高端音箱而闻名,它也保持中立。 软件副总裁 Antoine Leblond 表示,“Sonos 的设计不会将人们封闭在围墙花园中,我们很开放,而且愿意与所有你想使用的语音助手合作”。 胜利者的姿态 在这场语音革命中论胜负还为时过早,但各大公司肯定会一展他们的风采。 在语音助手方面,Siri 曾经领先过若干年,而且现在活跃在 5 亿台设备上,包括 iPhone、MacBook Pro 和 Apple Watches。然而,苹果的语音助手诸多的问题导致它浪费了其领先优势。 由于 Android 的无所不在,所以 Google 助手也号称拥有 5 亿台设备。 亚马逊现在是智能音箱的领导者,但是由于没有自己的手机,所以也处境艰难。亚马逊正打算通过在其他智能家居和车辆设备上加载 Alexa 来弥补这一不足。重要的是,它最近推出了一款低成本的 Alexa 芯片,可以让无智能的设备更加聪明。 根据 Strategy Analytics 的数据,今年第二季度,亚马逊占全球智能音箱出货量的 41%,其次是 Google,占 28%。根据 Voicebot 调查,截至 9 月份,在美国智能音箱销售中亚马逊占 65%。 然而,市场份额并不能代表一切。 未来可能会出现很多智能助手,具体取决于你所处的位置和你想做的事情。根据 Juniper 的估计,到 2022 年平均每个智能手机用户都会用到三个语音助手平台。 IDC 高级研究分析师 Adam Wright 表示:“没有一个智能助手平台可以为消费者提供完整的服务和设备产品。” 对于亚马逊、Google、微软和 Facebook 来说,最重要的是让用户参与他们的生态系统。 “为了让新用户使用他们的服务,他们宁愿放弃硬件上的收入。”Wright 说。 对于亚马逊来说,这意味着要让会员购买更多的产品,以及订购亚马逊音乐。而 Google 会鼓励用户多使用它的搜索引擎和其他产品,比如 Gmail、YouTube 和地图,所有这些产品都会带来广告收入。微软的 Cortana(也能与 Alexa 配合使用)希望人们使用它的 Office 产品。事实上,微软的重心严重向企业倾斜,最近它发布了一个平台,帮助别的公司在 Cortana 上建立自己领域的技能。 对于苹果来说,除了增加苹果音乐的订阅之外,主要还是做硬件。与其他公司不同,苹果加大了第三方为苹果设备创建硬件的难度。直到最近,外界的设备制造商还不得不在他们的产品中加入苹果的物理芯片,这大大增加了材料成本。但是,苹果依然坚持收取版税,而且必须批准合作伙伴的设备。虽然增长放缓,但是这种环境可以让苹果保证自己的产品高质量,或许还可以保证将来他们的硬件销售。 语音助手很擅长回答一次性的问题:“北达科他州的首都是哪里?”或者,“今晚骑士队的比赛是几点?”但是它们顺着一个思路走的能力,或是分辨代词的能力很有限。语音助手最多可以与用户进行 3-4 次的来回交互,但称不上真正的对话,尽管它发展得越来越好。 对于消费者而言,无论这个助手的名字是什么,最重要的还是语音技术的工作原理。 但是,假设有一天设备达到了彼此相似的准确度,那么消费者会选择哪个设备和助手? 喜欢在亚马逊购物的人可能会选择 Alexa,而在沃尔玛和 Target 上购物的人可能更喜欢 Google 智能助手。想要各种智能家居设备的用户会选择 Google 和亚马逊。而那些喜欢苹果世界和高端产品的人最终会选择 Siri。 未来会怎样 幸运的是,对于语音爱好者来说,我们尚处于早期阶段。 智能语音,就像自行车的辅助轮,帮助人们习惯与他们的设备对话。然而,语音的未来可能根本不会出现在音箱上。主要的音箱制造商已经为他们的助手添加了显示屏。三星很巧妙地将它的语音助手 Bixby 加载到了它的电视上,而电视有可能成为首选的智能助手中心。 无论加载到哪个设备,关键元素还是语音助手。智能助手将悄悄地渗透进我们生活的方方面面,无论是在家还是在外面。 有些人看到了未来,在那个世界里商店和其他公共场所都装备了语音助手,能够识别并响应用户的个人需求。目前,语音助手还在努力理解你的说话内容。 最终我们如何处理这种语音技术还有待观察。 想想 80 年代的鼠标。人们对待与计算机交互的新方式总是嗤之以鼻,但针对的不是概念,而是可行性和执行度。起初,鼠标的准确度很差,软件也没有搞明白如何巧妙地使用这项新技术。40 年后的今天,很难想象在设计软件和视频游戏时没有鼠标或触摸板。 语音比鼠标更直观,但我们仍在努力寻找使用语音的方法。 Rain 是一家专门从事语音业务的数字机构,其首席创意官 Will Hall 在谈及有关语音广告的早期尝试时说:“当新技术平台问世的时候,我们总有一种强迫用以新代旧的倾向,例如:电视上的第一批广告基本上是大声朗读的广播广告。最终电视广告演变成了多感官故事,比如汽车沿着高速公路行驶的画面、音乐喧嚣等,语音体验也是如此。” 在找到能够使用语音的应用、使用案例或发明之前,我们仍然只能将网上的内容读给你听。

    时间:2020-06-17 关键词: 智能音箱 语音技术

  • 零秒科技机器人语音技术不断发展 形成了一个潜力巨大的交互市场

    零秒科技机器人语音技术不断发展 形成了一个潜力巨大的交互市场

    近日,北京零秒科技有限公司在深圳发布“回声云”儿童教育语义交互平台。据悉,该平台可支持自定义语义、内容、技能等个性化功能,搭载该系统的机器人可以通过识别绘本文字来“读故事”。 目前,智能语音在儿童教育机器人领域的应用正越来越广泛和多元化,并形成了一个潜力巨大的交互市场。据了解,2016年各大平台公布的人机交互语音识别率虽然达到96%以上,但识别率目前尚处在实验室阶段,真正落地在产品上的机器识别暂时达不到该水平。尽管如此,随着语音技术不断发展,人机交互也正逐渐走入语音时代。 零秒科技CEO黄丽辉表示,智能语音人机交互技术以语音为主要信息载体,让机器具有像人一样“能听会说、自然交互、有问必答”的能力。该技术涉及自然语言处理、语义分析和理解、知识构建和自学能力、大数据处理和挖掘等前沿技术领域,可以作为独立的软件系统运行在用户的计算机和智能手机上,也可以嵌入到具有联网能力的设备中。 据黄丽辉介绍,零秒科技在用户偏好建模、跨领域识别、上下文记忆等多个领域拥有自主知识产权。此次发布的EchoCloud“回声云”语义交互开放平台专注于儿童教育,主要面向企业用户,为儿童教育机器人提供一站式技术支持。作为机器人背后的语义云台,零秒科技研发团队积极邀请专业教育团队,精心打磨儿童教学内容、设置智能纠错、口语评测等教学技能。在保证平台内容的质量后,还通过个性化配置来体现品牌机器人的差异化,更好地打造品牌。 “我们原来实现一个技能需要两个月的时间,现在只需6个小时。”黄丽辉称,新发布的开放平台不仅支持企业用户自主上传语义内容,还支持个性化技能设置,甚至传统的点读式机器人都可以使用“回声云”平台做品牌升级。 据悉,零秒科技是微软公司的合作伙伴,利用微软云服务技术,零秒科技的语音语义识别解决方案得以进一步优化,使其识别更加精准、表达更加准确。除了微软向零秒科技输出技术,零秒科技也向微软提供了丰富的资源信息,使得微软语音库得到了不断丰富和优化。 同时,零秒科技还推出了与美国早教品牌悦宝园联合打造的视频绘本阅读机器人Rompy Go,这款机器人可以用摄像头识别绘本文字,并以动听的声音朗读绘本中的故事。

    时间:2020-06-15 关键词: 机器人 语音技术

  • 国内航空公司将启用人工智能客服

    国内航空公司将启用人工智能客服

    中国东方航空股份有限公司日前启用全新的智能客服系统,通过人机智能交互和语音语义识别等技术,精准服务旅客、办理业务。这是我国首家建立人工智能(AI)语音交互平台的航空公司。东航还规划引入生物识别、人工智能等技术,率先应用在上海浦东和虹桥、北京大兴机场等国际航运枢纽,打造智慧出行新模式。 东航人工智能客服系统于去年8月立项,与百度开展合作。在研发中,工作人员一直在给AI机器人“上课”,教它民航运行规则、法规制度、文件知识、常见问题对答、互动和沟通技巧等内容,也为将来建立企业层面的人工智能系统做积累。上线之初,人工智能客服可以办理客票验证、航班动态查询、积分查询和积分补登等较简单的标准业务,并高效引导分流,减少旅客流转环节;后续,智能平台将陆续上线更多业务。 小李是东航热线电话95530的一名客服人员。他和2000多名部门同事倒班,保障500-600个接听座席畅通;如果遇到航班延误等特殊情况,还要临时增设40个席位。每天,他们都要接听约4万个问询和业务办理电话。他说,民航管理部门、航空公司和机场等部门的规章、制度、规定“多如牛毛”,“绝不允许把一个文件直接丢给旅客,而是要以最快速度搜寻到相应条款,翻译、解释给旅客听——这是最大挑战”。 负责智能客服的东航信息部项目负责人崇毅介绍,人工智能客服新系统首先将95530平台原有“按键式互动”改为智能语音互动,当旅客说出需求关键词后,AI机器人会给出标准答案,介绍办理流程,引导旅客到App和官网等线上渠道自助办理;无法自助办理的,AI机器人会帮旅客转到人工服务座席解决。 以前,一名客服人员平均240秒处理一通电话呼叫,1小时最多办理完15通;如今,在线客服有了AI机器人的辅助,在线客服可同时应答5-6名旅客提问,旅客等待时间明显缩短;人工智能客服机器人会先帮忙回答完约90%的业务问题,只有大约10%的复杂业务会转给人工客服处理,“这样的流程可大幅减少对人力的依赖,有经验和能力的人员可以挖掘潜能,更加专注于优化业务流程、提高服务质量”。 东航客服中心项目负责人李剑平介绍,人工智能客服上线后,工作人员会继续提升系统的数据收集和分析能力,积累、梳理、细分旅客需求信息,不断优化服务流程,升级迭代。“引入人工智能技术后,客服呼叫产业会逐渐从劳动密集型转向知识密集型行业。目前,东航已有20名资深客服人员转型为‘AI训练师’、人机互动对话设计师和流程设计师等;客服服务流程也进一步优化,员工结构及服务形态得到升级”。 东航最新统计显示,航空客运热线电话业务量最大的是国内客票退改签,占比22%;其次是国内客票预定,占比17%;再次是普通卡会员相关业务,占比14%;之后是国际客票退改签,占6.82%;航班动态查询业务占5.73%。广州民航职业技术学院副教授綦琦观察,民航旅客出行遇到的问题和困惑集中在几大类,而客服的答复也基本相同,具有一定标准性;由旅客服务机器取代员工应对共性问题和标准流程将成发展趋势,未来民航业可在提高业务办理自助化程度的基础上,留出更多人力和精力做好非标准化特色服务。 中国客户联络中心标准委员会主席吕克勤表示,民航客户流动性和不稳定性太强,但他们都是高价值客户,且消费链很长,乘完飞机还要租车、住宿、吃饭、娱乐等。航空公司要留住客户,就要提供高标准、精准化、更贴心的服务。这需要深挖海量大数据,深入了解每位客户,为客户总结的标签越多越翔实,服务也会更有效地抵达。航空公司引入人工智能等技术,是在为服务做“乘法”,有助于黏留客户。 “客服部门一般解决的是其他部门的业务和问题,基于人工智能技术的企业统一智能平台让客服解决问题更快速高效,避免不同部门因沟通不畅或效率不高而‘左腿绊右腿’。”不过,吕克勤也提醒,“人工智能终究不是人,它没有感情,不能‘唯技术论’,要充分考虑旅客感受,留足人工客服,梳理优化好流程,巧妙连接客户需求,才能保持服务的温度。”

    时间:2020-06-02 关键词: 人工智能 语音技术

  • 基于百度云人工智能的语音技术

    基于百度云人工智能的语音技术

    人工智能之父 John McCarthy说:人工智能就是制造智能的机器,更特指制作人工智能的程序。人工智能模仿人类的思考方式让计算机能智能的思考问题,人工智能通过研究人类大脑的思考、学习和工作方式,然后将研究结果作为开发智能软件和系统的基础。人工智能具有识别语言,视频,内容,图谱和智能客服等功能。 百度云人工智能的语音技术包括语音识别,语音合成和语音唤醒。语音识别采用国际领先的流式端到端语音语言一体化建模算法,将语音快速准确识别为文字,支持手机应用语音交互、语音内容分析、机器人对话等多个场景。 产品有语音识别(百度语音识别为开发者提供业界优质且免费的语音服务,通过场景识别优化,为车载导航,智能家居和社交聊天等行业提供语音解决方案,准确率达到90%以上),语音识别极速版(将60秒内的语音快速识别为文字,适用于手机语音输入、语音搜索、人机对话等语音交互场景),语音自训练平台,长语音识别,远场语音识别(通过麦克风阵列前端处理算法,即使在三至五米的距离说话也可准确识别),呼叫中心实时语音识别,呼叫中心音频语音转写等。 百度云人工智能的语音技术有四大优势,一,技术领优势:采用领先国际的流式端到端建模方法SMLTA,近场普通话语音识别准确率可达98%。二,支持自训练优化优势:可通过语音自训练平台持续进行专有识别模型迭代训练。不断提升业务场景识别准确率。三,简单快速优势:支持API及多种SDK接入。采用最新识别解码技术,识别速度极大提升。四,高效稳定优势;专有服务集群、提供企业级的稳定服务,弹性灵活的高并发承载及99.99%的可靠性保障。百度云自开放以来,一直秉承“用科技力量推动社会创新”的愿景,不断为用户提供最智能,最安全的人工智能!

    时间:2020-05-26 关键词: 百度 语音技术

  • 语音技术必将成为未来主要的人机互动接口之一

    语音技术必将成为未来主要的人机互动接口之一

    语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。 语音识别,通常称为自动语音识别,英文是Automatic Speech RecogniTIon,缩写为 ASR,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别( Speech To Text, STT )更合适,这样就能与语音合成(Text To Speech, TTS )对应起来。 深度学习技术自 2009 年兴起之后,已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过 95%,意味着具备了与人类相仿的语言识别能力,而这也是语音识别技术当前发展比较火热的原因。 语音识别的端到端方法主要是代价函数发生了变化,但神经网络的模型结构并没有太大变化。总体来说,端到端技术解决了输入序列的长度远大于输出序列长度的问题。端到端技术主要分成两类:一类是 CTC 方法,另一类是 Sequence-to-Sequence 方法。传统语音识别 DNN-HMM 架构里的声学模型,每一帧输入都对应一个标签类别,标签需要反复的迭代来确保对齐更准确。 目前,主流语音识别框架还是由 3 个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后处理。随着各种深度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布自己新的声学模型结构,刷新各个数据库的识别记录。由于中文语音识别的复杂性,国内在声学模型的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术。 开源语音识别 Kaldi 是业界语音识别框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。该模型是一种类似于 CTC 的技术,建模单元相比于传统的状态要更粗颗粒一些,只有两个状态,一个状态是 CD Phone,另一个是 CD Phone 的空白,训练方法采用的是 Lattice-Free MMI 训练。该模型结构可以采用低帧率的方式进行解码,解码帧率为传统神经网络声学模型的三分之一,而准确率相比于传统模型有非常显著的提升。 语音识别这半个多世纪的产业历程中,其中共有三个关键节点,两个和技术有关,一个和应用有关。第一个关键节点是 1988 年的一篇博士论文,开发了第一个基于隐马尔科夫模型(HMM)的语音识别系统—— Sphinx,当时实现这一系统的正是现在的著名投资人李开复。 从 1986 年到 2010 年,虽然混合高斯模型效果得到持续改善,而被应用到语音识别中,并且确实提升了语音识别的效果,但实际上语音识别已经遭遇了技术天花板,识别的准确率很难超过 90%。很多人可能还记得,在 1998 年前后 IBM、微软都曾经推出和语音识别相关的软件,但最终并未取得成功。 所有语音交互产品都是端到端打通的产品,如果每家厂商都从这些基础技术来打造产品,那就每家都要建立自己云服务稳定,确保响应速度,适配自己所选择的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这从产品方或者解决方案商的视角来看是不可接受的。这时候就会催生相应的平台服务商,它要同时解决技术、内容接入和工程细节等问题,最终达成试错成本低、体验却足够好的目标。 类比过去的 Android,语音交互的平台提供商们其实面临更大的挑战,发展过程可能会更加的曲折。过去经常被提到的操作系统的概念在智能语音交互背景下事实上正被赋予新的内涵,它日益被分成两个不同但必须紧密结合的部分。 这两边在操作上,属性具有巨大差异。解决前者需要参与到传统的产品生产制造链条中去,而解决后者则更像应用商店的开发者。这里面蕴含着巨大的挑战和机遇。在过去功能型操作系统的打造过程中,国内的程序员们更多的是使用者的角色,但智能型操作系统虽然也可以参照其他,但这次必须自己来从头打造完整的系统。(国外巨头不管在中文相关的技术上还是内容整合上事实上都非常薄弱,不存在侵略国内市场的可能性) 人与数字世界的接口,在现在越来越统一于具体的产品形态(比如手机),但随着智能型系统的出现,这种统一则会越来越统一于系统本身。作为结果这会带来数据化程度的持续加深,我们越来越接近一个百分百数据化的世界。

    时间:2020-05-26 关键词: 语音技术 深度学习

  • 搜狗最新发布个性化语音识别技术

    搜狗最新发布个性化语音识别技术

    搜狗输入法发布新版本,发布“个性化语音识别”服务,用户只需更新后点击APP选择一键登陆账户,即可体验。成功开启“个性化语音识别”后,用户选择搜狗语音输入按钮,可以发现输入法已强化学习了用户的个人词汇。据了解,该功能将有效提升用户个性化特色词句的语音识别准确率,降低用户在输入过程中的手动修改次数。 得益于能解放双手的便捷性,语音输入自面世以来就备受大众青睐。但如何实现“听懂”用户,并快速、准确的呈现出用户“所说”,一直是语音输入领域面临的一大技术难题,尤其是对极具用户个人属性词句的精准识别。比如,用户需要的是“刘也、梓轩、程志”,语音输入后得到的很可能是“刘烨、子萱、诚挚”……诸如此类未基于用户个人特色针对性语音识别的结果,往往需要用户再费时费力手动调整,反而在一定程度上损害了语音输入的用户体验。 针对这一问题,搜狗语音此次率先推出“个性化语音识别”,可基于其大数据及领先的AI(人工智能)语音技术的支持,构建起个人化、个性化的用户专属输入法服务,从而大幅提高“个人高频词汇”的识别精准度,降低用户的手动修改率。 可以说,凭借“个性化语音识别”,搜狗率先在语音输入领域真正实现了“更懂用户”,切实提升了每一个用户日常生活中表达、传递信息的效率。对于语音识别技术而言,目前市面上能够见到的语音输入产品和工具,在通用场景下的识别准确率基本都能“听懂”用户;但因为准确率一旦达到一定高度,相对再每提升百分之一都要面临极大的技术难度。 目前,搜狗通用语音识别已经全面使用了行业前沿的深度学习技术,其中基于DTSS(Deep Transformer-based Sequence to Sequence model)的端到端声学模型、神经网络语言模型和智能标点预测等技术,有效推动了搜狗语音识别的通用效果和体验,这在行业中处于领先水平。此番,“个性化语音识别”可以针对用户的语音输入习惯精准优化,从而使得在保障通用识别准确的情况下,用户常用语的字错误率相对下降近40%。极大的减少了修改成本,可谓是攻克中文语音识别这一“技术堡垒”至关重要的一步。 搜狗之所以能率先实现“个性化语音识别”,主要原因有二:一是用户大数据的沉淀与积累,二是搜狗本身就保持领先且持续快速发展的AI技术。 首先,搜狗输入法拥有大数据优势,这是搜狗语音输入识别的“护城河”,也是其他企业及产品难以比及的地方。以此为基础,搜狗通过大数据挖掘处理,使得语音识别准确率大幅提升。在提升识别准确率的同时,搜狗语音创新式的技术流程,让云端系统极大程度上保证了用户个性化特征的自动处理速度,实现整个学习个性化特征的过程在“毫秒级别”就可以全部自动完成。 其次,搜狗AI技术蓬勃发展,一方面,不仅拥有以语音交互为核心的人工智能平台“搜狗知音”,使得搜狗在语音识别、语义理解等方面具备领先优势,另一方面,其业界领先的语音修改能力、智能断句、标点预测、识别结果顺滑,以及成绩斐然的自然语言处理技术都能更好地帮助提升“个性化语音识别”的准确率。 语音识别一直是人机交互、人工智能链接传统产业的一项关键性技术,直接影响着未来社会的智能化发展进程。因为在智能家居、智能教育、智能医疗等与用户日常生活息息相关的各个产业领域,让智能设备“听懂”我们说话是实现自然交互的先决条件。 当前,语音识别已基本实现“出口成章”。此次搜狗的“个性化语音识别”,可谓再次撕开语音识别技术瓶颈,增加了行业对于人机交互实现“千人千面”的信心。未来,搜狗语音将会持续提高和完善语音输入识别技术,持续优化“个性化语音识别”服务。相信随着语音识别技术的不断突破和用户个性化内容的不断丰富,搜狗或将形成“消费级”的语音个性化生态资源,全面实现定制化语音输入。从而使每个用户都能使用 “更懂自己”的搜狗语音识别技术,在生活、出行、工作中大幅提升人机沟通效率,帮助人们表达和获取信息更简单。

    时间:2020-05-26 关键词: 语音技术 搜狗

  • 搜狗的个性化语音识别将颠覆人机交互模式

    搜狗的个性化语音识别将颠覆人机交互模式

    美国著名投资者红树林资本合伙人在其2019年的《语音技术报告》中表示,语音将从根本上改变人类与机器与人工智能之间的关系,并将继续成为未来十年的决定性主题之一。近年来,搜狗输入法在语音输入领域引入了“个性化语音识别”,以实现“更好地理解用户”。它不仅突破了语音识别技术的瓶颈,而且大大优化了个人词汇输入的直接准确性。 在日常交流中,个人短语和习语会以很高的频率干扰双方的信息传递,特别是人机对话已经成为一个灾难性的领域。在大多数情况下,当用户使用语音输入时,他们只想输入一个名称,但输入结果显示语音与另一个结果一致。例如,当用户希望输入法显示“远”的名称时,普通的语音识别通常不包括用户的个性化内容,并且通常将“纯,产品源”列为公众常用的候选词汇。此外,用户使用的个人词汇,以及一些复音词和发音错误,对语音识别结果也有较大的影响。 为此,搜狗输入法推出了“个性化语音识别”服务,引领了语音识别技术的创新和升级。用户希望体验此功能,只需在更新应用程序后登录个人账户即可。打开后,“个性化语音识别”将为每个用户定制个性化的语音输入方法,以增强学习用户的词汇使用习惯。然后,根据语言环境和对上、下段句子的智能分析,输入法可以使用户在输入语音时快速输出符合用户思想的文本内容,大大降低了频率。用户的第二次手动更改。 搜狗的“个性化语音识别”不仅对提高用户个性化词句的识别精度非常有效,而且保证了系统的处理和反馈速度,具有全自动词汇学习的特点,使整个系统能够学习个性化功能的过程将在“毫秒级”自动完成。 搜狗输入法引入了先进的深度学习技术来模拟和训练语音识别,并利用DTSS(基于深变序列模型)端到端声学模型、神经网络语言模型和智能标点预测技术来实现语音识别。离子的准确度领先行业,并大大提高。一般场景中语音输入识别精度高。当用户输入语音时,“个性化语音识别”可以根据用户数据分析对自定义短语进行扫描和记录,优先使用用户习语进行文本输出。通过这种技术创新,搜狗输入法克服了语音识别精度的技术难题。众所周知,在保证通用识别精度的前提下,用户常用词的误码率降低了40%。 手语是人类最灵活的两个部分,是人机交互的主要手段。以前,移动智能设备中的各种触摸交互都依赖于手的操作。当语音技术和人工智能同时成熟时,可能如“2019年语音技术报告”所述:语音交互已经改变了过去人机交互的现有形式,以及基于VOIC的用户和设备之间的新关系。电子交互已经开始建立,就像以前从互联网向移动互联网的过渡一样。对底层平台的新要求也在酝酿之中。 随着新时代的到来,用户输入法的使用逐渐向语音输入转变。优化语音识别技术,为用户提供更加自然、方便、高效的语音输入服务,是智能输入法的发展趋势。与文本输入相比,语音输入在人工智能、虚拟现实等不同维度、多场景等方面具有更大的优势。语音输入注定要成为最重要的人机交互界面。 随着用户个性化词汇的不断丰富和语音识别技术的成熟,搜狗将汇聚用户级语音个性化资源,实现“个性化语音输入法”。在日常生活、医疗、法律等专业领域,每个用户都可以享受到“定制版”和“更好地了解自己”搜狗语音识别的支持。有效提高在线通信和人机通信的效率和准确性,或将成为人工智能时代输入端的全球控制器。

    时间:2020-05-25 关键词: 语音技术 搜狗

  • 语音识别成为当下隐私安全的新风口

    语音识别成为当下隐私安全的新风口

    语音识别技术经历了多年的发展,其用处也变得越来越广泛了,从最开始的苹果手机里的语音识别助手sari到现在的各种家庭语音助手,如小米的小爱同学、亚马逊智能音箱Echo等,可以为我们提供各种各样的服务,如讲笑话、控制电器等服务。语音识别最智能的就是只需要说出我们想做什么就行,大大方便了人机交互的效率。然而,随着谷歌、亚马逊相关语音识别产品出现隐私泄露的问题,语音识别或许能成为当下隐私安全的风口。 智能音箱正在成为和智能手机一样的通用智能设备,是未来的流行方向。 据知名调研机构IDC预估显示,2019年全球智慧家庭设备出货量将会增长至8.41亿台,2023年出货量还会再度攀升至14.64亿台。2019年第一季度,全球智慧家庭出货量增长37.3%,达1.69亿台。其中,智能音箱类设备的出货量增长最快,达2320万台。 德勤年初发布的报告认为,2019年将有1.64亿台智能音箱出售,总营收同比增长63%;Canalys数据则显示,年底全球智能音箱安装量将达到2.079亿台,增幅82.4%。虽然不同的机构预测数据略有出入,但都体现了同一个趋势:智能音箱是未来的流行方向。 美国当地时间7月11日,谷歌对外承认了其让承包商收听由谷歌虚拟助手记录的用户音频。无独有偶,此前有报道称,亚马逊在全球范围内雇佣了数千名员工来收听Alexa与用户互动的录音。尽管亚马逊与这些员工签署了保密协议,但某些情况下,他们可以很轻易地查到用户的家庭地址等详细的信息。 因此当前各大互联网公司对语音识别技术的应用,让用户的隐私安全多了一份威胁。 和“被偷拍”一样,“被偷听”也是令人很不爽的事,音频隐私也是用户隐私的很大一部分,因为它也包含了巨大的信息。所以为了隐私的安全,用户不应用自身的隐私来换取生活中的便利,对于科技公司来说,保护用户隐私是获取用户信任的基础。

    时间:2020-05-25 关键词: 智能音箱 语音技术

  • 微信新iOS版本语音转文字功能上线

    微信新iOS版本语音转文字功能上线

    微信 iOS 版本上线一个新功能,和之前的语音转文字功能不同,这次的转化功能在发送时起作用,也就是说,用户在发送微信语音时,通过上滑可以将语音转文字,确认无误后即可发送,发送出去的即是转化后的文字。经测试,简单的中英文均可识别,甚至还可以识别粤语。 语音消息是微信的主打功能之一,在以前,语音消息也一直受到用户的追捧。大家都想着发送语音信息可以省去打字的烦恼,聊天也会变得更轻松。但是渐渐地,语音消息的弊端开始显现,而且越来越明显。语音很方便没错,但是可能会对接收一方造成困扰。 相信大家都遇到这样的情况,在你不方便接听语音的时候,对方发来连续多条语音信息,而且每条都几十秒或者是1分钟,这时多么希望收到的是文字信息而不是语音信息。虽然接收一方可以手动选择将语音转换成文字,可是如果是连续多条语音信息,同样是不方便操作的。 这项功能可以说是很贴心了,在你发送语音同时可转换成文字,也可以选择语音发送,给你可选择的权限,可以避免一些很尴尬的事情,比如说,我用语音说了一段话,感觉语音表达不怎么好,又不想重复说,你就可以选择文字表达了,就无须重复输入文字了,也节省了很多时间。

    时间:2020-05-25 关键词: 苹果 语音技术

  • 智能语音技术将引领人机交互的新模式

    智能语音技术将引领人机交互的新模式

    边录音边自动转写成文字的智能录音笔,支持中文与58种外语互译的新一代翻译机、模仿不同人说话的虚拟主播、供开发者使用的语音开放平台。在科大讯飞股份有限公司北京总部的人工智能体验中心,众多人工智能与语音融合的前沿技术项目令记者大开眼界。 在即将到来的万物互联时代,语音作为人类最自然、最便捷的沟通方式,将会成为所有设备和产品至关重要的入口。业界普遍认为,未来的人机交互将以语音为主、键盘和触摸为辅。 近年来,随着智能语音应用场景和手段不断丰富,国内众多技术厂商在语音合成、语音识别、自然语言理解等人工智能核心技术领域持续发力。有理由相信,智能语音技术将给人们生活带来更为深刻的改变。 提起科大讯飞,很多人会想到其主打语音输入特色的“讯飞输入法”。这款早在2010年就推出的软件,版本号已经到了第9代。语音输入速度达到1分钟400字,并支持多种方言,准确率超过98%。在科大讯飞人工智能体验中心,工作人员安琪向记者演示了包括讯飞输入法、讯飞听见、讯飞有声等在内的多个软硬件产品。 “现在我们看到的就是一个离线转写设备,叫讯飞听见智能会议系统,是全球第一款中文语音实时转写和多语种实时翻译的系统……”安琪说了一段话,系统立即在屏幕上输出准确的中文和翻译后的英文。工作人员在演示可用于大型会议翻译的讯飞听见智能会议系统,说一段话,屏幕上同时显示出中文和英语译文。 据介绍,今年全国两会期间,代表委员们在小组讨论中的发言被这套系统“滴水不漏”地记录下来。以前的小组讨论,需配两三名工作人员,会后重听录音是常态。有了“讯飞听见”,只需配一名工作人员,会后半个小时就能得到准确的会议记录。 语音识别就好比“机器的听觉系统”,能够把语音信号转变为相应的文本或命令。安琪介绍,随着深度学习技术快速发展,科大讯飞在语音识别任务中率先实现规模应用。2015年,在公证人员的见证下,科大讯飞机器语音转写准确率首次超过速记员。针对于噪声环境下语音识别的挑战,科大讯飞在国际最权威的多通道语音分离和英文识别大赛(2016年CHiME-4和2018年CHiME-5)中,连续两届所有场景下均取得了世界第一。 另一款能快速转写录音的小型设备吸引了记者的注意,这是今年5月新推出的讯飞智能录音笔。 “在研发之初,我们经过调研发现,81%的传统录音笔用户真正需要的不是录音,而是录音整理出的文字。像记者采访、会议记录这些场景,录完音后都需要及时将文字内容快速整理出。”安琪说,讯飞智能录音笔在联网状态下,1小时的录音出稿只需5分钟,中文普通话识别准确率高达98%,真正打通了从录音到转写再到分享以及后端查找编辑的全链条服务。 智能音箱是如今语音识别技术的热门应用。市场研究机构最新数据显示,中国已成为全球最大的智能音箱市场,仅今年第一季度销量就达到1060万台。科大讯飞MORFEI麦克风产品原型,搭载4+4双环结构麦克风,可实现远场空间全方位拾音。 通常情况下,每次对智能音箱下指令前,都需要提关键词来唤醒,显得“不够智能”。而科大讯飞推出的MORFEI麦克风,内置了AIUI全双工语音交互解决方案,可以实现一次唤醒、连续问答。其远场语音识别技术,更是能在5米距离下达到95%以上的唤醒率、93%的识别率。 同样受益的还有汽车领域。通过融合语音、视觉等感知技术,分析驾驶行为数据,整合优质内容资源,科大讯飞推出的飞鱼智行智能车载交互系统,将语音增强、自然语言理解等技术应用于汽车,并与各场景服务深度结合。

    时间:2020-05-25 关键词: 互联网 语音技术

  • 语音交互技术能开启一个智能新时代吗

    语音交互技术能开启一个智能新时代吗

    智能音箱的鼻祖,毫无疑问是亚马逊Echo。2014年11月,亚马逊低调发布了智能音箱Echo,这款被产品发布之初并没有被寄予厚望,它的诞生只是在对抗iPhone的Fire Phone遭遇惨败后,匆匆上线的一款替代产品而已,但当偶然将Echo与其他公司生产的智能灯泡和智能温控器连接起来之后,亚马逊很快意识到Echo可以成为智能家居的枢纽。 在 Echo 面市后不久的 2015 年,大洋彼岸的京东火速与科大讯飞成立了一家合资公司灵隆科技,并在 2015 年 6 月发布了一款名为叮咚智能音箱的产品。遗憾的是由于智能音箱在京东集团的战略定位逐渐边缘化,合资公司的战略分歧以及人事动荡等方面原因,京东错过了抓住语音交互入口的机会,叮咚音箱造成的影响与亚马逊Echo也完全不可同日而语。 中美两大搜索巨头同时成为智能音箱市场最重要的玩家,背后并非偶然。智能音箱并不只是一个音箱的躯壳,而是一个不断进化迭代的 AI载体。智能交互是智能音箱的核心能力,要提供更自然便捷的人机交互体验就要有足够强的AI技术,这背后还涉及互联网内容、服务和IoT生态,而这些正是以技术见长的搜索巨头们擅长的优势。 亚马逊和谷歌在智能音箱市场展开了激烈的竞争,这主要源于亚马逊最早看到了智能音箱在智能家居、购物、内容消费等领域的想象空间,而谷歌则是在看重语音交互作为下一代搜索的前景。两大巨头的不同思考,也注定了智能音箱市场的不同发展路径:前者依靠多年构建平台的生态协同,用尽量多的场景增加使用黏性;后者则借助智能助手病毒般扩散,在海量的设备和数据下让AI不断迭代进化。 类似的竞争也在中国进行着。智能音箱在中国市场经历了四年发展,百度、阿里双巨头的市场格局已经趋于稳定。无论在阿里还是百度眼中,智能音箱拥有无限的使用场景,可以连接一切可以连接的事物,也会是智能设备的控制中枢,但百度在这个基础上,却更希望让智能音箱成为搜索和服务的入口,以及百度AI战略落地的硬件载体,这也是为什么小度会率先推出带屏智能音箱的原因。 百度智能生活事业群组总经理景鲲曾这样解释道,「整个科技行业都迫切需要一个新场景或者新设备来承载AI的能力和资源」,显然智能音箱在他心目中更像是一个为AI而生的新物种。智能音箱开启了语音交互的时代,它所构建的场景天然更合适搜索、通讯和内容分发,这些恰巧是百度作为搜索巨头的核心战场。 借助细分人群的扩散,天猫精灵迅速实现了累计千万台的销量,并且天猫精灵AI助手在这个过程中朝着开放平台进化,但这毕竟只是基于阿里自己的生态,缺乏足够的使用场景,势必无法让智能音箱的功效最大化。和其他智能音箱巨头不同的是,小度从一开始的目标就不是希望通过硬件赚钱,或者说卖出更多硬件,而是希望打造下一个时代的搜索入口。 小度也是目前为止唯一一个从硬件到框架,再到平台、开发生态、生态应用系统、终端硬件全覆盖的AI应用生态平台。通过构建这一生态,百度将完成对阿里、华为等刚刚起步的竞争对手的降维打击,并能够与亚马逊、Google等对手一较高下。 智能音箱模式之争本质上没有对错可言,但我们需要认清一个事实,智能音箱热潮的实质是AI之争,归根结底是未来人工智能的入口和焦点。如今的小度仍在不断进化,不仅集成了百度各项领先的技术能力,也不断被百度的各类数据所喂养,这些数据不仅来自百度自己的用户平台,也来自接入小度的越来越多手机、空调、冰箱等终端。 如今智能音箱的引爆点似乎已然出现,在7月3日的百度AI开发者大会中,景鲲正式宣布小度第三方技能使用时长已超过音乐使用时长。而三星则在几天前在美国和韩国推出Bixby语音助手应用商店,借助这个应用商店,开发商将他们的Bixby应用程序推广到三星全球超过5亿台设备上。 一方面,这意味着智能音箱将成为瓜分互联网流量的重要载体,围绕使用时长及频次的流量发生了转移,也意味着智能音箱这个破局者在重塑原有互联网的产业走向。分发硬件之王的交椅由单一的手机端向音箱等多种新兴终端过渡,随之衍生的产业链规则也将改写,像叫车、外卖、购物等服务,都有可能通过智能音箱而不是手机完成。 另一方面,作为语音交互的超级入口,尤其是5G时代到来,智能音箱将不仅能够积累用户的语音习惯,还能收集用户对生活服务的个性化需求。当这些的小数据累积起来,就会上升成为社会的整体大数据,这种连接或许将真正构建一个“万物互联”的大数据平台,并构成未来世界所有联结关系的支柱。 以手机为载体的旧世界正在失去活力,以智能音箱为载体的新世界正在敞开大门,当智能音箱市场已不只是“智能音箱”那么简单时,变革奇点已经到来。

    时间:2020-05-25 关键词: 智能音箱 语音技术

  • 谷歌利用序列转导来实现多人语音识别和说话人分类

    谷歌利用序列转导来实现多人语音识别和说话人分类

    传统的说话人分类系统依赖于人声的声学差异识别出对话中不同的说话人。根据男人和女人的音高,仅仅使用简单的声学模型(例如,混合高斯模型),就可以在一步中相对容易地将他们区分开来。然而,想要区分处音高可能相近的说话者,说话者分类系统就需要使用多步方法了。首先,基于检测到的人声特征,使用一个变化检测算法将对话切分成均匀的片段,我们希望每段仅仅包含一个说话人。接着,使用一个深度学习模型将上述说话人的声音片段映射到一个嵌入向量上。最后,在聚类阶段,会对上述嵌入聚类在不同的簇中,追踪对话中的同一个说话人。 在真实场景下,说话人分类系统与声学语音识别(ASR)系统会并行化运行,这两个系统的输出将会被结合,从而为识别出的单词分配标签。传统的说话人分类系统在声学域中进行推断,然后将说话人标签覆盖在由独立的 ASR 系统生成的单词上。 这种方法存在很多不足,阻碍了该领域的发展: (1)我们需要将对话切分成仅仅包含以为说话人的语音的片段。否则,根据这些片段生成的嵌入就不能准确地表征说话人的声学特征。然而,实际上,这里用到的变化检测算法并不是十全十美的,会导致分割出的片段可能包含多位说话人的语音。 (2)聚类阶段要求说话人的数量已知,并且这一阶段对于输入的准确性十分敏感。 (3)系统需要在用于估计人声特征的片段大小和期望的模型准确率之间做出艰难的权衡。片段越长,人声特征的质量就越高,因为此时模型拥有更多关于说话人的信息。这然而,这就带来了将较短的插入语分配给错误的说话人的风险。这将产生非常严重的后果,例如,在处理临床医学或金融领域的对话的环境下,我们需要准确地追踪肯定和否定的陈述。 (4)传统的说话人分类系统并没有一套方便的机制,从而利用在许多自然对话中非藏明显的语言学线索。例如,「你多久服一次药?」在临床对话中最有可能是医护人员说的,而不会是病人说的。类似地,「我们应该什么时候上交作业?」则最有可能是学生说的,而不是老师说的。语言学的线索也标志着说话人有很高的概率发生了改变(例如,在一个问句之后)。 然而,传统的说话人分类系统也有一些性能较好的例子,在谷歌此前发布的一篇博文中就介绍了其中之一(博文地址:https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html)。在此工作中,循环神经网络(RNN)的隐藏状态会追踪说话人,克服了聚类阶段的缺点。而本文提出的模型则采用了不容的方法,引入了语言学线索。 我们研发出了一种简单的新型模型,该模型不仅完美地融合了声学和语音线索,而且将说话人分类和语音识别任务融合在了同一个系统中。相较于相同环境下仅仅进行语音识别的系统相比,这个集成模型并没有显著降低语音识别性能。 我们意识到,很关键的一点是:RNN-T 架构非常适用于集成声学和语言学线索。RNN-T 模型由三个不同的网络组成:(1)转录网络(或称编码器),将声帧映射到一个潜在表征上。(2)预测网络,在给定先前的目标标签的情况下,预测下一个目标标签。(3)级联网络,融合上述两个网络的输出,并在该时间步生成这组输出标签的概率分布。 传统系统和 RNN-T 系统错误率的对比,由人类标注者进行分类。此外,该集成模型还可以预测其它一些标签,这些标签对于生成对读者更加友好的 ASR 译文是必需的。例如,我们已经可以使用匹配好的训练数据,通过标点符号和大小写标志,提升译文质量。相较于我们之前的模型(单独训练,并作为一个 ASR 的后处理步骤),我们的输出在标点符号和大小写上的误差更小。

    时间:2020-05-25 关键词: 谷歌 语音技术

  • Google通过语音识别技术来提升孩子的阅读技能

    Google通过语音识别技术来提升孩子的阅读技能

    关于移动设备和应用程序对于孩子的正面和负面影响仍存在争论,有些家长将其当做更好的学习工具,而有些家长则视其为洪水猛兽。不过显然谷歌更支持前者,该公司神秘的研发部门Area 120以此为目的推出了名为Rivet的应用程序。 阅读是人类茁壮成长的必备基础技能之一,但是有些家长认为过多的在移动设备上使用儿童应用程序可能会妨碍这个基础技能的发展。当然,市面上不乏优秀的儿童阅读应用程序,不过Area 120自然拥有一些独门武器让Google Rivet脱颖而出。 特别值得一提的是,这款应用程序使用语音识别技术和部分人工智能来帮助儿童学习阅读技能。因为年轻一代主要通过大声朗读来学习阅读技能的。Rivet然后会通过朗读的反馈和帮助,从而教孩子某个单词是如何正确发音的。 Rivet拥有多种模式和功能来实现这个目标。首先其中一项功能就是允许家长关闭“Follow Along”,这样孩子可以让应用根据需求来阅读。孩子可以点击某个想要朗读的单词,然后让Rivet对他们的发音进行打分,从而让他们获得正确的发音。 Rivet适用于Android和iOS平台,但是目前只有Android版本具备实时反馈功能,可以检测孩子对某个单词的发音是否正确。谷歌称,Rivet可以访问2000多本免费书籍,涵盖各种年龄和主题,并为年轻一代精心策划。

    时间:2020-05-25 关键词: 谷歌 语音技术

  • 语音识别设备会造成隐私泄密的隐患吗

    语音识别设备会造成隐私泄密的隐患吗

    据悉,现在的语音助理市场上,谷歌公司正在面临很大的压力。亚马逊(Amazon)的Alexa和苹果(Apple)的Siri也在许多设备上加入了这种类似的功能,例如可以与机器人结合,让它们在语音的指示下做出动作,简直就是一款像"仆人"一般的机器人,可以替主人剩下很多精力哦。 这些东西将广泛的被应用到客厅、汽车以及众多地方,用途很广泛,不过人们还是比较担心隐私方面的泄露隐患。所以,要想开发出一款让消费者满意的软件,除了将强大的对手比下去,还要将主要精力放在让消费者如何满意的问题上来,毕竟产品做的再好,没人买等于白搭。 这款产品除去隐私方面的考虑外,它其实还挺人性化的,它会通过现场的语境的感知,自我识别判断当前的语意,然后做出反应。说白了就是自我感知语义的上下文意思。通常我们设置了一个闹钟,当你还想继续睡觉不想被打扰时,你可以直接说一个"停"字,不用特意的回忆所有语句。目前比较流行的语音功能都是说出特定的语句后,设备才会机械化的自动反应。这款软件则不需要,它会自我识别语境,这一点还是挺让人满意的,至少是个亮点。 目前,该公司负责人表示,它们计划在今年内将这种设备首先应用在谷歌旗下的Pixel智能手机上,它将会实时记录大家的语音。并表示,这完全是一款离线的设备,不需要互联网的介入。额,这样强行介入的话,真不好说个人隐私泄密会不会成真。除了手机,这款设备还将放在电影购票机以及出租车购票机上,这将大大的简化手动属于的麻烦,使得操作更加简单,我觉得这值得推广。

    时间:2020-05-25 关键词: 语音识别 语音技术

  • 5G时代下语音技术将成为下一代颠覆者

    5G时代下语音技术将成为下一代颠覆者

    在经过多年使用键盘输入和触控手势输入之后,我们正回归到最开始的“用户界面”:语音。和文字以及触控手势输入不同,语音基本没有学习成本,随着语音识别(语音转文字)和自然语言处理(识别文本中的指令)两方面都获得了相当大的进步,语音输入不再是指令式而更像是自然语言的交流。与人工智能一起,语音技术将会在根本上改变人与机器的关系。 无独有偶,权威咨询机构赛诺也在7月4日发布了《2019年语音输入法简析》报告。并在报告中对语音输入法的市场形势以及用户进行了深入的研究,就语音输入法的未来发展趋势进行了展望。 报告中同样指出,在随后5G商用的逐步推进,5G网络的普及化会大大提升用户对手机输入法输入效率的需要,而传统的键盘打字输入可能会被更高效的语音输入所替代。通过目前三大手机输入法的用户占比数据来看,语音输入已经超过30%,而在讯飞输入法上语音输入更是以61%的占比成为了榜首。 目前语音已经广泛应用于输入法、智能助手,并开始充当智能家居和物联网的入口,通过苹果的HomePod、亚马逊的Alexa,越来越多的智能家居设备实现了语音控制。虽然在使用电脑和手机等设备时,屏幕的手势操作仍是一种输入互动方式,但键盘很可能会变成多余的。 而5G网络普及后,低延时的特性也会使得语音交互更为高效。以现在常见的语音控制智能音箱设备为例,受限于自身处理运算性能和网络延时,在体验上响应总是慢一拍,亦或者是有限的运算能力难以理解我们的复杂语句。 5G低延时让智能音箱可以时刻通过5G网络与服务器进行沟通,借助云端的运算,算力上面有了大幅度的提升后,自然语意的识别也会更为高效。同理,在手机输入交互上,现在占有绝对主流地位的打字键盘输入方法,随着5G的到来后,可能会被语音输入所取代。这是由于输入效率上,普通人每分钟输入40个单词而使用语音就能够轻轻松松将这个数字提升到400个。 以目前占据市场语音输入绝对领先地位的讯飞输入法为例,在语音输入上讯飞输入法能够做到很好的体验。从2010年开始讯飞逐步完善语音输入方式,并在AI人工智能赋能后,极大的提升了语音输入的体验。在最近推出的讯飞输入法9.0新版本中,除了进一步提升语音的识别率和输入体验外,还加入了语音免切换输入新功能,中英文、普通话方言之间无需多次切换,直接按着键说话就能精准识别。 现在的讯飞输入法能够支持多达23种方言语音输入,涵盖大部分的地区方言,即便是方言混合语,中英混合语,讯飞都能够准确识别输入,更贴近日常说话习惯,也因此在赛诺的报告中获得了用户4.6分的满意度。在Mangrove的报告中还介绍了语音技术融资的分析,语音技术创业公司今年已融资7.86亿美元,远远超过2018年的5.81亿美元以及2017年的2.98亿美元,可以一窥目前市场对语音技术的未来前景的乐观。 在6月份的中国移动“千兆引领 生态赋能”合作大会上,科大讯飞董事长刘庆峰发表演讲,介绍了科大讯飞在业界率先推出了万物互联时代的语音交互标准,讯飞打造的虚拟主播、翻译机等产品已经得到了广泛应用,科大讯飞平台上已经有105万创业团队。将把人工智能平台跟中国移动的数字家庭开放平台结合起来,致力于打造5G数字家庭的生态支持。 诚然,在5G通讯即将普及之际,改变的不仅仅是移动设备的上网速度,5G网络也会影响到我们生活中的方方面面。在Mangrove的报告最后指出,虽然目前由于技术等原因,语音输入的体验还不能立刻取代键盘、屏幕触控等输入方式,也存在着隐私保护等问题有待解决,但这种技术将驱动新的生产力提升浪潮,造福消费者、企业和社会。也会让更多老年人和全球约7.74亿不识字的人群可以更加便捷的使用互联网,享受数字生活带来的便利。

    时间:2020-05-25 关键词: 语音技术 5G

  • 新型柔性传感器可精准识别语音

    新型柔性传感器可精准识别语音

    如今,我们很容易在手机上找到语音识别功能。在办公室召开的会议或者谈话中,我们经常会体验到语音识别功能。可是有时候,无论我们开启语音识别功能多少次,它都根本无法被激活。这是因为,手机用麦克风检测声压从而识别语音,但是麦克风很容易受到周围噪音和其他障碍物的影响。 近日,韩国浦项科技大学(POSTECH)化学系教授 Kilwon Cho 和电子与电气工程系教授 Yoonyoung Chung 成功开发出一种柔性、可穿戴、振动响应的传感器。该传感器可以粘贴到颈部,通过颈部皮肤的振动来精准地识别语音,并且不会受到环境噪音和声音音量的影响。 传统的振动传感器是通过空气振动来识别语音的。由于机械共振与阻尼效应,灵敏度会降低。因此,传统的振动传感器无法定量地测量声音。所以,环境声音或者障碍物例如口罩会影响其声音识别的精准度,并且使之无法应用于安全认证。 在这项研究中,研究小组演示了,在从40dBSPL~70dBSPL的各种不同的声压等级上,声压与颈部皮肤振动的加速度成比例。他们开发出一种利用皮肤振动加速度的振动传感器。该设备是由超薄的聚合物薄膜以及具有小孔的膈膜组成,可以通过测量皮肤振动的加速度来定量地感知声音。 他们也成功地展示了,即使在噪音环境以及佩戴口罩时音量非常低的情况下,该设备也可以精准地识别语音,不会产生振动畸变。

    时间:2020-05-25 关键词: 传感器 语音技术

  • 5G时代将促使VoLTE语音通信的全面商用化

    5G时代将促使VoLTE语音通信的全面商用化

    目前,国内已经有部分地区覆盖有5G网络,相应地区的用户购买5G终端之后,无需更换手机SIM卡即可使用运营商的5G网络。已经发布的5G手机终端有三星S10 5G/Note10+ 5G、iQOO Pro 5G、华为Mate 20 X 5G等等。毫无疑问,2019年是5G商用元年。 在5G更加普及之际,4G时代的VoLTE语音通信服务也将迎来全面商用。这项技术将使得用户的语音通话以及上网体验都得到比较大的提升。截至今年6月底,2018年中国移动4G用户7.13亿户,4G用户渗透率达到了77%,4G VoLTE用户占比达到了53.4%。按照这样的速度发展,截至2019年上半年中国移动4G VoLTE用户占比已经远远超过53.4%。 中国联通方面,自今年6月1日起,中国联通已经在全国范围内开展VoLTE试商用。 中国电信方面,更是在2018年11月29日便宣布开通VoLTE业务全面试商用。按照中国电信的规划,未来电信VoLTE进入成熟商用期后,VoLTE驻留时间将超98%。而终端也将不提供VoLTE开关,语音方案全部采用纯VoLTE模式,同时还将推进CDMA 1X的退网。 另外,根据3GPP标准定义,5G语音(VoNR)仍沿用4G的话音架构,也是基于IMS提供话音业务。飞象网表示,在5G商用初期会出现覆盖不足的情况,加上对于SA和NSA的不同选择,5G初期语音将会回落到VoLTE。因此,在5G时代来临之际,VoLTE将会迎来全面商用。 目前,消费者可以拨打对应的运营商客服电话(中国移动10086,中国联通10010,中国电信10000)咨询当地VoLTE业务开展进度,三大运营商VoLTE短信开通方法如下: 中国移动:发送“10086”至10086,收到回复短信之后发送相关业务序号,选择4G业务,回复“4”,接下来会再收到移动的回复信息,再选择开通4G+高清语音,发送“411”,最后收到移动发来的确认短信之后回复确认信息即可开通。(依次发10086、4、411、是到10086) 中国联通:发送“DGVOLTE”至10010,再按照接下来收到的回复信息发送确认开通信息即可。中国电信:发送“KTVoLTE”至10000,收到回复短信按要求发送确认信息即可。需要注意的是,除了向运营商开通VoLTE服务之外,还需要手机终端本身支持,并且部分机型还需要在设置中单独开启相关设置项,才可以使用VoLTE服务。

    时间:2020-05-25 关键词: 语音技术 5G

  • 百度正式发布远场语音交互技术芯片

    百度正式发布远场语音交互技术芯片

    在2019年百度AI开发者大会上,百度首席技术官王海峰宣布百度正式发布远场语音交互芯片“鸿鹄”。 据介绍,鸿鹄芯片使用了HiFi4自定义指令集,双核DSP核心,平均功耗仅100mW。这款芯片是根据车规级标准打造,主要应用于车载语音交互、智能家具等场景。 另外,王海峰还在现场与华为消费者BG软件总裁王成录博士联合宣布,百度飞桨与华为麒麟达成深度合作。百度的深度学习平台“飞桨”,英文名字叫Paddle,飞桨官方支持超过70个主流的模型,包括视觉的自然语言处理的、推荐的、语言的等,目前“飞桨”学习平台,已经用在很多行业里面。

    时间:2020-05-25 关键词: 百度 语音技术

  • 脑电波转语音技术促使人机交互大升级

    脑电波转语音技术促使人机交互大升级

    1714年英国亨利米尔发明了打字机,与QWERTY键盘有着深厚的渊源。1968年12月9日,全世界第一个鼠标在美国加州斯坦福大学诞生。互联网时代鼠标、键盘的作用功不可没,是我们与计算机交互最常用的工具。鼠标、键盘的使用令操作系统更简便,交互更轻松。 2019年4月24日起,脑机接口设备将与鼠标、键盘同等高度,未来将颠覆鼠标、键盘的地位。脑电波设备并不是新奇的事物,2016年曾出现个人产品,由于意念控制器灵敏度低、使用不便而退出物台。2019年4月24日,nature上一篇《Brain signals translated into speech using artificial intelligence》关于加州大学旧金山分校神经外科实验室成功将脑电信号转换为语音信号的报道,从此脑—机接口设备将正式走向时代舞台! 早期脑机接口设备采集实验者的脑波信号,通过统计软件建模分析实验者的脑波信号,信号分析后再根据模型触动指令进行反馈交互。 而这次加州实验通过脑 - 计算机接口设备收集使用者控制嘴唇,舌头,喉部和下颌运动的神经信号,再利用深度学习算法分析、反馈,通过多次采样并建立模型,从解码上得出脑波触发了什么指令,再将数据传递给语音模块,语音模块根据指令转换成声音信号输出。 每个人脑波信号都有着细微的差别,早期脑波检测设备在操作前都要进行脑波数据的矫正才能进行操作,而加州实验室的的方法,可以为每人制定一套解析编码,而无需训练大脑去适应电脑,而是电脑去适应人脑,把不统一的转换为统一的,这就是脑机接口的初始形态,潜力非常大。 我们可以想象一下,带上脑波头盔,然后让头盔加载通用程序,然后进行纠正学习,每个人都有习惯专用的脑波头盔,信息出口却是一致的,完全可以实现全球无障碍交流。无论是什么语言,什么想法,更关键的是完全可以实现人脑意念编程。未来的编程方式将不再是敲键盘,而是面向结果的编程,告诉电脑你想要调用什么函数,实现什么样的效果,不用敲键盘,想法可以直接传送给电脑,电脑自动编码,这样的世界,软件行业的颠覆有多大。 这是一种完全颠覆整个信息社会的产品设计,应用方向,潜力非常巨大。人与电脑的交流瓶颈比人与人交流的瓶颈大得多,人与人交流语言就可以了,可是对电脑却是无法直接交流,需要一个个字敲,这个工程量太大,而且有的还不会编程不懂编程,已经严重影响信息技术的发展。用脑机接口设备,则只需要一个念头,这样的编程方式会把软件发展到什么程度,效率千百倍提升;会有更好的软件设计方式,能开发更好的人工智能,会有更好的游戏,更好的网络体系,更好的3D设计软件,更好的电路设计,更好的建筑设计等;总之这种提升是广泛而根本的,所思即所得。 未来的机器和人协作更完美,这个产品可以颠覆世界!可以想象不需要手柄就可以控制vr里面的场景,会发生什么有趣的事——潜入式的虚拟世界。 大部分人某些生理都是相同的脑波,只有部分脑波信号不同。深度学习算法可以建立一个通用型的脑波解析程序,然后随着产品的推广,自动学习更新通用程序。经过算法迭代,很快就会有非常完美的通用脑波解析器。大部分人都是只需训练一下自己的差异部分就能完美解决指令对接问题。然后就可以开始通过脑机接口设备畅游在互联网世界里。 随着人工智能、VR/AR/MR、脑机接口设备的到来,未来的生活将多姿多彩,没有音乐天赋的将被后天赋予音乐创作能力,没绘画天赋的,可以用脑机设备进行绘画,而且会非常优美漂亮,你我只需一个念头,计算机就能知道我们想做什么!还有沉浸式的VR虚拟世界等着我们去翱翔!非常期待明天的到来!想了解更多科技与编程资讯的记得关注我!未来已来,我们携手畅游美丽的智能化信息时代!

    时间:2020-05-25 关键词: 语音技术 脑电波

首页  上一页  1 2 3 4 5 6 7 下一页 尾页
发布文章

技术子站

更多

项目外包