当前位置:首页 > 厂商动态 > 厂商文章
[导读]9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。

9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。

语音AI的核心是让机器听懂人话、并能开口说话,语音合成和语音识别技术是实现这些目标的基础。但由于过去几年业界在语音模型上未能有突破性创新,高精度的语音交互任务长期依赖云端算力,造成了语音指令处理不可避免的延时等问题。

此次达摩院率先在算法模型上实现创新,推出E2E-ASR端到端语音识别技术及全新的端上KAN-TTS语音合成技术,首次在移动终端上实现接近云端的语音识别与合成效果。

据介绍,在语音识别方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架,提升计算效率的同时,还将高难度场景中的语音识别错误率降低近三成。达摩院研发的语音识别系统,可纯离线、低成本部署在手机端,原型系统不到40MB,识别效果媲美超过100GB的达摩院上一代DFSMN-CTC云端系统。

继去年发布仿真率可达97%的自研KAN-TTS语音合成模型后,达摩院此次在移动端实现了对语音模型的“大瘦身”,相比云端,端上模型大小压缩了101倍,计算量压缩35倍,通过终端算力即可快速复现逼近真人的语音。例如,高德地图近期发布了利用达摩院全新语音技术合成的李佳琦、林志玲、小团团等明星导航语音包,语音效果较之前更自然,断网状态下语音导航也不会中断。

达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验

达摩院语音实验室负责人鄢志杰表示,“在终端处理语音任务一直是学术界和工业界的难题,达摩院最新的语音技术有效释放了终端设备的能力,让终端也能轻松处理语音任务,我们相信,在终端算力和云端算力的协同支撑下,未来语音交互将无处不在。”

过去几年,阿里语音AI取得了一系列突破。2019年,阿里语音AI入选《麻省理工评论》“全球十大突破性技术”,是唯一上榜的中国科技公司;今年7月IDC发布的《中国AI云服务市场半年度研究报告》显示,阿里语音AI以44%的市场份额,在云上语音AI市场中位居第一。

达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

在2024玄铁生态大会,探索RISC-V的AI能力、高性能边界和无限应用可能

关键字: RISC-V 玄铁 达摩院

业内消息,网传阿里达摩院裁撤量子实验室,实验室以及仪器设备均捐给浙大。近日,达摩院回应称,为了进一步推动量子科技协同发展,达摩院联合浙江大学发展量子科技,达摩院将量子实验室及可移交的量子实验仪器设备捐赠予浙江大学,并向其...

关键字: 阿里 达摩院 量子实验室 裁员

智能音箱是一种集成了语音识别、语音合成、智能问答等多种人工智能技术的设备,它能够实现语音交互、智能家居控制、娱乐等多种功能,为人们带来更加智能、便捷的生活体验。以下是智能音箱的主要功能:

关键字: 智能音箱 语音交互

1月11日,达摩院2023十大科技趋势发布,生成式AI、Chiplet模块化设计封装、全新云计算体系架构等技术入选。达摩院认为,全球科技日趋显现出交叉融合发展的新态势,尤其在信息与通信技术(ICT)领域酝酿的新裂变,将为...

关键字: 达摩院 芯片 云计算

“数字人不只是皮肤人!”11月5日云栖大会上,阿里巴巴集团研究员李小龙透露,正在联合研发由数字人全面接管的交互引擎。项目集合达摩院NLP,语音,视觉,3D构建驱动及大模型领域团队,和天猫精灵AliGenie交互系统专家。...

关键字: 阿里云 达摩院 天猫精灵

语音交互:对交互效率提升意义重大,理解能力推动大规模落地。语音交互的无 接触属性与自然性凸显其对提升交互效率的意义,在数十年的发展历程中,2000 年以 来语音理解能力的发展推动语音交互以大规模嵌入产品进入商业市场。

关键字: 智能家居 语音交互 语音助手

(全球TMT2022年5月28日讯)奇瑞汽车全新旗舰产品瑞虎8 PRO正式上市。新车搭载了奇瑞全新一代"Lion 5.0 AI科技智慧座舱",率先采用基于地平线征程3芯片打造的Horizon Halo®️...

关键字: 芯片 奇瑞 多模 语音交互

12月2日,达摩院深度语言模型体系AliceMind发布中文社区首个表格预训练模型SDCUP,该模型在全球权威表格数据集WikiSQL、SQuALL上取得了业界最优效果,且模型和训练代码均已对外开源。

关键字: 达摩院 数据库 表格

摘 要 :针对家庭用药的储藏管理和安全使用等问题,提出一种智能家用医药箱控制系统设计方案。该设计以树莓派和 STM32 为核心,融合语音交互和图像识别技术,实现了对家庭药物的储藏管理、分类和使用指导。使用树莓派控制摄像头...

关键字: 智能家用医药箱 语音交互 图像识别 物联网技术 药物智能储藏 树莓派

智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。语音交互的完整流程,如下图所示。通常,根据距离远近语音交互场景可分为两种:近场语音场景:通常通...

关键字: 语音交互
关闭
关闭