当前位置:首页 > 消费电子 > 消费电子
[导读]10月18日,记者在“心目图书馆”小程序中试听了上述利用晓晓的声音合成的有声书《德国少年儿童百科知识全书——啮齿动物》这一本的开头部分,发现声音相对一般的机器人声音自然,但在一些断句、停顿上仍然需要提升。

10月18日,记者在“心目图书馆”小程序中试听了上述利用晓晓的声音合成的有声书《德国少年儿童百科知识全书——啮齿动物》这一本的开头部分,发现声音相对一般的机器人声音自然,但在一些断句、停顿上仍然需要提升。

2018年10月,微软发布了基于深度神经网络的文本到语音(text-to-speech,以下简称“TTS”)分析运行系统。10月15日是国际盲人节,上述合成的有声书在这天上传至心目图书馆——一个云端的图书馆——可以接触到全国105所盲校的学生。该技术发布一年,在一些场景进行了落地,其中帮助视障人群成为非常关键的应用场景。

在过去,微软和盲人公益组织红丹丹视障文化服务中心(以下简称“红丹丹”)进行了合作,红丹丹将目前盲人群体所缺乏的资源书籍(百科知识、文学类、教材等)挑选出,微软通过神经网络合成语音“晓晓”来合成有声书。

 

在此之前的10月9日,微软亚洲互联网工程院人工智能语音组资深产品总监丁秉公在接受《中国经营报》在内的媒体记者采访时介绍称,这样的书原本需要人来录音,要找到录音的人和录音棚,耗时耗力,如果要录高质量的声音需要花费更多的成本和时间。但是如果通过TTS合成方式,可以7乘24小时合成,只要有文本内容,就可以源源不断地输出有声内容。“这打破了有声内容生产的壁垒。这个对视障人士群体来说特别有意义,虽然他们可以在市面上听到一些有声书,但是数量远远少于文本数量,如果我们可以自动地把文本转化成有声,可以极大地丰富视障朋友有声阅读的来源。”

成本更低

在具体的成本上,据微软方面介绍,一本100页左右的纸质书籍,译成盲文书籍需要400~500页,制作成本在80~100元左右,成本相对较高。而通过TTS合成的有声书,平均一本的价格在9000元左右。但一本有声书做出来之后进行云端传输,覆盖到全国的盲校1万多个学生,可能一本书成本平摊下来才不到1元钱,且可以做到无限量广域传播。

市面上充斥着各式各样的有声书,该项目合成的有声书相比前者有什么区别?

对此,红丹丹执行主任曾鑫对记者解释,这些有声书根据盲校孩子和老师的需求来做,不是市面上已有的名著或者通俗小说类,而更多聚焦在目前市面上缺少的针对视障学生学习类或者成长类的有声书籍。“这种书在市场上很难找到有声版甚至是电子版,所以这方面很有需求。另外,我们也会根据青年人的学习需求,制作法律、公务员的考试教材等。市面上很难买到这类有声教材,我们会通过这样的技术手段帮学生以最快速度完成转换,形成有声书。”曾鑫说道。

据微软人工智能女声晓晓语音产品负责人刘越颖介绍,该技术目前可以提供两种场景下的服务:一种是实时的合成,基本上是毫秒量级的,几百毫秒就能够反馈,一般用在智能对话、语音助理等场景。另一种是非实时的合成场景,比如一整本有声书的长文本合成,大概需要总音频时长的1/3。一个小时的音频,可能十几分钟二十分钟就能合成出来,如果是人工录音,可能录制一个小时的音频,反复出错,需要不断地去录和重复,三个小时才能录出来一个小时的音频成品,而机器十几分钟就可以,这就将人力三个小时的录音节省到十几分钟,效率大大提升。

曾鑫也进行了补充:“做有声书的成本上,我们作为一个公益机构,可能不像商业机构。需要动用一些志愿者的资源来做,一本有声书的录制,对于我们而言最快的速度也需要花三个月才能完成。时间成本会很长,还包括人员的协调成本,现在用的这个技术大概几十秒钟或几分钟就能完成一本有声书的制作,这个成本肯定是没法比的。”

声音力图更自然

微软语音、自然语言与机器翻译的技术负责人黄学东曾在其文章中指出,TTS系统使用了深度神经网络,来克服传统“文本到语音”系统在匹配口语的重读和语调(称为韵律结构),以及将语音单元合成为计算机音频方面的局限性。这使得声音更加自然。

这些有声书的语音来自微软的声音品牌“晓晓”,据丁秉公介绍,晓晓是第一个基于深度神经网络做的声音。他表示,微软平台上的声音品牌很多,最初合成的声音听起来非常不自然,一听就知道它是机器人,长时间听容易导致疲惫,经过几年发展,晓晓的声音被研发出来,达到相对自然的程度。

黄学东也指出,传统的“文本到语音”系统将韵律结构分解成由独立模型控制的语言分析和声学预测步骤。这将导致合成音频变得沉闷无趣。而“文本到语音”系统可以同时执行韵律预测和声音合成,其结果更加流畅自然。

此外,丁秉公还表示,从去年11月到今年,微软对该项技术进行不断改进,调优性能,提高计算力,从非实时转化声音到变为实时,立足细节打磨声音质量,下了很大功夫。“去年我们推出这个声音时,声音很好听,但细节还有很多提升的潜力,比如当时语音说双语不够好,如今已经很自然了。我们正在逐渐地拔高声音的效果。”

众所周知,读文章时有自然的换气和停顿,韵律自然,听起来不会累。”微软希望通过技术让有声书快速生成,通过技术做不同声音和不同风格以匹配更多书籍的类型。丁秉公向记者透露,目前该系统支持新闻、情感故事、声音助理、客服等场景,不同场景下的声音力图做到自然。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭