当前位置:首页 > 消费电子 > 消费电子
[导读]10月18日,记者在“心目图书馆”小程序中试听了上述利用晓晓的声音合成的有声书《德国少年儿童百科知识全书——啮齿动物》这一本的开头部分,发现声音相对一般的机器人声音自然,但在一些断句、停顿上仍然需要提升。

10月18日,记者在“心目图书馆”小程序中试听了上述利用晓晓的声音合成的有声书《德国少年儿童百科知识全书——啮齿动物》这一本的开头部分,发现声音相对一般的机器人声音自然,但在一些断句、停顿上仍然需要提升。

2018年10月,微软发布了基于深度神经网络的文本到语音(text-to-speech,以下简称“TTS”)分析运行系统。10月15日是国际盲人节,上述合成的有声书在这天上传至心目图书馆——一个云端的图书馆——可以接触到全国105所盲校的学生。该技术发布一年,在一些场景进行了落地,其中帮助视障人群成为非常关键的应用场景。

在过去,微软和盲人公益组织红丹丹视障文化服务中心(以下简称“红丹丹”)进行了合作,红丹丹将目前盲人群体所缺乏的资源书籍(百科知识、文学类、教材等)挑选出,微软通过神经网络合成语音“晓晓”来合成有声书。

 

在此之前的10月9日,微软亚洲互联网工程院人工智能语音组资深产品总监丁秉公在接受《中国经营报》在内的媒体记者采访时介绍称,这样的书原本需要人来录音,要找到录音的人和录音棚,耗时耗力,如果要录高质量的声音需要花费更多的成本和时间。但是如果通过TTS合成方式,可以7乘24小时合成,只要有文本内容,就可以源源不断地输出有声内容。“这打破了有声内容生产的壁垒。这个对视障人士群体来说特别有意义,虽然他们可以在市面上听到一些有声书,但是数量远远少于文本数量,如果我们可以自动地把文本转化成有声,可以极大地丰富视障朋友有声阅读的来源。”

成本更低

在具体的成本上,据微软方面介绍,一本100页左右的纸质书籍,译成盲文书籍需要400~500页,制作成本在80~100元左右,成本相对较高。而通过TTS合成的有声书,平均一本的价格在9000元左右。但一本有声书做出来之后进行云端传输,覆盖到全国的盲校1万多个学生,可能一本书成本平摊下来才不到1元钱,且可以做到无限量广域传播。

市面上充斥着各式各样的有声书,该项目合成的有声书相比前者有什么区别?

对此,红丹丹执行主任曾鑫对记者解释,这些有声书根据盲校孩子和老师的需求来做,不是市面上已有的名著或者通俗小说类,而更多聚焦在目前市面上缺少的针对视障学生学习类或者成长类的有声书籍。“这种书在市场上很难找到有声版甚至是电子版,所以这方面很有需求。另外,我们也会根据青年人的学习需求,制作法律、公务员的考试教材等。市面上很难买到这类有声教材,我们会通过这样的技术手段帮学生以最快速度完成转换,形成有声书。”曾鑫说道。

据微软人工智能女声晓晓语音产品负责人刘越颖介绍,该技术目前可以提供两种场景下的服务:一种是实时的合成,基本上是毫秒量级的,几百毫秒就能够反馈,一般用在智能对话、语音助理等场景。另一种是非实时的合成场景,比如一整本有声书的长文本合成,大概需要总音频时长的1/3。一个小时的音频,可能十几分钟二十分钟就能合成出来,如果是人工录音,可能录制一个小时的音频,反复出错,需要不断地去录和重复,三个小时才能录出来一个小时的音频成品,而机器十几分钟就可以,这就将人力三个小时的录音节省到十几分钟,效率大大提升。

曾鑫也进行了补充:“做有声书的成本上,我们作为一个公益机构,可能不像商业机构。需要动用一些志愿者的资源来做,一本有声书的录制,对于我们而言最快的速度也需要花三个月才能完成。时间成本会很长,还包括人员的协调成本,现在用的这个技术大概几十秒钟或几分钟就能完成一本有声书的制作,这个成本肯定是没法比的。”

声音力图更自然

微软语音、自然语言与机器翻译的技术负责人黄学东曾在其文章中指出,TTS系统使用了深度神经网络,来克服传统“文本到语音”系统在匹配口语的重读和语调(称为韵律结构),以及将语音单元合成为计算机音频方面的局限性。这使得声音更加自然。

这些有声书的语音来自微软的声音品牌“晓晓”,据丁秉公介绍,晓晓是第一个基于深度神经网络做的声音。他表示,微软平台上的声音品牌很多,最初合成的声音听起来非常不自然,一听就知道它是机器人,长时间听容易导致疲惫,经过几年发展,晓晓的声音被研发出来,达到相对自然的程度。

黄学东也指出,传统的“文本到语音”系统将韵律结构分解成由独立模型控制的语言分析和声学预测步骤。这将导致合成音频变得沉闷无趣。而“文本到语音”系统可以同时执行韵律预测和声音合成,其结果更加流畅自然。

此外,丁秉公还表示,从去年11月到今年,微软对该项技术进行不断改进,调优性能,提高计算力,从非实时转化声音到变为实时,立足细节打磨声音质量,下了很大功夫。“去年我们推出这个声音时,声音很好听,但细节还有很多提升的潜力,比如当时语音说双语不够好,如今已经很自然了。我们正在逐渐地拔高声音的效果。”

众所周知,读文章时有自然的换气和停顿,韵律自然,听起来不会累。”微软希望通过技术让有声书快速生成,通过技术做不同声音和不同风格以匹配更多书籍的类型。丁秉公向记者透露,目前该系统支持新闻、情感故事、声音助理、客服等场景,不同场景下的声音力图做到自然。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

4月21日消息,Meta发布超级彪悍的大语言模型Llama 3之后,微软也很快推出了自己的新一代WizardLM2 8x22B,号称迄今最强大,完全超越Claude 3 Opus&Sonnet、GPT-4等竞品,而且开源...

关键字: 微软 AI 机器AI 比尔盖茨

近日媒体Business Insider透露称,微软目前正在疯狂囤货GPU,目标在2024年12月前达到180万片。微软本次采购的 GPU 主要来自英伟达公司,不过微软也计划采购 AMD 等其它公司的 GPU 进行扩充。

关键字: 微软 GPU

业内消息,微软公司宣布将向阿联酋顶级人工智能公司G42投资15亿美元,以支持这家总部位于阿布扎比的公司缩减在中国业务的承诺。此前该公司表示将减少在中国的业务,并承诺投资于主要的西方市场。

关键字: 微软 G42

4月17日消息,近日微软硬件设计领域的重量级人物、Surface设计团队负责人Ralf Groene在领英上发帖宣布退休。

关键字: 微软 AI 机器AI 比尔盖茨

英国竞争与市场管理局(CMA)日前表示,对美国科技公司可能会操纵全球AI市场感到担忧。

关键字: AI 谷歌 苹果 微软 Meta

英特尔近日向媒体透露,微软的Copilot AI将很快运行在本地PC上,而不是依赖云端。

关键字: 英特尔 微软 Copilot AI

因为在AI上掌握先发优势,微软老树开新花,成为科技界当红明星。它的市值已经达到3.2万亿美元,是全球市值最高的企业。

关键字: 谷歌 苹果 AI 微软 OpenAI

融入AI功能的聊天机器人助手如今被各种组织用于节省时间和提高生产力,是企业寻求采用生成式AI最容易实现的成果之一。

关键字: 微软 copilots AI机器人

你也许听过“Magnificent Seven”的大名。没听过?无妨,它指的是2023年美股市值最高的7家企业,也就是微软、苹果、英伟达、Alphabet、亚马逊、Meta、特斯拉。

关键字: 微软 苹果 英伟达 Alphabet 亚马逊 Meta 特斯拉

埃隆·马斯克日前起诉OpenAI及其 CEO萨姆·奥特曼违反创始协议。他在诉讼中声称,OpenAI在他退出之后已经将公司结构转变为一家营利性公司,并已经转变为“微软事实上的闭源子公司”,公然违反了其创始协议。

关键字: 马斯克 奥特曼 OpenAI 特斯拉 微软
关闭
关闭