当前位置:首页 > > 充电吧
[导读]刚刚火了没几年的主播这一职业,已经面临沦陷的危险,当然,沦陷的不只是主播。11月7日,在第五届世界互联网大会上,惊现全球首个「AI合成主播」,AI合成主播可以模仿真实主播的音容笑貌,就连在发布会现场的

刚刚火了没几年的主播这一职业,已经面临沦陷的危险,当然,沦陷的不只是主播。

11月7日,在第五届世界互联网大会上,惊现全球首个「AI合成主播」,AI合成主播可以模仿真实主播的音容笑貌,就连在发布会现场的主持人也戏称,“让一个真实主播主持一个「AI合成主播」的发布会,向世人宣布合成主播的强大,是需要很大勇气的”。

图片来源:新华社

那么,究竟什么是「AI合成主播」呢?

新华社为新闻团队找来AI主播

「AI合成主播」是新华社新媒体中心与搜狗公司为了提升新闻视频生产效率而研发的人工智能产品。AI合成主播只需要输入文字或语音文本,就可以实时高效输出音视频合成效果,获得实时的播报视频。值得注意的是,AI合成主播不仅能用和真人一样的声音进行新闻或节目播报,连唇形、面部表情也能够吻合。

搜狗CEO王小川也表示,“由真人主播面对镜头录制一段播报新闻视频,「搜狗分身」技术凭借这段视频,就能将真人主播的声音、唇形、表情动作等特征进行提取,然后再通过语音合成、唇形合成、表情合成以及深度学习等技术,克隆出具备和真人主播一样播报能力的AI合成主播。只需要提供文字,AI合成主播就能准确无误的像真人主播一样播出新闻。”

值得注意的是,这并不是新华社首次在新闻媒体领域引入人工智能技术,早在2015年,新华社就推出可以批量编写新闻的写作机器人“快笔小新”,据了解,这一机器人已经在体育、财经领域得到应用;同年,新华社组建了国内首个新闻无人机编队,用于新闻航拍;2017年12月,新华社又推出媒体大脑(智能媒体生产平台),并在今年6月推出媒体大脑2.0。而此次与搜狗公司共同研发的「AI合成主播」也将是新华社在智媒体时代的又一次尝试,新华社副社长刘思扬在发布会现场也表示,“此举将大幅压缩新闻播报视频的后期制作成本。从今天开始,新华社AI合成主播将正式上岗,成为新华社报道队伍中新的一员。”

AI合成主播的“分身术”

此次现身的AI合成主播的亮点在于其完美的“分身术”。其实在AI合成主播出现之前已经有诸如语音类的智能音箱、虚拟的全息影像等技术模态出现,而AI合成主播的核心技术是搜狗分身技术。

搜狗分身技术是搜狗人工智能推出的多模态合成技术,可以基于少量真实音视频数据,快速迁移生成虚拟的分身模型。使用时输入一段文本,即可生成与真人无异的同步音视频。

简单来讲,AI合成主播主要有两大核心技术支撑:通过人工智能技术,采集人的面部表情并标签化,把那个根据语义合成表情;通过机器学习自动生成仿真语音。而这两大核心技术也正是基于搜狗语音合成和图像生成的两大引擎。

在语音合成引擎中,基于用户少量音频数据,使用搜狗个性化语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联;

在图像生成引擎中,使用搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,最终生成输出分身视频。

通过这项技术,不仅可以合成AI主播,甚至还可以批量复制无数个风格各异的人类形象,用于新闻播报、虚拟教师、虚拟医生、虚拟客服等诸多行业,提升不同行业和职业的信息生产传播效率。

由此,认为,新华社引入AI合成主播很可能只是一个开始,未来各行业中都会引入类似虚拟助手,而在未来这些重复性工作被取代后,在这类工作中,人类更多可能会充当两类角色:一类是培训师的角色,为这些虚拟助手提供形象及语音原型,为虚拟助手提供更多内容素材,提升虚拟助手的精准度和工作效率;另外一类是监控及维护工作,在机器发生错误或宕机时人为做出及时调整,以加强机器的容错率。

“分身术”的两大难点

据了解,在AI合成主播的构建中,即使拥有图像处理和语音处理两类技术,仍然存在两个难点:

高逼真度。以语音技术为例,苹果的Siri早在iPhone4S中就有应用,而之所以一直未能得到认可,是因为其早期版本的识别率低,另外,“机器口音”太重也使得交互体验大打折扣。而随着近年来语音技术的进步,语音识别率不断突破,现在主流语音系统的识别能力都能达到98%以上,搜狗在今年的Blizzard Challenge 2018(语音合成国际大赛)中获得可懂度和语音停顿两项子任务全球第一;另外,此次应用的搜狗分身技术能够自动生成语音、表情、唇动等信息完全一致的自然视频,据搜狗官方称,相关视频已达到商用级别,在业内尚属首次;

低成本个性化定制。当下要想生成一个稳定、高精度的AI模型,仍需要搜集大量数据,对AI模型进行训练。搜狗官方表示,搜狗分身仅需使用少量用户真实音视频数据,即可快速定制出高逼真度的分身模型。

分身术与虚拟世界

目前,语音技术及图像处理技术带来了拥有强交互能力的虚拟助手。试想,未来我们的生活中可能不止有智能音箱、智能手机,更可能有一个随叫随到的虚拟助手,而此次在互联网大会上出现的「搜狗分身术」可以理解为为这样的虚拟助手的出现提供了部分技术支持。

在渐渐触摸到虚拟世界的边界时,未来也可能会出现更多颠覆性技术和形态。


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭