当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 前言 人工智能(AI)、深度学习和自然语言处理将成为新一代流媒体行业的关键技术。从生产到消费的各个阶段,它们都将产生非常重大的影响。毫无疑问,随着人工智能在许多不同行业的逐步深入,它也将

前言

人工智能(AI)、深度学习和自然语言处理将成为新一代流媒体行业的关键技术。从生产到消费的各个阶段,它们都将产生非常重大的影响。毫无疑问,随着人工智能在许多不同行业的逐步深入,它也将被更广泛地应用于流媒体领域。

近年来,一些公司已经取得了重要的进展,包括Google云视频智能API,Conviva的视频智能架构,NVIDIA DLA和IBM Watson技术。所有这些技术都在不同程度上部署了AI,尤其是在云计算领域。另外,我们很快也会看到AI被应用于流媒体的其他方面。

人工智能可以用来取代很多人力资源,甚至可以执行繁琐、重复和耗时的任务,比如工作量巨大的内容和数据管理。目前,人工智能被用于视频分析处理、网络和技术故障诊断以及广告推广等很多方面。当然,还存在很多尚未开发的潜在用途。

智能跟踪摄像机

目前市场上,有一些运动跟踪摄像机系统可以自动跟踪移动的物体,但它们都必须在被跟踪物体上安放发射器或者传感器,而人工智能的出现将会很好地解决这一问题。无需额外的传感器,人工智能也能实现在不同场合跟踪拍摄演讲者,运动员,或者艺人等移动目标。

其中,深度学习算法将会被用来分析视频,判断人的行为以及周围环境,从而使目标完美地出现在镜头中。现在来说,这项技术已经使无人机可以非常准确地追踪运动员冲刺的场景。如图1 所示,展示的是全自动体育运动追踪无人机AirDog。

图1 AirDog全自动体育运动追踪无人机[1]

视频帧合成

视频的生成与数学之间有着紧密的联系。视频成像的关键因素——帧率、焦距、光圈和构图是基于比例的,了解它们背后的数学知识将会有很大的帮助。比如,“黄金比例”可以用于深度学习的视觉感知算法。因此,人工智能相机能够自动捕捉最美观的视频图像,而不是由人来手动完成。近年来,生成对抗式网络(GAN)的出现,实现了生成质量极高、以假乱真的图像[2]。如图2所示,是NVIDIA的最新成果——GAN生成的高分辨率1024×1024图像。

除了生成高质量的图像,人工智能也给视频帧合成带来了惊人的效果。例如ICLR 2016的论文[3],通过生成对抗式网络,成功实现了视频的预测。同样地,在超帧率技术方面,深度学习算法已经超过了传统的插帧算法,有效地提升了视频质量。传统算法上,超帧率往往是运用运动补偿技术,首先估计出运动矢量,然后通过补偿插值来生成中间帧,从而提高视频的帧率。但是,生成视频帧的质量受到运动矢量准确度的极大影响。而最新出现在ICCV 2017中的论文[4],采用端对端式的深度卷积神经网络,将预测运动信息和补偿插帧这两个步骤合为一体,直接生成了中间帧,如图3所示。由此看来,人工智能正在逐步改进、优化、甚至超越传统的视频处理算法。

实时视频切换

深度学习算法能够实现自动处理和生成视频,这也将有助于将AI引入实时视频切换。智能视频软件将通过分析面部表情、手势、衣服、身体、颜色和其他成像数据,选择最佳的相机镜头或角度,从而更好的跟踪拍摄整个事件。通过分析视频内容,将会确定镜头远近的选择,关键人物和题材的选取,从而自然流畅地进行视频切换。

这些视频分析的功能将有助于实现一个完全智能的实时视频切换系统。在不久的将来,它最终将会取代现场活动技术总监的角色。而基于计算机视觉的视频切换器可以独立工作在嵌入式系统或设备上,甚至可以利用网络化的云服务器。

流媒体码率自适应

传统的流媒体码率自适应方法面临着两大难题:复杂多变的网络环境和QoE指标。而在今年的SIGCOMM上,MIT CSAIL的一支研究团队提出了基于神经网络优化码率的自适应算法Pensieve[5],用来提高媒体传输质量。

文章结果表明,与传统方法相比,Pensieve能平均提升QoE高达12%-25%。虽然该模型还比较简单,但给我们开辟了一个新的思路,可以将深度学习的方法用于流媒体传输优化上。由此可见,深度学习将会给传统的流媒体技术带来巨大的变革。

音频分析

自然语言处理(NLP)能够为会议、讲座或者其他场合提供自动的现场转录、翻译、口译、字幕以及音频描述技术。这将给很多跨国企业,甚至是政府部门在发布会或者其他交流场合提供多语言的技术支持。

另外,自然语言处理可以实现社交媒体监控。通过监控在线对话和情绪分析,可以实时跟踪观众反应。这将有助于商家及时调整内容,从而满足观众的喜好。同时,自然语言算法将会从数据中捕获重要话题和关键词,然后通过编译截屏和高亮剪辑等方式达到营销的目的,也可自动上传到社交媒体上。而在网络直播领域,音频检测也可以起到督查监控的作用。通过自然语言算法,可以自动分析检测音频内容,从而实时监控直播状态,及时关闭低俗内容。

视频分析和数据提取

随着越来越多的公司参与到流媒体服务中,视频生成的数据量正以指数级增长。从这些数据中获得的信息将会远远超过人类手动提取的信息。人工智能将通过对视频的分析处理,生成标签、类别和描述,自动提取视频中的数据。这将有利于视频内容的分析、理解和管理,从而实现智能化的广告投放等业务。

另外,对于城市的交通、安保来说,视频大数据分析承担了重要的作用。例如阿里云在杭州打造的城市大脑,通过对道路视频的分析检测,智能实时地改变红绿灯的策略,大大改善了交通状况。而在这个过程中,我们需要在复杂环境下对人、车、物的多重特征的信息提取,让计算机“看到”并且“领会”视频中的信息,这将是人工智能给我们带来的巨大改变。

总结

对于流媒体行业来说,人工智能将会是一个十分强大的工具。目前,在流媒体服务中人工智能的作用初步得到体现,还有很大的空间值得我们去开发。从以上谈及的一些例子中我们可以看出,人工智能可以大幅提升流媒体服务的吸引力和效率,同时也大大节省了从生产到发布各个环节的成本。人工智能将推动内容所有者,媒体生产商和广告商进入一个新的时代,创造出智能而优质的视频内容。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭