当前位置:首页 > 公众号精选 > 架构师社区
[导读]视频是爱奇艺的核心内容,视频内容的精彩度分析,不仅关系着视频的分发,也关系着视频相关广告的投放等,比如能否将广告放在非常吸引人的点位上。所以我们非常关注能否分析出有吸引力的内容,甚至根据分析的结果,二次创造出有吸引力的内容。



分享嘉宾:刘祁跃 爱奇艺 科学家

编辑整理:龚云荷

出品平台:DataFunTalk


导读: 视频是爱奇艺的核心内容,视频内容的精彩度分析,不仅关系着视频的分发,也关系着视频相关广告的投放等,比如能否将广告放在非常吸引人的点位上。 所以我们非常关注能否分析出有吸引力的内容,甚至根据分析的结果,二次创造出有吸引力的内容。 对于吸引力,我们在思考什么是非常重要的。 这里列出三点:
  • 第一个是视频质量,比如是否清晰、镜头是否晃动、是否有无意义的内容,这是基础的质量问题。

  • 第二个是视频美学,比如色彩是否优美,构图是否好,光线明暗对比度是否好。

  • 当然,有了质量和美学还不足以说明视频是否有吸引力,大部分的视频是靠情节取胜,也就是靠视频的内容去吸引人,不管是长视频的电视剧、电影、动漫,还是横版短视频和竖版小视频,都包含着当前视频是何人何地发生何事,由这样的内容反映精彩度。精彩度是视频吸引力的第三点,也是最重要的一点。

01

方法及整体框架

1. 如何识别精彩

这就促使我们去思考,如何分析内容的精彩度,这里有几个维度:第一,内容标签,比如打斗等偏感官层面的信息或者是浪漫等偏高层语义方面的信息,这需要理解视频内容。第二方面是程度等级,比如说打斗,如果是武林高手之间的对决,相比于我们普通人之间打斗会更精彩,所以需要一个分级打分机制。还有一些信息影响到用户对视频的喜好,比如对明星、IP、剧集等的喜爱,都会影响用户对其精彩度的判断。前面这3点是人们对于视频精彩度的一个理性分析,但实际上精彩度还是较主观的看法,同一个视频,有些人觉得精彩,有些人则不觉得。一些上映之后成为收视率“黑马”的作品,在上映之前,人们没有预期到其足够精彩,上线之后,却成为爆款,这体现了对精彩度主观判断的局限性,因此我们也要考虑视频上线后的用户反馈。比如用户的播放、弹幕等行为,有些视频片段用户会反复播放,另一些则会被跳过。我们希望通过以上几个方面,构建对于精彩度的认知。

2. 精彩度分析整体技术框架

由此,我们形成如图的精彩度分析方案,该方案的适用对象较广泛,不管是对完整的剧集,还是简短的花絮,都可以适用,我们这里聚焦于对电影电视剧的片段做分析。影视剧的整体精彩度比较宏观,受参演明星,改编的小说等已知因素的影响,所以通过算法对整体做精彩度分析收益相对较小。当下我们更关注,对长视频局部剪辑片段的打分。精彩的局部片段的识别,有助于启发创作者对于局部精彩视频的思考,有利于后续创作的提升。同时,精彩片段的识别,有助于二次传播、碎片化时间的消费,以及广告的投放等。如框图所示,我们输入的是视频片段,然后进行多模态的视频特征提取,接下来分两步,一个是基于GCN的弱监督模型,另一个是基于多任务学习的监督模型。

02

视频精彩度分析算法

1. 精彩度监督模型

对于精彩度的监督模型,首先需要标注人员对视频精彩度进行打分。考虑到数据的复杂性,会充分利用多模态和时序关系去提取信息。操作中会有一些具体技巧,比如由于其标注主观性比较强,会进行噪声建模,从回归分数变成一个拟合分布。另外,评分和标签是高度相关性的,因此可以通过多模型、多任务学习的方式来进行。

2. 不同模型提取特征性能对比

这张图显示了采用不同的模型提取特征,对最终精彩度输出的影响。最初的方法是针对图片信息采取2D的CNN,再去对帧级别feature进行融合;接着考虑由时序上的3D卷积模型来提特征;然后尝试根据预训练模型来进行微调;再利用视觉+音频的多模态的信息进一步提升。

3. 精彩度分数预测

监督模型的一个分支是精彩度分数预测。对于精彩度分数,会先做人工标注,但是因为主观性偏向非常强,所以噪声较大,可信度并不高。当标注为某一个分数,那它很大概率会是以这个分数为均值的正态或偏正态分布。比如标注分数是六分,那该视频可能很大的概率是六分,但也可能会小一些的概率是五分或七分。为减少噪声影响,会对噪声做一个建模,直观的假设,将标注的分数看做一个正态分布的均值。为了满足概率积分的要求,实际上设计了一个偏正态分布。分布的方差通过理论分析+实验,来确定一个比较合适的值。有了这个分布,对于分数的回归,可以变成一个类似分类的任务,对于每一个离散值给出一个概率,这样得到对分布的预测,从而加权得到最终预测的分数。采取该策略后,我们发现对于噪声比较大的主观性标注任务还是有意义的,其它一些图片回归任务我们也用了类似方法,取得了不错的效果。

4. 看点多标签模型

接下来看第二点,关于视频内容的看点多标签。比如像打斗、爆炸,都是比较有意思的标签,可能是会吸引人的。对于不同类型的视频,看点的标签是不一样的。比如说对于偶像片来说,浪漫的标签可能非常有吸引力;对于动作片来说,可能飙车、打斗、枪战等很有吸引力。多标签模型,在近几年各领域都广泛关注,包括短视频标签、图片多标签、文本多标签等。多标签的难点,是如何对同样的信息去生成不同的标签,针对这个问题会有三个方案。第一种是利用信息不同区域对应不同的标签,可以类比目标检测。即划分图像的不同区域,用其本身及周边的信息,去预测该区域的一个标签。那第二个是层次的关系,比如从画面视觉内容来说,一男一女在西餐厅吃烛光晚餐,则需要进行性别识别、场景识别、目标检测等,同时它是一个浪漫的约会场景,所以还可以推理出上层的标签。第三个要考虑的点,是标签之间的依赖关系,有一些标签很可能经常共同出现,比如说有海滩和阳光。有一些标签之间不太容易共现,比如手机跟古装片,可能是互斥关系。当然如果能识别这是一个穿越片,就可认为这两个标签共现是比较和谐的。在很多看点多标签之间,有这种互相依赖的关系,如何去表达标签的关系有很多方式,比如说CNN和RNN结合,通过RNN去显示地表达标签之间的依赖。那其它一些方式,比如通过标签embedding,希望其去影响分类器,而对于这个embedding,可能会通过图的拓扑结构,根据相似的邻域标签信息来修改embedding,从而让这个embedding包含标签之间的关系,再将这个embedding以某种方式去影响分类器。还有一种方式,就是训练时找到一个嵌入的空间,把ground truth的多标签投射到嵌入空间,利用多标签去生成一个feature,同时对于待处理的数据也生成一个feature,要求这两个feature要尽可能接近,之间的某种距离可以作为loss之一。这样,嵌入空间的音视频feature,即表达了多标签的关系,可以认为是对多标签的编码,而后续的分类过程,就是对多标签的解码。

5. 多任务学习模型

评分和看点标签这两个模型高度相关,所以用了多任务学习。因为业务有非常多的需求,各需求之间往往有相关性,经常存在多任务学习的可能性。另外,海量数据下如何节省资源,也是非常现实的需求。如果我们通过多任务学习能够降低资源消耗,更好的体现相关性,甚至还有可能提升指标,那会非常有动力去做多任务学习。我们现在的架构,底层共享网络,上层建立评分和标签网络。训练策略方面没有标准化方式,采取一些经验性的方式,动态调节权重,比如根据每一路分支loss下降的情况进行调整,或是动态分析每路分支的运行情况,修改训练频次,保持一致的收敛速度。

6. 弱监督模型

接下来我们再看一下,弱监督模型这一块。我们有很多用户观影行为数据,是否可用于拟合对分数的标注。比如观看行为,观看次数越高,一般也越精彩。但是不同视频本身热度不一样,同一个视频的不同部分,单纯看播放量也不公平,因为很多用户不会看完整个视频,一般前面的片段播放量会更高。所以,直接将用户行为作为精彩度的度量,虽然相对于人工标注的分数更能体现用户的实际偏好,但还是存在非常多的噪声。为了减少噪声影响,要做很多数据预处理,比如尽量避免用区分度不大的数据。除了关心绝对精彩度,也关心相对大小,即一个视频中,哪些内容相对其余部分更有吸引力。我们往往会从一个视频当中,筛选相对精彩的内容,去做二次创作、投放广告等。在这样的诉求下,可以采用Ranking思想去设计Loss。因为噪声较大,会给label计算置信度,比如可以用相似的样本来做平滑。这里我们还可以利用图,设计图卷积过滤高频信息更新样本feature,实现更好的聚类,并利用更新后的相近节点来修改样本置信度,最终有效提升弱监督模型效果。

03
应用

1. 前情提要

前情提要是精彩度相关的一个应用,运用算法对每一集识别出精彩片段,通过一定策略剪辑。虽然前景提要本身是一个用户产品,但可以在上面投放广告,并且处于片头这个黄金位置,实现了很好的商业价值。

2. 拆条

第二个应用是长视频拆条。做一个比较好的拆条,要从长视频当中选出比较精彩的部分,同时满足切分方式的合理性。可以方便投放在站内或者是站外的各种渠道上,这样可利用用户的碎片化时间,一方面形成对短内容的消费,一方面也能够起到短带长的作用。所以要做拆条的话,不仅仅需要对内容本身的理解,也需要对精彩度做分析。

3. 自动生成封面

智能封面图生成,目前线上的影视剧封面,采用自动生成动态图的方式。对视频中精彩片段进行打分,并需要保证片段的多样性和代表性。对于图片也会有精彩度、美学等分析。不管是静态封面图还是动态封面图,都可以生成多个,然后去做个性化的分发,并通过线上的反馈来调整生成封面图的策略。

4. 片段打分

还有一个应用,是直接对片段的精彩度打分,有利于冷启动阶段的分发;也能给创作者提供参考。

04
总结和展望

总结一下,当大家思考内容平台的时候,会非常关注内容是否精彩。针对精彩度分析,不只是一个单一的技术,更是一个综合性的解决策略。可能会利用各种各样的垂直算法、产品策略,工程策略等,最终形成可行方案。精彩度方案已被广泛应用,并会从质量和效率两个方面的提升来做评价。由于精彩度分析任务的特点,如需要用到海量数据、具有较强主观性、有很多用户行为数据等,会牵涉到很多技术方向,像弱监督、多任务、多标签、图等等。此类偏主观的分析,用户标准、用户行为以及先验的外部信息,这三个维度都非常重要。

后续的展望,第一方面是在特征提取上,尽量去融合更多的信息,包括文本的信息,比如台词、弹幕等。第二个是在模型上,比如怎么通过半监督的方式,把有标注和无标注的数据,放到一个统一框架中来。第三点是如何利用各种垂直识别,不管是底层的识别,还是偏上层的推理形成高层语义,需要能把这些信息利用起来,从而知道为什么精彩,作出可解释的精彩度评价。

嘉宾介绍:

刘祁跃

爱奇艺 | 科学家

刘祁跃,爱奇艺科学家,智能平台部视频分析组负责人。负责对视频内容的理解和生成,并应用到广告、创作、分发等业务。

特别推荐一个分享架构+算法的优质内容,还没关注的小伙伴,可以长按关注一下:

长按订阅更多精彩▼

如有收获,点个在看,诚挚感谢

免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

机器人技术将与移动互联网、物联网、大数据、云计算、人工智能等新一代数字技术进一步融合,特别是5G技术将使工业机器人成为工业智能制造体系的一部分,通过实时传输数据提高效率。

关键字: 机器人 医疗机器人 互联网

在这个互联网时代我们的数据越来越多但也越来越透明,想不明白自己的手机号和姓名是怎么泄露的,每天都会有各种广告推销打给自己,也曾听说谁谁谁的照片不知道为何被外泄讨论。数据存储和安全管理已经成为企业运营和个人生活中不可或缺的...

关键字: 铁威马 互联网 nas网络存储

SAP(思爱普)近日发出的裁员计划,不仅涉及全球范围内约8000个职位,更是在中国区造成了近1500名正式员工和合同工不续的情况。

关键字: 软件 互联网

最近总是出现iPhone16和ipad的概念新闻,以前为了跟风也会更换手机,后来是因为职业原因拍摄大量视频照片占据手机空间而不得已换了一部又一部手机。但慢慢地我发现,想要查找几年前的视频总得翻找之前的手机,流程繁杂又拖沓...

关键字: NAS 互联网 存储

近日,国内领先的在线旅行服务平台去哪儿宣布完成鸿蒙原生应用Beta版本开发,成为旅行行业中首批完成Beta版开发的应用之一,该版本已经实现了机票预订、支付、服务等功能,将为用户提供更为便捷、智能的旅行体验。这不仅为旅行行...

关键字: 鸿蒙 互联网 智慧旅行

BNC接口是一种常见的电子连接器,广泛应用于视频和音频设备之间的信号传输。它具有简单、可靠且易于使用的特点,被广泛用于监控领域、广播电视行业和电子测试设备中。

关键字: sdi接口 bnc 视频

随着科技的飞速发展,我们日常生活的方方面面都在逐渐被智能化、网络化所渗透。物联网(Internet of Things, IoT)作为一项将传统物品与互联网相结合的技术,正在引领着一个全新的技术革命。从家用电器到工业制造...

关键字: 物联网 互联网 IoT

3月12日是万维网(World Wide Web,互联网)创建35周年的日子,让我们来了解一下万维网发明者蒂姆·伯纳斯-李(Tim Berners-Lee)对网络和未来发展三点预测。

关键字: 互联网 伯纳斯李 AI助理 AI

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据

近日,某厂一名员工爆料称,由于Bug事故,公司要求他返还去年发放的年终奖,共计4万余元;如果逾期不还,将以每天万分之5的利息收取滞纳金,即每天20元左右;甚至公司HR还扬言,如果三个月内仍不还,就免费开除。

关键字: 程序员 互联网
关闭
关闭