评估与测试体系是音视频通话技术的质量关键

[导读] 腾讯音视频实验室于2016年成立，它专注于音视频的前瞻性研究，依托于QQ的海量平台，在音视频实时通讯和直播领域有着十多年的研究和丰富的经验。音视频实时通信、音视频直播、图像处理、视频处理和语音处

腾讯音视频实验室于2016年成立，它专注于音视频的前瞻性研究，依托于QQ的海量平台，在音视频实时通讯和直播领域有着十多年的研究和丰富的经验。音视频实时通信、音视频直播、图像处理、视频处理和语音处理等技术水平在业内已属于领先水平，并正式开放自研的SPEAR音视频引擎，将更多特性带给开发者。目前QQ用户每天的音视频通话时长达12亿分钟，基于腾讯云平台下，服务130+家客户。

100个人心中有100个哈姆雷特，音视频质量协调是如此，有的人喜欢重低音带来的震撼，有的人喜欢高还原带来的真实。这就引入了另外一个问题，就是在可用资源有限的情况下，音视频的维度是相互矛盾的，这种矛盾性使得我们做音视频质量评估时，标准变得非常模糊。最后是不确定性，影响音视频质量的因素有很多，灯光，网络损伤，设备状态等等，这些环境的随机性引入了不确定性，给音视频测试带来了巨大的困难。

清晰度是衡量视频通话质量的重要因素，主观测试方法会通过人眼的观察，对画面的清晰度进行对比打分，更进一步会观察细节，进行加权打分。对测试人员的辨识能力有一定的要求，如果测试量大的话，还需要考虑人员疲惫度对测试结果影响。如果清晰度差别并没有达到一眼就能看出来的情况，那么主观测试的结果参考性就会大大减弱，因此需要客观测试进行辅助。

刚刚说了客观测试可以作为主观测试的一种辅助手段，让数据更具说服力。然而，有些测试，主观难以完成，必须借助客观测试的手段。例如我们要讲的音频端到端延时测试，音视频通话是一种沟通行为，对实时性有较高的要求。设备的采集和渲染，引擎中各种信号处理，还有ARQ重传、FEC、Jitter Buffer等等网络抗性算法，都会引入延时，我们需要关注用户真正体验到的延时。

测试模型中，把音频信号输入给终端A，终端B收到对应的信号，再进行采集，最后计算时间差。为了避免受到其他信号的干扰，我们采用的是计算互相关函数的方法来得到这个延时，通过查找互相关函数的最大值，可以得到两个信号的偏移，再通过采样率的关系最后得到时间差。

在一次测试的数据中看到，用延时来换取抖动抗性，对用户体验来说并不是非常友好。通过合理的安排主观测试和客观测试，去解决一部分主观测试的问题，我们需要关注不同产品和环境下音视频的情况，就要尽量消除环境的不确定性给音视频测试带来的困难。

在实际应用中，发现操作起来会遇到非常多的问题，音视频质量存在着太多的不确定性。因为环境的多样性和动态性，我们需要对环境变量进行精确的控制，需要有一个相对专业的实验室环境来进行音视频相关的技术测试。

一个基本的音视频测试实验室应该具备哪些条件呢？我们需要精确控制灯光，通过灯光设备来精确控制照度和色温。需要精确控制声音的输入，因此，我们需要一个隔音室，用来隔绝外部的声音以及内部产生的回声，并且模拟不同的声音场景。我们还需要精确控制网络损伤，在测试网络抗性的时候，通过高精度的网络损伤设备模拟不同的场景。

互联网音视频通话离不开网络传输，网络非常复杂，包括了网络损伤的时变性，音视频通话中不能像其他业务那样静态地看待网络损伤，如何实时探测网络损伤的变化，以及如何应对，这是非常重要的问题。

常见的网络损伤包括丢包，延时，抖动，带宽受限。其中丢包又分为固有丢包、拥塞丢包、随机丢包、连续丢包、持续丢包、突发丢包，这些应对方法都不一样，作为测试，需要收集不同的模型。抖动就是网络延时的变化，由于音视频通话的实时性和时续性，抖动对通话质量影响非常大，处理抖动的方法就是引入Jitter Buffer。带宽的适应性是网络流通一大难点，需要不影响通话质量的前提下实时探测带宽。传统的带宽探测方法很明显不适用了，测试的时候需要关注带宽探测的准确度，适应速度，以及带宽的利用率，还有码率平稳度等等。另外还需要关注复合场景，我们需要不断在现网的技术运营中丰富复合场景模式。

实验室测试的结果可以明确的指出缺陷的存在，并且指导优化的方向。因此，我们在真实环境中验证最终结果，但是在研发过程中，更加推荐实验室测试。在现网真实环境中，我们应该如何对音视频质量进行监控呢？下面介绍矛盾与平衡，腾讯音视频实验室正在使用的综合性指标，并结合EVA分享一下线上质量控制和数据分析的方案。

为了真正做到线上衡量音视频通话质量，我们需要一个综合各维度的结果型的数据，因此提出了无参考评估模型，EVA。首先解释一下什么叫无参考评估模型，与之对应的是全参考评估，就是可以拿原信号做参考，常见的算法有PSNR，SSIM，PESQ，POLQA等等，通常来讲，全参考评估的准确性比较高，实验室测试中也经常使用。然而在很多情况下，实验人员并没有办法拿到原信号进行参考，需要在只有被测信号前提下对质量进行评估，EVA就是这样一套无参考评估。

仅通过QP无法完全表征视频质量对于人眼的感受，因此需要引入内容特征的空域复杂度和时域复杂度作为输入。考虑到计算的复杂度，需要使用1帧大小以及运动向量mv，结合编码分辨率和QP来拟合空域复杂度和时域复杂度。作为视频，单帧质量是远远不够的，因此腾讯音视频实验室引入了帧渲染间隔作为输入，用来表征帧率，帧率抖动，以及卡顿，对视频通话质量的影响。

最后一个参数是延时，这是沟通质量的特征，延时对通话质量的影响要视具体的应用场景而定，例如音视频实时通话和直播，明显是不一样的。是否有音视频层面的互动，决定了单向延时还是双向延时。

腾讯音视频实验室通过EVA的数据上报，来监测质量进行分时分区域的变化情况。还有一个最重要的应用，就是可以做A/B Test，在后台发布两种不同的流控策略，通过EVA数据来判断两种策略的效果。如图所示，蓝色曲线和红色曲线分别代表两种策略，通过EVA数据可以看到蓝色的效果远远优于红色，最后蓝色策略。

线上质量评估仅仅从全局维度是不够的，全网质量分析可以帮助了解大盘，宏观评估音视频质量优化的效果，但是回到具体问题的解决，还是需要个例进行分析，为此腾讯音视频实验室开发了一套线上实时单例的监控系统，以及线下分析系统，以秒为单位去分析音视频质量。

最后对这次分享做一下总结，这次分享围绕腾讯音视频实验室在音视频质量评估的三大痛点的思考和实践，来侧面介绍了腾讯音视频质量评估的整个体系。对于主观性，首先要肯定主观测试的重要性，当主观测试无法满足需求的时候，配合客观测试的方法进行评估。对于不确定性，需要对测试环境进行精确的把控，减少不确定性因素，最后在真实环境中验证最终结果。对于矛盾与平衡，需要一套综合评价的数据，结合其他维度的数据来建立全局和单例的数据分析和线上监控。