本文主要从三个方面展开,一是音视频测试的目的,主要说音视频测试能解决的问题,比较通用;二是从音视频的角度介绍怎么做测试,包括测试维度、评价框架、整体结构和每一部分的具体内容;三是介绍这个框架的组成和实施过程中遇到的问题。
发送端各个模块的功能分别是:采集,对应麦克风和摄像头硬件,也有可能是多媒体混音或者屏幕录制的内容;前处理,美颜大家都知道,3A可能不太熟悉,这里是针对音视频效果做处理的模块。
音视频测试的目的
“知己”主要是获取到基线数据,了解当前现状,这块是基础。在版本迭代过程中,基于这个数据来纵向比较版本间是提高了还是恶化了,提高或恶化了多少,是版本优化的参考。这些是对自己能力的了解,孙子兵法说,知己知彼百战百胜,我们不光要埋头干,还要抬头看看路,看看别人做的怎么样,因为最终体现竞争力的还是和竞品之间的差距。当然这里差距包含两层意思,正向的差距是优势,如果是负向的就是要改进了。
会议效果主要从基础效果和其他增强效果两方面来展开,这也是视频会议底层能力的集中体现。
本文主要针对音视频的效果展开。
如何进行音视频测试
从对应不同的专项来区分,包括了音频测试、视频测试、QoS测试、性能和兼容性测试。基于这些维度适时地开展竞品对比测试,则可以比较全面的回答前述4个问题。
主观测试主要是主观听,针对音频算法的优化调整,关注单讲、双讲场景下的回声、音量大小以及啸叫等异常现象,还有时延情况,音画同步状况;客观测试和POLQA主要测试记录一些客观指标,如音频参数(码率,时延,音量大小和POLQA分值等),这些维度通常要覆盖不同的网络和业务场景,针对不同的算法调整情况,还要考虑对不同设备的覆盖测试。
主观测试包括清晰度和流畅度,以及时延和音画同步测试。客观参数主要包括视频相关的参数(分辨率、码率、帧率、卡顿统计)以及MOS情况,CODEC离线测试中涵盖了PSNR和SSIM以及现今比较火热的VMAF指标。
QoS测试,并非一个单独的评测维度,更多的可以说是一个用户场景的覆盖测试。网络是业务的承载,然而实际用户的网络不可能完全理想,也没那么坏,最终的测试抓手其实还是音视频的评测指标,以此为基础,覆盖不同的弱网和极端网络,关注音视频效果的同时,关注拥塞控制、带宽探测、以及视频模型之间的配合和调整速度。这一部分输出网络相关的基线和极限能力。
前面提到的音视频评估及QoS评估,最终效果都体现在QoE上。什么叫QoE?说白了就是用耳朵听、用眼看。这部分直接体现在用户体验上,对于实时音视频场景来说,主要包括沟通的实时性也就是端到端时延(端到端时延,首帧时间)、视频的清晰度和流畅度、音频的清晰度和流畅度(对音频的可懂度直接相关)。
人不能总是低头走路,也要抬头看看天,产品也是一样。我们不光要实现自己的特性功能,也要看看对手们做得怎么样。因为最终决定产品好不好卖,客户买不买账,竞争力才最关键。
很多时候,如果明确的验收标准不太容易给出,同指标和竞品的对比结论是个不错的选择。如果能战胜对手,还是相对成功的。如果是落了下风,那要考虑一下如何优化了。事情到这里,看起来都很顺利了,测试的框架都齐备了,直接补充数据不就可以了吗?但是实际上还有一些问题需要解决。
摄像头的不同摆放位置,对焦状态以及光线情况,摄像头的视角和景深对画面的范围和渲染表现影响最大
基于此,引入了基于TC的弱网模拟方案(如下图所示)。
基于此,我们考虑把涉及到主观评价的场景都录一份对比(新老版本/竞品对比)的音视频数据,留待主观评测打分用,基于自验的打分平台,方便的进行线上打分。
1第一部分,摄像头(麦克风)+复用器,实现了同一路摄像头(麦克风)采集内容被多个PC设备复用的功能,这样每个PC上输入的摄像头内容完全一样,也完全同步;
3中间的网络和媒体服务器,把他们搭成私有的环境,单独一套测试环境使用,不受出口网络的影响,不受实验室到媒体服务器路径情况的影响,这套框架成本低廉,性价比较高。
相信这些工作做下来,从评测的维度出发,已经能够很好地回答老板们提出来的问题了。