RTC 技术干货 | 音频质量评价体系那些事近年来，线上音视频的产品形态和应用场景越来越丰富，疫情更加速了许多行业线下转

前言

近年来，线上音视频的产品形态和应用场景越来越丰富，疫情更加速了许多行业线下转线上的布局，音视频技术也越来越受到各大厂的重视，Zoom 的股价飞升，腾讯、字节、阿里等等巨头的大力投入，令这个赛道的竞争越发激烈。在这个激烈的竞争环境下，所有的赛道玩家都很清楚，好的音视频体验，将是决定产品成功与否的最重要因素之一。在本篇内容中我们将主要围绕音频质量评估的一些重要标准，来讲讲不同评价体系里的标准、内容、相互关联和一些个人见解。

在介绍各种评价标准和算法之前，有一个组织必须要重点介绍，ITU (International TelecommunicationUnion) 国际电信联盟简称国际电联，ITU 是主管信息通信技术事务的联合国机构，旗下有一个专门制定电信标准的分支机构 ITU-T(ITU Telecommunication Standardization Sector of ITU)。

图片 1.png

01 主观音频质量评价标准：MOS in ITU-T P.800

说起音频质量的评价，它并不是现在才出现的。早在电话发明之后，如何系统地评价语音质量就成了一个难题。ITU-T 作为通信领域制定标准的权威机构，当然不会坐视不管，于是在 1996 年 8 月 30 日，正式推出了 P.800: Methods for subjective determination of transmission quality 标准。在这个标准里面有一个重要的指标被提出来，那就是今天被沿用最为广泛的主观评价标准 MOS(Mean Opinion Score)。

图片 2.png

有些人可能觉得这个标准好简单，不就是 1-5 分的打分么？可是事实上并不是，主观的质量评价要想成为可重复使用的评价标准是很难的。不同环境、心情、知识储备、职业、听力范围及灵敏度等等背景的人都可能会对同一个声音给予不同的评分，甚至一个人在不同时间和背景下对于同一段语音质量，也会给予不同的主观评分。所以光有一个 MOS 评分是远远不够的，在标准里面还推荐了多种可行的测试方案，比如在 Listening-opinion tests 测试方案中给出了"Absolute Category Rating" (ACR) 。里面规定用短分组的不相关的句子测试，并且这些句子是通过一系列标准测试验证过的，然后在相同的测试方案下，相同的物理条件和传输系统下，来对比测试的结果。这样测试方案就具备较高程度的结果一致性。而这里说的物理条件包含非常的细致，例如测试线材、噪声(底噪；环境噪声)、噪声测量的位置。其中环境噪声还分为(房间噪声、车内噪声等)。除此以外对噪声测量的位置、创建连接、监听、仪器设备设计、对话任务等等都有一些建议。

说白了，这个标准事无巨细地列举了所有可能对主观评分一致性产生影响的因素，用很多不相关意义的短句组，在实验室可以控制的物理条件下，让很多被测试人员在相同环境下做对比测试，再做平均。这样的测试才能达到一致性标准，同时也具备了可行性。

但同时我们也发现，组织这样的一场测试耗时耗力，实在是不适合快速的质量验证。尽管如此，它对于今天依然非常有意义，比如现在很多产品在通话结束后给用户的质量反馈打分，1 星到 5 星，虽然不能控制在相同的物理条件下，但是大量的用户主观评分概率分布依然可以相对客观地评价产品的主观质量。

最后，主观音频质量评价标准除了给出 MOS 这个有意义的评分标准，还给出了两个标准 MOSle 和 MOSlp，也非常有参考意义。

图片 3.png -MOSle-

图片 4.png

-MOSlp-

02 客观有参考音频质量评价标准：PESQ in P.862 & POLQA in P.863

主观评价体系建立后，由于其实现起来的高成本和低效率，并不适合企业快速验证系统的音频质量，所以客观标准的需求日益扩大。这个时候需要一个可以近似人类听觉体验的客观评价体系，并且能做到尽量稳定。

做一个成熟稳定高度逼近人类听觉体验的评价标准非常难，所以客观标准的制定最初是建立在一套有参考信号的评价体系之上的。也就是评价的时候，同时需要待测信号和参考信号（不经过待测系统只经过测试设备环境回环的信号)。相较于无参考评价方案，有参考的客观评价方案更容易做得贴近主观评价体系。

但即使是有参考估计，想要全面模拟主观评价也还是比较难的，随着算法不断发展和完善，评价从只考虑部分指标到考虑更多指标发展。比如在介绍 PESQ 之前，也有一些客观评价标准被推出，评价有一些局限性，如：perceptual speech quality measure (PSQM) 和 perceptual analysis measurement system (PAMS)。前者只能用于音频编码器的评估，而后者只能评估有限范围内的失真。

PESQ

ITU-T 在 2001 年 02 月发布的 P.862 里推出了一个新的方法：Perceptual evaluation of speech quality (PESQ)，也是在一段时间内，业界广泛使用的方案。标准里这么说道：这是多年积累的结果，是一款不仅适用于音频编码器，同时也适合 end-to-end 测试音频质量的评估方法。我们从下面几个角度谈一谈 PESQ 吧。

1、PESQ 的测试方案

PESQ 如标准的描述，可以进行端到端的音频质量测试，把参考信号(Reference speech) line in 传入发送端(如下图是一个电话)，经过电话网络到接收端，再 Line out 传出和直接回环(图里叫做参考路径 Reference path)的参考信号传入 PESQ 算法进行，有参考评估，最后生成 PESQ score。

图片 5.png

需要注意的是，参考信号并非是随意选取的，标准对于输入的参考信号有较严格的限制，比如长度：8-30s 的长度，里面的每个短句不能低于 3.2s，活动语音的占比 40%到 80%，语音音量：参考 ITU-T P.56 在-30dBov 同时避免溢出，等等。

2、PESQ 算法流程

标准在 PESQ 算里面针对多个部分做了详细的阐述，这里给出一个简单的 PESQ 的算法框架如下图：

图片 6.png

简单来说：Time Alignment 把输入的活动语音段检测出来，再进行 delay 计算和语音分段，这个算法是可以兼容可变 delay 的。然后 PESQ Algorithm 在计算对齐的参考信号和待测信号，得到它们的频域的信号进行一些补偿后，转到响度域再根据心理声学模型，对比两个信号的感知差异。最后将差异 mapping 到类似 MOS 分值的 PESQ score，取值范围在 -0.5 到 4.5。

3、PESQ 的有限性

只适用于窄带和宽带(2005 年 P.862.2 Wide-band Extension)音频。

只用于测量 one-way 语音的失真和噪声。对于响度降低、时延、回声等等方面和双边交互相关的，都无法评测。
多数情况下评分比较符合主观标准结果，但部分场景下和主观测试结果有一些差距。评分结果的分布的聚合性一般。标准里面也说明了，PESQ 是不能代替主观测试的，它只是一个具备参考意义的近似主观体验客观评价标准。

POLQA

随着时间的发展，更多的适用范围、更广泛的标准也一一涌现，如 2004 年 P.563 的 3SQM，还有一个就是一直沿用到今天、在有参考客观音频质量评价领域最新也是最大范围被应用的在 P.863 里出现 POLQA 标准。

1、POLQA 测试方案与算法框架

POLQA 的测试方案和 PESQ 一样，也用了参考信号来做对比，测试方案差不多。算法大框架也差距不大，但是用了全新的 Time Alignment 算法和全新的感知模型。这里就不展开了，给出一个核心模型流程图(没有包括 Time Alignment 和 Perceptual Model)：

图片 7.png

2、重点说一下 POLQA 和 PESQ 的区别

这里转载 Pomy 在一份报告里面描写关于两个算法的一些地方的区别：

除了两个算法外，他还专门组织了"Absolute Category Rating" (ACR)测试，测试了 Human、 POLQA、PESQ 之间的区别，如下图：

图片 8.png

总的来说，POLQA 不仅支持全频带评测，还增加了对响度变化的评估，全新的感知模型评价体系使得 POLQA 和主观评测的结果更加接近。

03 客观无参考音频质量评价标准：E-model in G.107

前面介绍了主观音频质量评测标准和客观有参考音频质量评测标准，特别是当有了客观的有参考音频质量评价标准，企业可以很方便地测试系统的端到端音频质量，虽然不能完全取代主观测试，可随着标准的更新，客观有参考评价标准会越来越接近主观评价且越来越稳定。但是很多企业也发现，即使有端到端的客观有参考评价标准，依然很难解决线上音频质量的实时监控。有没有一种指标可以在不需要参考信号的情况下，在某种程度上反应出主观音频质量的变化呢？

ITU-T 在 2015 年 6 月发布了 G.107，给出了一种计算模型专门评估端到端传输的音频质量评估，其算法模型叫 E-model。

1、E-model 的基本算法结构和框架

E-model 是在一个评估音频设备损伤叫做”Voice Transmission Quality from Mouth to Ear”的模型基础上衍生出来的。E-model 会把通话中发送端和接收端当成嘴到耳朵的评估，把通话分成发送端和接收端，然后把能考虑到一些可以量化的、对于声音质量有影响的因素都参考进来。如下图：

图片 9.png 其中 OLR：Overall Loudness Rating，SLR：Receive Loudness Rating， RLR：Receive Loudness Rating。E-model 的传输损伤等级因子 R 的公式为：

图片 10.png

其中：

R0：基础信号比

IS：传输时产生的同步损伤，由量化，连接等因素影响

ID：传输的时延损伤

Ie-eff：设备损伤系数

A：优势系数(和其他所有的传输参数都没有关系的)

每个数值的计算都比较复杂，且参数较多，这里就不一一展开了。

2、E-model 的结果 R 如何导出 MOS

图片 11.png

3、关于 E-model 的一些感想

G.107 给我们带来一套复杂的、完善度也相对较高的评估模型 E-model，这个模型在没有参考信号的情况下，把对于语音质量有影响的很多因子都考虑进去了。先不说能不能完全靠近主观测试的评价体系，对于企业的线上实时音频质量监控也具备很大的指导意义。另外也有人提供了一些改良方案，例如加入网络 jitter 的系数对评价结果产生影响，当然是不是合适也需要在实践中验证了。

以上介绍了一个音频质量主观评价标准以及两个音频质量客观有参考评估标准，以及一个音频质量客观无参考的评价标准。值得再次申明的是，客观评价标准是不能代替主观标准的。虽然随着算法的提升，它越来越接近主观评价，但在实际问题的优化中，主观的听感是不能代替的。当主观听感感受和客观指标产生了差异，既不能盲目相信少数人的少次测试听感结果，也不用盲目迷信客观标准，陷入了削足适履局面。

关注我们，我们将为大家持续分享更多关于音视频的技术干货、技术探索及最佳实践。

关于拍乐云

拍乐云成立于 2019 年，是国内第一家视频会议背景的实时互动通信云服务提供商，汇聚了一大批专注于音频、视频、网络、AI 等领域的资深技术专家。通过 Pano SDK，企业开发者即可在全球范围内快速实现互动课堂、语音聊天室、视频社交、直播连麦、游戏语音、视频客服、远程医疗、办公协作等场景。