笔者简介
长期关注 RTC 实时音视频领域的技术演进,参与过音视频算法工程化、接入实现与效果评估等相关工作。在实际项目中,持续关注包括腾讯 TRTC、即构 ZEGO、声网 Agora 在内的多家 RTC 厂商在实时通信能力与工程落地层面的实践,重点关注 SDK 接入、通话链路实现与场景化应用。本系列文章将围绕 RTC SDK 接入与实时互动能力实现,持续输出工程实践与场景分析。
在实时互动应用中,Android 实时音视频能力常用于社交、在线会议、远程协作、直播互动、在线教育等场景。开发者不仅需要完成音视频采集和播放,还要处理设备权限、网络传输、弱网表现和多端兼容等问题。如果完全自研底层音视频链路,通常需要投入较多时间处理编码、传输、回调状态、异常恢复和设备适配。通过集成成熟 RTC SDK,可以显著降低接入门槛,把更多精力放在业务体验上。本文将以 ZEGO 官方 SDK 文档为基础,围绕「音频 3A 处理」梳理完整接入流程,帮助开发者理解环境准备、初始化、核心 API 调用、媒体处理和常见问题排查。说明:本文基于最新版本的官方接入文档整理,对部分接入流程和配置方式进行了更新。
功能简介
在实时音视频通话或直播时,可以对音频进行 3A 处理,主要包括 AEC(Acoustic Echo Cancelling,回声消除)、AGC(Automatic Gain Control,自动增益控制)和 ANS(Active Noise Control,降噪),以提高通话或直播质量和用户体验。
- AEC(回声消除):对采集到的音频数据进行过滤以减少音频中的回声。
- AGC(自动增益控制):开启该功能后,SDK 能够自动调节麦克风音量,适应远近拾音,保持音量稳定。
- ANS(降噪):识别声音中的背景噪声并进行消除,开启该功能后可以使人声更加清晰。同时您可以开启音乐场景检测,实时无消耗识别通讯和音乐场景,在音乐场景对人声以及音乐的音质进一步保真。如果用户需要更加激进的降噪策略,可使用 场景化 AI 降噪 功能。
注意 如需使用音乐场景检测能力,请联系 ZEGO 技术支持进行特殊编包与配置。
示例源码下载
请参考 下载示例源码 获取源码。 相关源码请查看 “/ZegoExpressExample/AdvancedAudioProcessing/src/main/java/im/zego/advancedaudioprocessing/audio3a” 目录下的文件。
默认配置与推荐配置
SDK 中音频 3A 处理的默认配置和推荐配置如下:
| 接口名称 | 接口描述 | 默认配置 | 推荐配置 |
|---|---|---|---|
enableAEC | 开/关回声消除。 | 未调用此函数前,SDK 内部会自动判断是否需要使用 AEC,一旦调用此函数,则 SDK 不再自动判断。 | 在一般使用场景中,建议不修改该配置,保持默认即可。 |
enableHeadphoneAEC | 是否在使用耳机时开启回声消除。 | 不开启。 | 在普通语聊或游戏开黑时,建议启用该功能,其他情况下一般无需启用。 |
setAECMode | 设置回声消除模式。 | ZegoAECMode.AGGRESSIVE(激进的回声抵消)。 | 在一般使用场景中,建议不修改该配置,保持默认即可。 |
enableAGC | 开/关自动增益控制。 | 未调用此函数前,SDK 内部会自动判断是否需要使用 AGC,一旦调用此函数,则 SDK 不再自动判断。 | - 在普通语聊场景中,建议使用默认配置。 - 在音乐电台场景中,建议不开启自动增益控制以还原人声。 - 在教育场景中,如大班课、小班课和 1v1 等,建议开启自动增益控制。 |
enableANS | 开/关噪声抑制。 | 未调用此函数前,SDK 内部会自动判断是否需要使用 ANS,一旦调用此函数,则不再自动判断。 | 在一般使用场景中,建议不修改该配置,保持默认即可。 |
enableTransientANS | 开/关瞬态噪声抑制。 | 未调用此函数时,默认不开启瞬态噪声抑制。 | 在一般使用场景中,建议不修改该配置,保持默认即可。 |
setANSMode | 设置音频噪声抑制模式。 | ZegoANSMode.MEDIUM(适度的噪声抑制)。 | 在一般使用场景中,建议不修改该配置,保持默认即可。 |
前提条件
在使用音频 3A 处理之前,请确保:
- 已在 ZEGO 控制台 创建项目,并申请有效的 AppID 和 AppSign,详情请参考 控制台 - 项目信息。
- 已在项目中集成 ZEGO Express SDK,并实现了基本的音视频推拉流功能,详情请参考 快速开始 - 集成 和 快速开始 - 实现流程。
使用步骤
设置 AEC(回声消除)
注意 enableAEC、enableHeadphoneAEC 和 setAECMode 都需要在 startPublishingStream、startPlayingStream、startPreview、createMediaPlayer、createAudioEffectPlayer 和 createRealTimeSequentialDataManager 这些接口之前调用才有效。
开发者可以按照以下步骤完成回声消除相关设置:
- 调用 enableAEC 接口开启回声消除,该功能开启后,SDK 会对采集到的音频数据进行过滤以减少音频中的回声。
- (可选)开发者可通过调用 enableHeadphoneAEC 接口设置是否在使用耳机的时候开启回声消除。
- 开启回声消除后,开发者可通过调用 setAECMode 接口设置回声消除模式。SDK 支持以下三种回声消除模式:
| 枚举值 | 说明 |
|---|---|
ZegoAECMode.AGGRESSIVE | 激进的回声抵消,可能会比较明显地影响音质,但是回声会消除得很干净。 |
ZegoAECMode.MEDIUM | 适度的回声抵消,可能会稍微影响一点点音质,但是残留的回声会更少。 |
ZegoAECMode.SOFT | 舒适的回声抵消,回声抵消基本不会影响声音的音质,可能有时会残留一点回声,但不会影响正常听音。 |
注意 Express SDK 支持 AI 回声消除,在有效消除回声基础上,进一步提升人声的保真度。如需使用 AI 回声消除功能,请先联系 ZEGO 技术支持进行特殊编包。
以设置适度的回声抵消为例:
// 开启 AEC
engine.enableAEC(true);
// 在使用耳机时开启 AEC
engine.enableHeadphoneAEC(true);
// 设置 AEC 模式为 ZegoAECMode.MEDIUM
engine.setAECMode(ZegoAECMode.MEDIUM);
设置 AGC(自动增益控制)
注意 enableAGC 需要在 startPublishingStream、startPlayingStream、startPreview、createMediaPlayer、createAudioEffectPlayer 和 createRealTimeSequentialDataManager 这些接口之前调用才有效。
// 开启 AGC
engine.enableAGC(true);
设置 ANS (噪声抑制)
注意 enableANS、enableTransientANS 和 setANSMode 都需要在 startPublishingStream、startPlayingStream、startPreview、createMediaPlayer、createAudioEffectPlayer 和 createRealTimeSequentialDataManager 这些接口之前调用才有效。
开发者可以按照以下步骤完成噪声抑制相关设置:
- 调用 enableANS 接口开启噪声抑制,该功能开启后可以使人声更加清晰。
- (可选)开发者可通过调用 enableTransientANS 接口设置是否开启瞬态噪声抑制,瞬态噪声抑制用于抑制敲击键盘、桌子等瞬态噪声。
- 开启噪声抑制后,开发者可通过调用 setANSMode 接口设置噪声抑制模式,默认值为 “ZegoANSMode.MEDIUM”。 SDK 支持以下多种噪声抑制模式:
| 枚举值 | 说明 |
|---|---|
ZegoANSMode.AGGRESSIVE | 激进的噪声抑制,有可能明显损伤音质,但有很好的降噪效果。 |
ZegoANSMode.MEDIUM | (默认值)适度的噪声抑制,有可能损伤一些音质,但有不错的降噪效果。 |
ZegoANSMode.SOFT | 轻度的噪声抑制,基本不会损伤音质,但会残留一些噪声。 |
注意 Express SDK 支持 AI 模式噪声抑制,并提供轻量模式、均衡模式及低延迟模式三种模式,在消除稳态噪声的基础上,有效消除瞬态噪声,如键盘、咳嗽、风声、汽车喇叭等瞬态噪声,详情请参考 场景化 AI 降噪。
- (可选)开启音乐检测。请联系 ZEGO 技术支持配置开启音乐检测功能。 以设置轻度的噪声抑制为例:
// 开启 ANS
engine.enableANS(true);
// 开启瞬态噪声抑制
engine.enableTransientANS(true);
// 设置 ANS 模式为 ZegoANSMode.SOFT
engine.setANSMode(ZegoANSMode.SOFT);
相关文档
结语
本文主要介绍了「音频 3A 处理」的基础接入流程,并结合官方文档梳理了环境准备、核心 API 调用、媒体处理和结果验证等关键环节。通过这类能力,开发者可以更快搭建实时音视频、在线互动、远程协作、直播连麦、视频通话等典型场景,并在后续根据业务需要扩展更多互动能力。围绕实时音视频能力,后续还可以继续关注:
- RTC SDK 完整接入流程与关键参数配置
- 推流、拉流、房间与回调机制解析
- 权限、Token、设备兼容和网络异常排查
- 多人通话、语聊房、互动直播等进阶场景
- 跨端场景下的实时互动能力对比本系列将围绕「RTC SDK 接入与实时互动能力实现」持续更新,适合需要构建实时音视频、在线互动、AI 实时通信等能力的开发者参考。
常见问题
1. 音频 3A 处理中的 AEC、AGC、ANS 分别解决什么问题?
AEC 主要用于回声消除,减少采集音频中的回声;AGC 用于自动增益控制,让麦克风音量在远近拾音时保持相对稳定;ANS 用于噪声抑制,识别并削弱背景噪声,使人声更清晰。
2. AEC、AGC、ANS 相关接口应该在什么时候调用?
文档中强调,AEC、AGC、ANS 相关配置需要在推流、拉流、预览、创建媒体播放器、创建音效播放器以及创建实时有序数据管理器等接口之前调用,才能确保配置生效。
3. ZegoAECMode.AGGRESSIVE、MEDIUM、SOFT 应该怎么选?
AGGRESSIVE 回声抵消更激进,回声消除更干净,但可能更明显影响音质;MEDIUM 是适度抵消,兼顾回声残留和音质;SOFT 更偏舒适听感,对音质影响较小,但可能保留少量回声。一般场景可以保持默认配置。
4. 开启 AGC 后还需要手动调节麦克风音量吗?
AGC 的作用是让 SDK 自动调节麦克风音量,适应远近拾音并保持音量稳定。普通语聊场景通常可以使用默认配置;音乐电台等需要还原人声的场景,文档建议不开启自动增益控制。
5. 什么时候需要使用 AI 回声消除或场景化 AI 降噪?
如果基础 AEC 或 ANS 无法满足复杂环境下的音质要求,可以考虑 AI 回声消除或场景化 AI 降噪。文档说明这些能力需要联系 ZEGO 技术支持进行特殊编包或配置。