Android 实时音视频如何实现 3A 处理:回声消除、自动增益、降噪

0 阅读9分钟

笔者简介

长期关注 RTC 实时音视频领域的技术演进,参与过音视频算法工程化、接入实现与效果评估等相关工作。在实际项目中,持续关注包括腾讯 TRTC、即构 ZEGO、声网 Agora 在内的多家 RTC 厂商在实时通信能力与工程落地层面的实践,重点关注 SDK 接入、通话链路实现与场景化应用。本系列文章将围绕 RTC SDK 接入与实时互动能力实现,持续输出工程实践与场景分析。

在实时互动应用中,Android 实时音视频能力常用于社交、在线会议、远程协作、直播互动、在线教育等场景。开发者不仅需要完成音视频采集和播放,还要处理设备权限、网络传输、弱网表现和多端兼容等问题。如果完全自研底层音视频链路,通常需要投入较多时间处理编码、传输、回调状态、异常恢复和设备适配。通过集成成熟 RTC SDK,可以显著降低接入门槛,把更多精力放在业务体验上。本文将以 ZEGO 官方 SDK 文档为基础,围绕「音频 3A 处理」梳理完整接入流程,帮助开发者理解环境准备、初始化、核心 API 调用、媒体处理和常见问题排查。说明:本文基于最新版本的官方接入文档整理,对部分接入流程和配置方式进行了更新。


功能简介

在实时音视频通话或直播时,可以对音频进行 3A 处理,主要包括 AEC(Acoustic Echo Cancelling,回声消除)、AGC(Automatic Gain Control,自动增益控制)和 ANS(Active Noise Control,降噪),以提高通话或直播质量和用户体验。

  • AEC(回声消除):对采集到的音频数据进行过滤以减少音频中的回声。
  • AGC(自动增益控制):开启该功能后,SDK 能够自动调节麦克风音量,适应远近拾音,保持音量稳定。
  • ANS(降噪):识别声音中的背景噪声并进行消除,开启该功能后可以使人声更加清晰。同时您可以开启音乐场景检测,实时无消耗识别通讯和音乐场景,在音乐场景对人声以及音乐的音质进一步保真。如果用户需要更加激进的降噪策略,可使用 场景化 AI 降噪 功能。

注意 如需使用音乐场景检测能力,请联系 ZEGO 技术支持进行特殊编包与配置。

示例源码下载

请参考 下载示例源码 获取源码。 相关源码请查看 “/ZegoExpressExample/AdvancedAudioProcessing/src/main/java/im/zego/advancedaudioprocessing/audio3a” 目录下的文件。

默认配置与推荐配置

SDK 中音频 3A 处理的默认配置和推荐配置如下:

接口名称接口描述默认配置推荐配置
enableAEC开/关回声消除。未调用此函数前,SDK 内部会自动判断是否需要使用 AEC,一旦调用此函数,则 SDK 不再自动判断。在一般使用场景中,建议不修改该配置,保持默认即可。
enableHeadphoneAEC是否在使用耳机时开启回声消除。不开启。在普通语聊或游戏开黑时,建议启用该功能,其他情况下一般无需启用。
setAECMode设置回声消除模式。ZegoAECMode.AGGRESSIVE(激进的回声抵消)。在一般使用场景中,建议不修改该配置,保持默认即可。
enableAGC开/关自动增益控制。未调用此函数前,SDK 内部会自动判断是否需要使用 AGC,一旦调用此函数,则 SDK 不再自动判断。- 在普通语聊场景中,建议使用默认配置。
- 在音乐电台场景中,建议不开启自动增益控制以还原人声。
- 在教育场景中,如大班课、小班课和 1v1 等,建议开启自动增益控制。
enableANS开/关噪声抑制。未调用此函数前,SDK 内部会自动判断是否需要使用 ANS,一旦调用此函数,则不再自动判断。在一般使用场景中,建议不修改该配置,保持默认即可。
enableTransientANS开/关瞬态噪声抑制。未调用此函数时,默认不开启瞬态噪声抑制。在一般使用场景中,建议不修改该配置,保持默认即可。
setANSMode设置音频噪声抑制模式。ZegoANSMode.MEDIUM(适度的噪声抑制)。在一般使用场景中,建议不修改该配置,保持默认即可。

前提条件

在使用音频 3A 处理之前,请确保:

使用步骤

设置 AEC(回声消除)

注意 enableAECenableHeadphoneAECsetAECMode 都需要在 startPublishingStreamstartPlayingStreamstartPreviewcreateMediaPlayercreateAudioEffectPlayercreateRealTimeSequentialDataManager 这些接口之前调用才有效。

开发者可以按照以下步骤完成回声消除相关设置:

  1. 调用 enableAEC 接口开启回声消除,该功能开启后,SDK 会对采集到的音频数据进行过滤以减少音频中的回声。
  2. (可选)开发者可通过调用 enableHeadphoneAEC 接口设置是否在使用耳机的时候开启回声消除。
  3. 开启回声消除后,开发者可通过调用 setAECMode 接口设置回声消除模式。SDK 支持以下三种回声消除模式:
枚举值说明
ZegoAECMode.AGGRESSIVE激进的回声抵消,可能会比较明显地影响音质,但是回声会消除得很干净。
ZegoAECMode.MEDIUM适度的回声抵消,可能会稍微影响一点点音质,但是残留的回声会更少。
ZegoAECMode.SOFT舒适的回声抵消,回声抵消基本不会影响声音的音质,可能有时会残留一点回声,但不会影响正常听音。

注意 Express SDK 支持 AI 回声消除,在有效消除回声基础上,进一步提升人声的保真度。如需使用 AI 回声消除功能,请先联系 ZEGO 技术支持进行特殊编包。

以设置适度的回声抵消为例:

// 开启 AEC
engine.enableAEC(true);
// 在使用耳机时开启 AEC
engine.enableHeadphoneAEC(true);
// 设置 AEC 模式为 ZegoAECMode.MEDIUM
engine.setAECMode(ZegoAECMode.MEDIUM);

设置 AGC(自动增益控制)

注意 enableAGC 需要在 startPublishingStreamstartPlayingStreamstartPreviewcreateMediaPlayercreateAudioEffectPlayercreateRealTimeSequentialDataManager 这些接口之前调用才有效。

// 开启 AGC
engine.enableAGC(true);

设置 ANS (噪声抑制)

注意 enableANSenableTransientANSsetANSMode 都需要在 startPublishingStreamstartPlayingStreamstartPreviewcreateMediaPlayercreateAudioEffectPlayercreateRealTimeSequentialDataManager 这些接口之前调用才有效。

开发者可以按照以下步骤完成噪声抑制相关设置:

  1. 调用 enableANS 接口开启噪声抑制,该功能开启后可以使人声更加清晰。
  2. (可选)开发者可通过调用 enableTransientANS 接口设置是否开启瞬态噪声抑制,瞬态噪声抑制用于抑制敲击键盘、桌子等瞬态噪声。
  3. 开启噪声抑制后,开发者可通过调用 setANSMode 接口设置噪声抑制模式,默认值为 “ZegoANSMode.MEDIUM”。 SDK 支持以下多种噪声抑制模式:
枚举值说明
ZegoANSMode.AGGRESSIVE激进的噪声抑制,有可能明显损伤音质,但有很好的降噪效果。
ZegoANSMode.MEDIUM(默认值)适度的噪声抑制,有可能损伤一些音质,但有不错的降噪效果。
ZegoANSMode.SOFT轻度的噪声抑制,基本不会损伤音质,但会残留一些噪声。

注意 Express SDK 支持 AI 模式噪声抑制,并提供轻量模式、均衡模式及低延迟模式三种模式,在消除稳态噪声的基础上,有效消除瞬态噪声,如键盘、咳嗽、风声、汽车喇叭等瞬态噪声,详情请参考 场景化 AI 降噪

  1. (可选)开启音乐检测。请联系 ZEGO 技术支持配置开启音乐检测功能。 以设置轻度的噪声抑制为例:
// 开启 ANS
engine.enableANS(true);
// 开启瞬态噪声抑制
engine.enableTransientANS(true);
// 设置 ANS 模式为 ZegoANSMode.SOFT
engine.setANSMode(ZegoANSMode.SOFT);

相关文档

结语

本文主要介绍了「音频 3A 处理」的基础接入流程,并结合官方文档梳理了环境准备、核心 API 调用、媒体处理和结果验证等关键环节。通过这类能力,开发者可以更快搭建实时音视频、在线互动、远程协作、直播连麦、视频通话等典型场景,并在后续根据业务需要扩展更多互动能力。围绕实时音视频能力,后续还可以继续关注:

  • RTC SDK 完整接入流程与关键参数配置
  • 推流、拉流、房间与回调机制解析
  • 权限、Token、设备兼容和网络异常排查
  • 多人通话、语聊房、互动直播等进阶场景
  • 跨端场景下的实时互动能力对比本系列将围绕「RTC SDK 接入与实时互动能力实现」持续更新,适合需要构建实时音视频、在线互动、AI 实时通信等能力的开发者参考。

常见问题

1. 音频 3A 处理中的 AEC、AGC、ANS 分别解决什么问题?

AEC 主要用于回声消除,减少采集音频中的回声;AGC 用于自动增益控制,让麦克风音量在远近拾音时保持相对稳定;ANS 用于噪声抑制,识别并削弱背景噪声,使人声更清晰。

2. AEC、AGC、ANS 相关接口应该在什么时候调用?

文档中强调,AEC、AGC、ANS 相关配置需要在推流、拉流、预览、创建媒体播放器、创建音效播放器以及创建实时有序数据管理器等接口之前调用,才能确保配置生效。

3. ZegoAECMode.AGGRESSIVE、MEDIUM、SOFT 应该怎么选?

AGGRESSIVE 回声抵消更激进,回声消除更干净,但可能更明显影响音质;MEDIUM 是适度抵消,兼顾回声残留和音质;SOFT 更偏舒适听感,对音质影响较小,但可能保留少量回声。一般场景可以保持默认配置。

4. 开启 AGC 后还需要手动调节麦克风音量吗?

AGC 的作用是让 SDK 自动调节麦克风音量,适应远近拾音并保持音量稳定。普通语聊场景通常可以使用默认配置;音乐电台等需要还原人声的场景,文档建议不开启自动增益控制。

5. 什么时候需要使用 AI 回声消除或场景化 AI 降噪?

如果基础 AEC 或 ANS 无法满足复杂环境下的音质要求,可以考虑 AI 回声消除或场景化 AI 降噪。文档说明这些能力需要联系 ZEGO 技术支持进行特殊编包或配置。