《Audio Deepfake Detection: A Survey》综述阅读本文综述了音频深度伪造检测的研究进展

论文地址

一段话总结

该综述聚焦音频深度伪造检测这一新兴领域，首先明确了文本到语音（TTS）、语音转换（VC）、情感伪造、场景伪造、部分伪造这五类深度伪造音频的关键差异，随后系统梳理了相关竞赛（如 ASVspoof 系列、ADD 系列）、数据集（如 ASVspoof 2021、ADD 2023、In-the-Wild 等）、鉴别特征（短期频谱特征、长期频谱特征、韵律特征、深度特征）与分类算法（传统分类如 SVM、GMM，深度学习分类如 CNN、ResNet 等），并基于 ASVspoof 2021、ADD 2023 和 In-the-Wild 数据集对代表性特征与分类器进行统一对比；指出当前研究存在缺乏大规模真实场景数据集、现有检测方法对未知伪造攻击泛化性差、检测结果可解释性不足等挑战，为未来研究提供方向。

研究背景与核心目标

技术背景：近年来，基于深度学习的文本到语音（TTS） 和语音转换（VC） 技术快速发展（如 VITS、FastDiff-TTS 模型），能生成接近人类自然语音的音频，但被恶意使用时会威胁社会安全与经济（如 2019 年 AI 模仿 CEO 声音诈骗 24.3 万美元）。
检测目标：音频深度伪造检测任务旨在通过机器学习技术，区分真实语音（genuine utterances） 与伪造语音（fake utterances）。
主流解决方案：
- 流水线检测器（Pipeline detector）：由“前端特征提取器+后端分类器”组成，是过去数十年的主流框架。
- 端到端检测器（End-to-end detector）：直接对原始音频波形操作，联合优化特征提取与分类过程，近年关注度提升。

深度伪造音频类型

五类伪造音频的核心特征如下表所示：

伪造类型（Fake Type）	伪造特征（Fake Trait）	伪造时长（Fake Duration）	是否借助 AI（AI-aided）
文本到语音（TTS）	说话人身份、语音内容	完整（Fully）	是
语音转换（VC）	说话人身份	完整（Fully）	是
情感伪造（Emotion Fake）	说话人情感	完整（Fully）	是
场景伪造（Scene Fake）	声学场景	完整（Fully）	是
部分伪造（Partially Fake）	部分语音内容	部分（Partially）	是

TTS：基于任意文本合成语音，包含文本分析与语音波形生成模块，生成方法有拼接式、统计参数式（含声学模型与声码器）及端到端式。
VC：改变说话人音色与韵律，保留语音内容，主流方法有统计参数式、频率弯曲式、单元选择式。
情感伪造：仅改变语音情感（如快乐变悲伤），其他信息不变，方法分平行数据型与非平行数据型。
场景伪造：通过语音增强技术替换声学场景（如办公室变机场），影响音频真实性。
部分伪造：仅修改 utterance 中部分词汇（如命名实体），伪造片段与原始说话人一致。

核心支撑资源：竞赛、数据集与评估指标

1. 代表性竞赛

ASVspoof 系列：聚焦保护自动说话人验证（ASV）系统，2021 年新增“深度伪造（DF）”任务，包含压缩音频检测。
ADD 系列：2022 年首次举办，涵盖低质量伪造（LF）、部分伪造（PF）等任务；2023 年新增“伪造区域定位（RL）”和“深度伪造算法识别（AR）”，突破二分类限制。

2. 基准数据集

数据集（Dataset）	年份（Year）	语言（Language）	目标（Goal）	伪造类型（Fake Types）	条件（Condition）	采样率（SR/Hz）	总时长（#Hours）	真实语音数（#Real Utt）	伪造语音数（#Fake Utt）	可访问性（Accessibility）
ASVspoof 2021（DF）	2021	英文	检测	VC、TTS	干净、嘈杂	16k	325.8	22,617	589,212	公开
ADD 2022（LF）	2022	中文	检测	TTS、VC	嘈杂	16k	222.0	36,953	123,932	受限
ADD 2022（PF）	2022	中文	检测	部分伪造	干净	16k	201.8	23,897	127,414	受限
ADD 2023（FG-D）	2023	中文	游戏伪造	TTS、VC	干净、嘈杂	16k	394.7	172,819	113,042	受限
In-the-Wild	2022	英文	检测	TTS	干净、嘈杂	16k	38.0	19,963	11,816	公开
WaveFake	2021	英文	检测	TTS	干净	16k	196.0	0	117,985	公开
FoR	2019	英文	检测	TTS	干净	16k	150.3	108,256	87,285	公开

关键特点：早期数据集多为 ASV 系统设计，且类型单一；近年数据集（如 ADD 2023、In-the-Wild）更贴近真实场景，包含多类型伪造与噪声干扰。

3. 评估指标

等错误率（EER）：核心指标，指假阳性率（P_fa） 与漏检率（P_miss） 相等时的错误率，公式如下：
- (P_{fa}(\theta)=\frac{#{ fake trials with score >\theta}}{#{ total fake trials }})
- (P_{miss }(\theta)=\frac{#{ genuine trials with score <\theta}}{#{ total genuine trials }})
- (EER = P*{fa}(\theta*{EER}) = P*{miss}(\theta*{EER}))
加权等错误率（WEER）：ADD 竞赛“音频伪造游戏”任务的最终排名指标，公式为 (WEER=\alpha _ EER_{-}R1+\beta _ EER*{-}R2)，其中(\alpha)、(\beta)为权重，(EER*{-}R1)、(EER_{-}R2)为两轮评估的 EER。

关键技术模块

1. 鉴别特征（Discriminative Features）

特征提取是流水线检测器的关键模块。特征提取的目标是通过从语音信号中捕捉音频伪造痕迹来学习具有辨别性的特征。大量研究已经表明，有用的特征对于检测伪造攻击至关重要。

以往研究中使用的特征大致可分为四类：短期频谱特征、长期频谱特征、韵律特征和深度特征。短期和长期频谱特征主要依靠数字信号处理算法提取。此外，韵律特征也被用于检测伪造语音。上述大多数频谱特征和韵律特征都是手工设计的特征，由于手工表示方法的局限性，其设计存在偏差。因此，通过基于深度神经网络的模型提取的深度特征旨在弥补这一缺陷。

不同特征的特点和关系如下图所示。

（1）短期频谱特征（Short-term Spectral Features）

基于短时傅里叶变换（STFT），帧长通常 20-30ms，分为幅度特征与相位特征：

幅度特征：
- 基于幅度谱：对数幅度谱（LMS）、残差对数幅度谱（RLMS）。
- 基于功率谱：对数功率谱（LPS）、倒谱（Cep）、滤波器组倒谱系数（如 MFCC、LFCC、RFCC、IMFCC）、全极点建模倒谱系数（APCC）、子带频谱特征（SS）。
相位特征：
- 基于群延迟（GD）：GD、改进 GD（MGD）、MGD 倒谱系数（MGDCC）。
- 其他相位特征：瞬时频率（IF）、基带相位差（BPD）、相对相移（RPS）、余弦相位（CosPhase）。

（2）长期频谱特征（Long-term Spectral Features）

用于捕捉语音长程信息，按时频分析方法分类：

基于短时傅里叶变换（STFT）：调制谱（ModSpec）、移位 delta 系数（SDC）、频域线性预测（FDLP）、局部二值模式（LBP）。
基于常数 Q 变换（CQT）：CQT 谱（CQTgram）、CQT 倒谱系数（CQCC，ASVspoof/ADD 基准特征）、扩展 CQCC（eCQCC）、CQT 改进群延迟（CQTMGD）。
基于希尔伯特变换（HT）：平均希尔伯特包络系数（MHEC）。
基于小波变换（WT）：梅尔小波包系数（MWPC）、耳蜗滤波器倒谱系数（CFCC、CFCCIF）。

（3）韵律特征（Prosodic Features）

覆盖较长语音片段（音节重音、语调模式、语速、节奏等），核心包括：

基频（F0）：又称音高，合成语音与自然语音的 F0 轨迹差异明显，可通过 YAPPT 算法提取。
时长（Duration）：如音素时长，可通过预训练 HuBERT 模型提取编码向量。
能量（Energy）：窗口长 25ms、步长 10ms 提取，反映语音强度变化。

（4）深度特征（Deep Features）

上述频谱特征和韵律特征几乎都是手工设计的特征，具有强大且理想的表征能力。然而，由于手工表征的局限性，它们的设计存在偏差缺陷。因此，深度特征被用于填补这一空白。深度特征通过深度神经网络学习获得，大致可分为：可学习频谱特征、有监督嵌入特征和自监督嵌入特征。

可学习频谱特征：
- 部分可学习：如 Learned FBCC、ConvRBM、nnAudio、FastAudio。
- 完全可学习：如 TD-FBanks、SincNet（RawNet2 首层）、LEAF（Gabor 滤波器层）。
有监督嵌入特征：基于有监督训练的深度嵌入，包括欺骗嵌入、情感嵌入、说话人嵌入、发音嵌入。
自监督嵌入特征：从预训练自监督模型提取，如 Wav2vec 2.0、XLS-R（ADD 2022 LF 任务冠军用特征）、HuBERT。

2. 分类算法（Classification Algorithms）

（1）传统分类（Traditional Classification）

许多经典的模式分类方法已被用于检测伪造语音，包括逻辑回归（LR）、概率线性判别分析（PLDA）、随机森林（RF）、梯度提升决策树（GBDT）、极限学习机（ELM）、k 近邻（KNN）等。最广泛使用的分类器是支持向量机（SVM）和高斯混合模型（GMM）。

支持向量机（SVM）：早期常用，单类 SVM（仅用真实语音训练）对未知攻击泛化性好。
高斯混合模型（GMM）：ASVspoof 2017/2019/2021、ADD 2022 的基准模型，通过期望最大化算法训练，在 ASVspoof 2015 中准确率表现稳定。
其他：逻辑回归（LR）、随机森林（RF）、梯度提升决策树（GBDT）、极端学习机（ELM）、K 近邻（KNN）等。

（2）深度学习分类（Deep Learning Classification）

最新的伪造音频检测系统的后端分类大多基于深度学习方法，由于其强大的建模能力，这些方法的性能显著优于基于支持向量机（SVM）和高斯混合模型（GMM）的分类器。后端分类的模型架构通常基于卷积神经网络（CNN）、深度残差网络（ResNet）、改进的残差网络（Res2Net）、挤压激励网络（SENet）、图神经网络（GNN）、可微分架构搜索（DARTS）和 Transformer。

分类器类型	代表模型	优势	不足
基于 CNN	LCNN（基准）、VGG-like	捕捉局部空间相关性，MFM 激活降本去噪	深层网络难训练，易性能下降
基于 ResNet	ResNet-34、AFN、ResMax	残差连接避免性能退化，AFN 增强时频特征	对未知攻击泛化性有限
基于 Res2Net	Res2Net	扩大感受野，提升未知伪造泛化性	未考虑通道关系
基于 SENet	SENet、ASSERT	建模通道间依赖，ASSERT 结合 ResNet 性能优	深层网络难训练，未学习子带/片段关系
基于 GNN	GAT	建模时域片段/频谱子带关系	无法自动优化网络结构
基于 DARTS	PC-DARTS、Light DARTS	自动优化网络操作，参数少（比 Res2Net 少 85%）	训练难度大
基于 Transformer	Transformer、ResNet-1D	建模局部与全局伪造成分关系	计算成本高

3. 端到端模型（End-to-End Models）

近年来，基于深度神经网络、以端到端方式整合特征提取和分类的方法取得了具有竞争力的性能，其中特征提取器和分类器均直接在原始语音波形上进行联合优化。端到端模型避免了因使用基于知识的特征而带来的局限性，并且是针对具体应用进行优化，而非进行通用分解。音频深度伪造检测的端到端架构大致可分为四类：CNN、RawNet2、ResNet、GNN、DARTS 和 Transformer。

其直接处理原始音频，联合优化特征与分类，核心类型如下：

基于 CNN：CRNNSpoof（5 个 1D 卷积层+双向 LSTM）、TSSDNet（含 Inception 结构，泛化性优）。
基于 RawNet2：RawNet2（Sinc 滤波器首层）、TO-RawNet（正交卷积降低滤波器相关性，性能超 RawNet2）。
基于 ResNet：Res-TSSDNet（残差连接提升性能）、RW-ResNet（Conv1D 残块+ResNet34）。
基于 GNN：RawGAT-ST（谱时域 GAT）、AASIST（异构图注意力，性能超 RawNet2，轻量版 AASIST-L 表现佳）。
基于 DARTS：Raw PC-DARTS（自动优化网络结构与参数）。
基于 Transformer：Rawformer（卷积+Transformer 建模位置依赖）、SE-Rawformer（ squeeze-and-excitation 操作提升局部依赖捕捉）。

4. 泛化方法（Generalization Methods）

尽管现有的大多数音频深度伪造检测方法在域内测试中表现出色，但在现实场景中处理域外数据集时，其性能会急剧下降。换句话说，音频深度伪造检测系统的泛化能力仍然较差。已有多项尝试从不同角度应对这一挑战，例如损失函数和持续学习等方面。

损失函数优化：
- 大边际余弦损失（LMCL）：结合数据增强提升特征鲁棒性。
- 单类学习：构建真实语音紧凑表示，用角度边际分离伪造语音，ASVspoof 2019 LA 任务表现超现有单系统。
- 说话人吸引子多中心单类学习（SAMO）：真实语音聚类于多个说话人吸引子，推开伪造语音，考虑说话人多样性。
持续学习：
- DFWF（Detecting Fake Without Forgetting）：正则化-based 方法，增量学习新攻击，无需旧数据但易误差累积。
- RAWM（Regularized Adaptive Weight Modification）：放松 DFWF 约束，自适应权重修改，克服灾难性遗忘，性能超多数持续学习方法。

五、性能对比与关键发现

1. 特征性能对比（基于 ASVspoof 2021、ADD 2023 训练，跨数据集评估）

特征组合	ASVspoof 2021 DF 测试集 EER（%）	In-the-Wild 测试集 EER（%）	ADD 2023 FG-D 测试集 EER（%）
XLS-R（自监督特征）	21.58（LCNN）	39.82（GMM）	35.61（LCNN）
LFCC（手工特征）	25.25（GMM）	37.49（LCNN）	57.14（LCNN）
A+B+C+XLS-R（韵律+自监督）	20.19（ASSERT）	34.56（ASSERT）	31.11（ASSERT）
单一韵律特征（如 F0）	38.29（LCNN）	61.11（LCNN）	65.73（LCNN）

关键发现：自监督特征（XLS-R）、手工特征（LFCC）及两者与韵律特征的融合，在跨数据集评估中表现更稳健；单一韵律特征性能较差。

2. 分类器性能对比（基于 LFCC、XLS-R 特征）

域内表现：AFN、GAT 在 ASVspoof 2021 DF 任务中 EER 最低（14%-15%）。
跨域表现：所有分类器在 In-the-Wild（真实场景、不同语言）测试集 EER 均上升，GAT 上升约 10%，表明跨域鲁棒性不足。

3. 端到端模型性能对比

模型	基于 ASVspoof 2021 训练 - ASVspoof 2021 DF EER（%）	基于 ASVspoof 2021 训练 - In-the-Wild EER（%）	基于 ADD 2023 训练 - ADD 2023 FG-D EER（%）	基于 ADD 2023 训练 - In-the-Wild EER（%）
RawNet2	24.32	36.74	54.51	40.35
AASIST	19.77	34.81	48.66	37.63

关键发现：AASIST 性能优于 RawNet2，但跨数据集（如 In-the-Wild）时 EER 均上升 10%-15%，真实场景适应性需提升。

挑战与未来方向

数据集挑战：现有数据集多为模拟场景，缺乏大规模真实场景（野生）数据集；且以英文为主，需构建多语言数据集以实现语言无关检测。
模型泛化性：现有方法在域内（如 ASVspoof 2021）表现优，但对未知伪造攻击、未知声学条件、未知语言的泛化性差，需进一步优化损失函数与持续学习方法。
深度伪造技术对抗：伪造技术快速迭代（音频更逼真），现有检测方法易被新攻击突破；ADD 竞赛的“伪造-检测对抗游戏”需更智能的机制。
检测结果可解释性：当前多聚焦二分类，需实现伪造区域定位（如 ADD 2023 RL 任务）、伪造算法溯源（如 ADD 2023 AR 任务），并提升结果可解释性以支撑音频取证。
评估指标优化：需验证 EER 的合理性，结合人类检测能力，探索更贴合实际应用的指标。

结论

音频深度伪造检测是保障社会安全的关键领域，现有研究在特征设计、分类算法、端到端模型上取得进展，但仍面临真实场景数据集缺乏、泛化性不足、可解释性差等挑战。未来需通过构建更贴近实际的数据集、提升模型鲁棒性与可解释性，推动检测技术落地应用。

AI 生成的关键问题

问题 1：当前音频深度伪造检测领域，哪些特征在跨数据集（如从 ASVspoof 2021 到 In-the-Wild）评估中表现更稳健？其核心原因是什么？

答案

在跨数据集评估中，自监督嵌入特征（如 XLS-R） 和手工特征中的 LFCC 表现更稳健，例如：

基于 ASVspoof 2021 训练时，XLS-R 在 In-the-Wild 测试集的 EER 为 39.82%（GMM 分类器），低于 MFCC（53.81%）、LPS（65.38%）等特征；
LFCC 在 ADD 2023 FG-D 测试集的 EER 为 57.14%（LCNN 分类器），跨到 In-the-Wild 测试集时 EER 为 60.95%，波动小于 MFCC（从 60.72%升至 71.26%）。

核心原因：

XLS-R：基于 53 种语言、5.6 万小时音频预训练，学习到的语音表征具有更强的跨语言、跨场景迁移能力，能捕捉不同数据集中共有的伪造成分（如 TTS 生成的韵律不自然性）；
LFCC：采用线性三角滤波器，在高频区域保留更多细节，而深度伪造音频（如 TTS、VC）常在高频存在细微 artifacts（如频谱平滑过度），这些细节在不同数据集中具有一致性，因此跨域鲁棒性优于 MFCC（梅尔尺度对高频分辨率低）。

问题 2：端到端模型（如 AASIST）相比传统流水线模型（如“CQCC+GMM”），在音频深度伪造检测中优势与不足分别是什么？

答案

（1）优势

性能更优：AASIST 在 ASVspoof 2021 DF 任务测试集的 EER 为 19.77%，低于传统“CQCC+GMM”模型的 25.56%（ASVspoof 2021 训练），因其通过异构图注意力建模了时频维度的伪造成分，能捕捉更复杂的伪造特征；
无需手工特征设计：直接处理原始音频，避免了手工特征（如 CQCC）的设计偏差（如依赖先验知识，可能遗漏未知伪造成分），例如在 ADD 2023 FG-D 任务中，AASIST 无需调整特征提取逻辑即可适配“游戏伪造”场景；
端到端联合优化：特征提取与分类过程联合训练，能针对检测任务优化表征学习，而流水线模型的特征与分类器是独立优化，可能存在特征与分类器不匹配问题（如 CQCC 特征对部分伪造的捕捉不足，导致 GMM 分类器漏检）。

（2）不足

训练成本高：AASIST 需处理原始音频（16kHz 采样率），且包含多层图注意力结构，训练时需 200 个 epoch、批量大小 32，计算资源消耗远高于“CQCC+GMM”（GMM 训练仅需期望最大化算法，计算量小）；
跨域泛化性仍不足：AASIST 基于 ASVspoof 2021 训练时，在 In-the-Wild 测试集的 EER 为 34.81%，虽低于 RawNet2（36.74%），但仍比域内 EER（19.77%）上升 15%以上，表明对真实场景中未知噪声、伪造类型的适应性仍不如传统模型（如“XLS-R+ASSERT”跨域 EER 波动更小）；
可解释性差：端到端模型的特征学习过程“黑箱化”，难以定位具体伪造成分（如部分伪造中的修改词汇），而流水线模型的 CQCC 特征可通过频谱分析追溯伪造成因，更适用于音频取证场景。

问题 3：当前音频深度伪造检测面临的“未知伪造攻击泛化性差”问题，有哪些已探索的解决思路？其效果如何？

答案

当前针对“未知伪造攻击泛化性差”的问题，主要有损失函数优化和持续学习两大解决思路，效果如下：

（1）损失函数优化

大边际余弦损失（LMCL）+ 数据增强：
- 思路：通过 LMCL 增大真实与伪造语音在特征空间的边际，结合在线频率掩码增强数据多样性，迫使模型学习更鲁棒的特征；
- 效果：在 ASVspoof 2019 LA 任务中，该方法的 EER 低于传统交叉熵损失模型，对未知 TTS 攻击的检测准确率提升约 8%。
说话人吸引子多中心单类学习（SAMO）：
- 思路：将真实语音聚类于多个“说话人吸引子”周围，在高维空间中推开所有伪造语音，兼顾说话人多样性（避免单一中心导致的真实语音覆盖不足）；
- 效果：在 ASVspoof 2019 LA 任务中，EER 比传统单类学习（单一中心）低 3.2%，对未知 VC 攻击的泛化性提升 10%以上。

（2）持续学习

DFWF（Detecting Fake Without Forgetting）：
- 思路：基于正则化约束，在学习新伪造攻击时保留旧攻击的知识，无需存储旧数据；
- 效果：在 ADD 2022 PF 任务（部分伪造）中，新增“词汇替换伪造”数据后，模型对旧攻击（如整句 TTS）的检测 EER 仅上升 2.1%，低于直接微调（上升 8.5%），但存在误差累积问题，持续学习 5 轮后 EER 上升 5.3%。
RAWM（Regularized Adaptive Weight Modification）：
- 思路：放松 DFWF 的正则化约束，加入自适应权重修改，动态调整新/旧知识的权重，克服灾难性遗忘；
- 效果：在 ADD 2023 RL 任务（伪造区域定位）中，持续学习 6 种未知攻击后，EER 比 DFWF 低 4.7%，且误差累积量减少 60%，是当前持续学习在该领域的最优方法之一。

总结

两类方法均能一定程度提升未知攻击泛化性，但仍有局限：损失函数优化依赖对伪造类型的先验认知，持续学习则需平衡新/旧知识权重，未来需结合自监督预训练（如 XLS-R 的跨域能力）进一步突破。

《Audio Deepfake Detection: A Survey》 综述阅读