DiffVox：让人声音效风格迁移进入「可控、轻量、专业」的新时代没有效果器、没有混响、没有压缩——只有一段朴素的人声。

没有效果器、没有混响、没有压缩——只有一段朴素的人声。过去，这意味着从零开始调：效果链、参数、风格，全靠经验一点点堆出来。现在，DiffVox 代表了另一种可能：让模型理解目标音色的特征分布，并在推理阶段主动向其收敛。
DiffVox 由索尼 AI、索尼集团与伦敦玛丽女王大学团队联合推出，专注于人声音效风格迁移的智能化处理流程。系统结合推理时优化（Inference-Time Optimisation, ITO）与高斯先验约束，在保持输入音高与语句结构的前提下，对参考音色的亮度、动态、空间感与饱满度进行参数化建模。模型在生成阶段会迭代搜索最符合目标风格的效果特征，使输出在听感上逼近专业混音棚的质感，同时具备可控性与可解释性。
相比传统依赖离线训练或固定效果链的方案，DiffVox 无需复杂工程流程，也无需手动调参，即可实现跨风格的自动化人声重塑，为创作者提供轻量而一致的声音处理体验。
换句话说，DiffVox 并不是又一套「黑箱式音频效果器链」，而是一种能够在推理阶段重塑音色与效果分布的智能人声处理方案——让「让干声拥有目标混音质感」成为一件可控、轻量、且具专业水准的事。

教程链接：go.openbayes.com/JFCL9
使用云平台: OpenBayes
openbayes.com/console/sig…

首先点击「公共教程」，找到「DiffVox: 声音区分效果模型」，单击打开。

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

数据和代码都已经同步完成了。容器状态显示为「运行中」后，点击「API 地址」，即可进入模型界面。

使用步骤如下：

相关参数说明
主控与预设
Rapid Audio

作用：主控制面板，包含音频处理的核心功能和预设选择
说明：这是整个效果处理链的入口，负责协调所有效果模块的工作

Dry/Wet Ratio

作用：控制干声（原始声音）和湿声（处理后的声音）的混合比例
说明：
- 0%：完全干声，只输出原始声音
- 50%：干湿声平衡混合
- 100%：完全湿声，只输出处理后的声音
应用：用于控制效果处理的强度，避免过度处理

Output Audio

作用：最终混合后的输出音频
说明：经过所有效果处理和干湿混合后的完整结果

Dry Audio

作用：未经任何效果处理的原始干声
说明：保留了录音的原始特性，用于对比或后期处理

Wet Audio

作用：经过所有效果处理后的湿声
说明：包含均衡、压缩、延迟、混响等所有效果的声

Select Preset（1~365）

作用：预设效果库选择
说明：
- 包含 365 种专业调校的效果预设
- 涵盖各种音乐风格和声音特性
- 可作为起点进行个性化调整

参数均衡器
Parametric EQ

作用：精确的音色调节工具
说明：通过多个滤波器对特定频段进行增强或衰减，塑造声音的频谱特性

High Pass（高通滤波器）

作用：切除指定频率以下的低频成分
应用：
- 去除呼吸声、风声等低频噪声
- 减少浑浊感，增加清晰度
- 典型设置：80-120

Low Shelf（低频搁架式均衡器）

作用：整体提升或衰减所有低频
应用：
- 增加声音的厚度和温暖感
- 减少低频轰鸣声
- 典型频率：100-250 H

Peak Filter（峰值滤波器）

作用：针对特定频率点进行精确调节
应用：
- 消除共振峰
- 增强人声的临场感
- 修正特定频段的音色问题

High Shelf（高频搁架式均衡器）

作用：整体提升或衰减所有高频
应用：
- 增加空气感和亮度
- 减少刺耳的高频
- 典型频率：8-12 kHz

Frequency

作用：选择要处理的中心频率
说明：决定滤波器作用的频点位置

Gain

作用：控制频率的增强或衰减程度
范围：-12 dB 到 +12 dB
正值：增强该频率
负值：衰减该频率

作用：控制受影响频率范围的宽窄
说明：
- 高 Q 值：影响范围窄，针对性强
- 低 Q 值：影响范围宽，效果平滑
应用：窄 Q 用于精确修正，宽 Q 用于整体调节

压缩器和扩展器
Compressor and Expander

作用：动态范围处理器
功能：压缩器减小动态范围，扩展器增大动态范围

Threshold

作用：设定压缩/扩展开始的电平阈值
说明：
- 高于此电平的信号会被压缩
- 低于此电平的信号会被扩展
范围：-60 dB 到 0 dB

Comp.Ratio（压缩比）

作用：控制压缩的强度
说明：
- 2:1：轻度压缩
- 4:1：中等压缩
- 10:1：强压缩
- ∞:1：限制器效果

Make up（增益补偿）

作用：补偿压缩后的电平损失
应用：使压缩后的音量与压缩前相当

Attack Time（启动时间）

作用：控制压缩器开始工作的速度
说明：
- 快启动：保留瞬态，增加冲击感
- 慢启动：软化瞬态，声音更平滑
范围：0.1-100 ms

Release Time（释放时间）

作用：控制压缩器停止工作的速度
说明：
- 快释放：恢复动态快，可能产生抽吸效应
- 慢释放：恢复动态慢，效果更自然
范围：50-1000 ms

Exp. Ratio（扩展比）

作用：控制扩展的强度
说明：
- 1:2：信号低于阈值时电平减半
- 1:10：强扩展，有效降低噪声
范围：0-1（实际为扩展比的倒数）

Exp. Threshold（扩展阈值）

作用：设定扩展器开始工作的电平点
说明：低于此阈值的信号会被进一步衰减

RMS Averaging coefficient

作用：控制压缩器对信号响应的敏感度
说明：
- 高值：对平均音量敏感，响应平滑
- 低值：对瞬时峰值敏感，响应快速
应用：根据音乐风格和需求调整响应特性

乒乓延迟
Ping-Pong Delay

作用：立体声延迟效果
特点：回声在左右声道之间交替跳动

Delay Time

作用：控制回声的时间间隔
范围：100-1000 ms
应用：
- 短延迟：增加空间感和厚度
- 长延迟：创造明显的回声效果

Feedback

作用：控制回声的重复次数
说明：
- 低反馈：少量回声
- 高反馈：多次重复，可能产生自激
范围：0-1

Gain

作用：控制延迟效果的音量
范围：-80 dB 到 0 dB

Odd/Even Delay Pan

作用：分别控制奇数和偶数次回声的声像位置
说明：
- -100：完全左声道
- 0：居中
- 100：完全右声道
应用：创造立体的空间移动效果

Low Pass Frequency

作用：对延迟回声进行低频滤波
应用：
- 模拟自然衰减的高频损失
- 创造温暖、不刺耳的回声

Reverb Send

作用：控制延迟信号发送到混响的量
应用：为延迟回声增加空间感，创造更自然的效果

FDN 混响
FDN Reverb

作用：高质量数字混响效果
特点：基于反馈延迟网络，提供自然的空间模拟

Tone Correction（PEQ）

作用：混响效果内部的均衡器
功能：
- 调节混响尾音的频率特性
- 控制混响的明亮度或温暖度
- 避免混响与主声冲突

Decay Time

作用：控制混响的衰减时间
说明：
- 短衰减：小房间效果
- 长衰减：大厅或教堂效果
范围：0-9 秒
应用：根据空间大小需求调整混响持续时间