DiffVox:让人声音效风格迁移进入「可控、轻量、专业」的新时代

39 阅读7分钟

没有效果器、没有混响、没有压缩——只有一段朴素的人声。过去,这意味着从零开始调:效果链、参数、风格,全靠经验一点点堆出来。现在,DiffVox 代表了另一种可能:让模型理解目标音色的特征分布,并在推理阶段主动向其收敛。
DiffVox 由索尼 AI、索尼集团与伦敦玛丽女王大学团队联合推出,专注于人声音效风格迁移的智能化处理流程。系统结合推理时优化(Inference-Time Optimisation, ITO)与高斯先验约束,在保持输入音高与语句结构的前提下,对参考音色的亮度、动态、空间感与饱满度进行参数化建模。模型在生成阶段会迭代搜索最符合目标风格的效果特征,使输出在听感上逼近专业混音棚的质感,同时具备可控性与可解释性。
相比传统依赖离线训练或固定效果链的方案,DiffVox 无需复杂工程流程,也无需手动调参,即可实现跨风格的自动化人声重塑,为创作者提供轻量而一致的声音处理体验。
换句话说,DiffVox 并不是又一套「黑箱式音频效果器链」,而是一种能够在推理阶段重塑音色与效果分布的智能人声处理方案——让「让干声拥有目标混音质感」成为一件可控、轻量、且具专业水准的事。

教程链接:go.openbayes.com/JFCL9
使用云平台: OpenBayes
openbayes.com/console/sig…

首先点击「公共教程」,找到「DiffVox: 声音区分效果模型」,单击打开。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「API 地址」,即可进入模型界面。

使用步骤如下:

相关参数说明
主控与预设
Rapid Audio

  • 作用:主控制面板,包含音频处理的核心功能和预设选择
  • 说明:这是整个效果处理链的入口,负责协调所有效果模块的工作

Dry/Wet Ratio

  • 作用:控制干声(原始声音)和湿声(处理后的声音)的混合比例
  • 说明
    • 0%:完全干声,只输出原始声音
    • 50%:干湿声平衡混合
    • 100%:完全湿声,只输出处理后的声音
  • 应用:用于控制效果处理的强度,避免过度处理

Output Audio

  • 作用:最终混合后的输出音频
  • 说明:经过所有效果处理和干湿混合后的完整结果

Dry Audio

  • 作用:未经任何效果处理的原始干声
  • 说明:保留了录音的原始特性,用于对比或后期处理

Wet Audio

  • 作用:经过所有效果处理后的湿声
  • 说明:包含均衡、压缩、延迟、混响等所有效果的声

Select Preset(1~365)

  • 作用:预设效果库选择
  • 说明
    • 包含 365 种专业调校的效果预设
    • 涵盖各种音乐风格和声音特性
    • 可作为起点进行个性化调整

参数均衡器
Parametric EQ

  • 作用:精确的音色调节工具
  • 说明:通过多个滤波器对特定频段进行增强或衰减,塑造声音的频谱特性

High Pass(高通滤波器)

  • 作用:切除指定频率以下的低频成分
  • 应用
    • 去除呼吸声、风声等低频噪声
    • 减少浑浊感,增加清晰度
    • 典型设置:80-120

Low Shelf(低频搁架式均衡器)

  • 作用:整体提升或衰减所有低频
  • 应用
    • 增加声音的厚度和温暖感
    • 减少低频轰鸣声
    • 典型频率:100-250 H

Peak Filter(峰值滤波器)

  • 作用:针对特定频率点进行精确调节
  • 应用
    • 消除共振峰
    • 增强人声的临场感
    • 修正特定频段的音色问题

High Shelf(高频搁架式均衡器)

  • 作用:整体提升或衰减所有高频
  • 应用
    • 增加空气感和亮度
    • 减少刺耳的高频
    • 典型频率:8-12 kHz

Frequency

  • 作用:选择要处理的中心频率
  • 说明:决定滤波器作用的频点位置

Gain

  • 作用:控制频率的增强或衰减程度
  • 范围:-12 dB 到 +12 dB
  • 正值:增强该频率
  • 负值:衰减该频率

Q

  • 作用:控制受影响频率范围的宽窄
  • 说明
    • 高 Q 值:影响范围窄,针对性强
    • 低 Q 值:影响范围宽,效果平滑
  • 应用:窄 Q 用于精确修正,宽 Q 用于整体调节

压缩器和扩展器
Compressor and Expander

  • 作用:动态范围处理器
  • 功能:压缩器减小动态范围,扩展器增大动态范围

Threshold

  • 作用:设定压缩/扩展开始的电平阈值
  • 说明
    • 高于此电平的信号会被压缩
    • 低于此电平的信号会被扩展
  • 范围:-60 dB 到 0 dB

Comp.Ratio(压缩比)

  • 作用:控制压缩的强度

  • 说明

    • 2:1:轻度压缩
    • 4:1:中等压缩
    • 10:1:强压缩
    • ∞:1:限制器效果

Make up(增益补偿)

  • 作用:补偿压缩后的电平损失
  • 应用:使压缩后的音量与压缩前相当

Attack Time(启动时间)

  • 作用:控制压缩器开始工作的速度
  • 说明
    • 快启动:保留瞬态,增加冲击感
    • 慢启动:软化瞬态,声音更平滑
  • 范围:0.1-100 ms

Release Time(释放时间)

  • 作用:控制压缩器停止工作的速度
  • 说明
    • 快释放:恢复动态快,可能产生抽吸效应
    • 慢释放:恢复动态慢,效果更自然
  • 范围:50-1000 ms

Exp. Ratio(扩展比)

  • 作用:控制扩展的强度
  • 说明
    • 1:2:信号低于阈值时电平减半
    • 1:10:强扩展,有效降低噪声
  • 范围:0-1(实际为扩展比的倒数)

Exp. Threshold(扩展阈值)

  • 作用:设定扩展器开始工作的电平点
  • 说明:低于此阈值的信号会被进一步衰减

RMS Averaging coefficient

  • 作用:控制压缩器对信号响应的敏感度
  • 说明
    • 高值:对平均音量敏感,响应平滑
    • 低值:对瞬时峰值敏感,响应快速
  • 应用:根据音乐风格和需求调整响应特性

乒乓延迟
Ping-Pong Delay

  • 作用:立体声延迟效果
  • 特点:回声在左右声道之间交替跳动

Delay Time

  • 作用:控制回声的时间间隔
  • 范围:100-1000 ms
  • 应用
    • 短延迟:增加空间感和厚度
    • 长延迟:创造明显的回声效果

Feedback

  • 作用:控制回声的重复次数
  • 说明
    • 低反馈:少量回声
    • 高反馈:多次重复,可能产生自激
  • 范围:0-1

Gain

  • 作用:控制延迟效果的音量
  • 范围:-80 dB 到 0 dB

Odd/Even Delay Pan

  • 作用:分别控制奇数和偶数次回声的声像位置
  • 说明
    • -100:完全左声道
    • 0:居中
    • 100:完全右声道
  • 应用:创造立体的空间移动效果

Low Pass Frequency

  • 作用:对延迟回声进行低频滤波
  • 应用
    • 模拟自然衰减的高频损失
    • 创造温暖、不刺耳的回声

Reverb Send

  • 作用:控制延迟信号发送到混响的量
  • 应用:为延迟回声增加空间感,创造更自然的效果

FDN 混响
FDN Reverb

  • 作用:高质量数字混响效果
  • 特点:基于反馈延迟网络,提供自然的空间模拟

Tone Correction(PEQ)

  • 作用:混响效果内部的均衡器

  • 功能

    • 调节混响尾音的频率特性
    • 控制混响的明亮度或温暖度
    • 避免混响与主声冲突

Decay Time

  • 作用:控制混响的衰减时间

  • 说明

    • 短衰减:小房间效果
    • 长衰减:大厅或教堂效果
  • 范围:0-9 秒

  • 应用:根据空间大小需求调整混响持续时间

相关参数设置: