听觉

有关声音的学习。

暂无订阅共3篇文章创建于2025-06-09

Seed-VC，DiT语音生成模型

留下阅读 (2024) Zero-shot Voice Conversion with Diffusion Transformers 的痕迹。 Zero-Shot 语音转换。

5月前
159
点赞
评论

BS-RoFormer，目前音频分离SOTA

从 mvsep 的 leaderboard 来看，BS-RoFormer 和 Mel-Band RoFormer 性能领先，是目前音乐分离任务的 SOTA。

7月前
669
点赞
评论

代码层面上解读ACE-Step

总览 ACE-Step 是文生音频模型。比 LLM 方法更快，目标是成为音频生成领域的 Stable Diffusion。好大的口气。

10月前
455
点赞
评论