美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

0 阅读2分钟

梅尔频谱:该退休了

音频生成领域有个"老伙计"叫梅尔频谱,用了十几年。它的工作是把声波转换成频谱表示,方便模型处理。但问题是:转换过程有信息损耗,就像把高清照片压缩成缩略图,细节丢了

美团LongCat团队说:既然有损耗,那就别转换了,直接在波形上建模。

这就是LongCat-AudioDiT的核心创新:彻底告别梅尔频谱,在波形潜空间直接生成

美团开源LongCat-AudioDiT

两段式架构:极简即极强

传统TTS系统是"预测声学特征→神经声码器→波形",三个阶段串联,误差逐级累积。LongCat-AudioDiT砍掉中间环节,只剩两段:

Wav-VAE(波形变分自编码器)  把24kHz波形压缩2000倍,但通过非参数捷径分支保留原始时频结构。压缩不丢信息,重建不失真。

语义增强DiT(扩散Transformer)  融合UMT5文本编码器的原始词嵌入,补齐高层语义丢失的音素细节。生成的语音不仅像,而且听得懂。

音色漂移:终于治好了

流匹配TTS有个顽疾:生成过程中说话人的音色会"漂移",说着说着声音变了。

LongCat团队找到病因:训练-推理不匹配。训练时模型知道完整音频,推理时只能看到开头,后面的生成是"盲猜"。

解决方案是双重约束机制:在推理中强制重置提示区域隐变量,让模型"记住"说话人的音色特征。彻底根治漂移问题。

APG:比CFG更聪明的引导方式

传统无分类器引导(CFG)会放大引导信号,但也会引入噪声,导致频谱"过饱和"——听起来像"机器人说话"。

自适应投影引导(APG)的做法是:只筛选有益的引导分量,抑制导致劣化的信号。结果是在不牺牲音质的前提下,显著提升自然度。

0.818相似度:SOTA新标杆

Seed基准测试是语音克隆的"奥林匹克"。LongCat-AudioDiT交出的成绩单:

  • Seed-ZH测试集:相似度0.818
  • Seed-Hard难句测试集:相似度0.797
  • 英文WER:1.50%
  • 中文难句CER:6.04%

全部超越Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型。

更惊人的是:LongCat仅通过ASR转写预训练数据单阶段训练,就打败了多阶段训练的对手。极简架构,极致性能

开源:让行业一起进化

美团没有把技术锁在保险柜,而是选择全开放:

这是中国企业在AI开源领域的又一贡献。端到端架构成为新范式,梅尔频谱成为历史,整个行业一起进化。 文章来源:AITOP100,原文地址:www.aitop100.cn/infomation/…