讯飞推出聆系列主播,新一代智能语音合成引擎震撼登场

256 阅读2分钟

智能语音技术持续发展,未来面向人机交互的自然流畅性越来越受到关注。为此,近年来在语音合成通用框架方面做出了丰富的工作,例如VITS等端到端建模和韵律表征技术。

为提升语音合成性能,讯飞研究院推出了SMART-TTS框架,通过将学习过程模块化拆解、预训练加强各个模块学习来代替最初的直接学习文本与声学特征的映射方法。其中,文本编码预训练阶段能包含跟发音韵律相关的信息,韵律特征提取时采用对比学习方式,有利于增强对语音韵律的表征能力。声学特征则在编码基础上采用VAE等技术进行恢复。

SMATTS.jpg

SMART-TTS已在许多产品中得到应用,在讯飞开放平台、学习强国和讯飞有声APP中均可体验其语音合成效果。

除了SMART-TTS之外,讯飞研究院还开发了虚拟音色生成技术,用于为NPC或有声小说角色生成符合其性格的合成音色。该技术通过音色编码模块提取说话人相关表征,并在隐层表征空间投影、联合文本表征和韵律表征做语音合成,训练时也会标注相关音色特征标签,便于指导音色控制标签生成,提高指示性和内插等属性。

现在,该虚拟音色生成技术已能生成500多个符合音色控制标签的合成音色,自然度超过了4.0MOS。讯飞开放平台已推出聆系列主播,用户可以直接体验语音合成效果,而春季特惠更可享受七折优惠,活动截至2023年5月5日,点击下方链接即可体验。 www.xfyun.cn/services/on…