讯飞SMART-TTS语音合成系统提升AIGC的多样化应用

830 阅读2分钟

人工智能正在涌现出多种创新型应用方式,其中涉及的领域包括写作、绘画、作曲和视频剪辑等。根据信息技术研究机构Gartner的预测,到2025年,生成式AI将占所有生成数据的10%,AIGC有潜力产生数万亿美元的经济价值。

语音合成技术在其中扮演着至关重要的角色,如何实现人机交互场景下语音合成的拟人化情感化,以及音色、韵律和口音的语义控制,是科大讯飞近年来不断探索的方向。讯飞的SMART-TTS多风格多情感语音合成系统,是在这方面取得的一项重要突破。

407yuyin hec.jpg SMART-TTS的合成语音效果已经超过了4.6MOS分,和专业声音演员录音水平的差距小于0.05分,媲美真人,更加自然真实。除此之外,系统可提供11种情感,每种情感有20档强弱度不同的调节功能,用户可在广告、直播、纪录片、游戏解说等多个场景中使用,在使用场景的丰富性和调节的精细度方面,SMART-TTS均有出色表现。

作为“讯飞超脑2030计划”中“多维表达”的核心技术之一,SMART-TTS还能够自行调节声音停顿、重音和语速等元素,具有良好的灵活性和可塑性。此外,科大讯飞还推出了AIGC内容创作平台——讯飞智作和针对词曲作者和采买方的词曲创作交易平台——词曲家平台。这两个平台均采用了人工智能技术,能够帮助用户更快、更省、更独特地完成音视频内容的创作和制作。

科大讯飞还将继续发挥其在认知智能大模型核心技术的研发基础及国家重点实验室、工程研究中心等国家级平台的影响力,以AI技术赋能各行各业的数字经济发展与产业进步。