随着数字阅读时代的到来,人们在某些特定场景无法翻阅书籍时,“听”书成为了一种流行的选择。在地图导航中,基于语音合成的发音人系统实时播报路线与路况,其准确度和自然度可与人声相媲美。同时,在元宇宙中,运用语音合成技术完成的虚拟人交互,更加亲切自然。
近年来,随着人工智能技术的发展,语音合成技术已经广泛应用于人们生活中的多种场景。语音合成技术,也被称之为文语转换(Text-To-Speech),简称TTS,是将输入的文字信息转化为可听的、连续的语音输出的机器或者系统,赋予机器“能听会说”中的“说”的能力。
科大讯飞从一开始的牙白口清、字正腔圆到现在的声情并茂,始终坚持源头技术创新,持续追求让中文语音合成达到极度拟人化的效果。2008年,科大讯飞首次实现语音合成效果超过了普通人的说话水平。2019年,在国际语音合成大赛上,科大讯飞的自然度和相似度两项指标荣获第一,这已是连续14年稳坐冠军宝座。
语音合成技术的评价标准通常采用MOS分数进行评价,主要从流利度和自然度等方面进行人工综合评分。随着端到端深度学习逐渐拓展到语音合成领域,科大讯飞语音合成技术得到了质的飞跃。讯飞最新一代语音合成系统邀请业界语音语言学专家以及用户进行综合评测,结果显示MOS评分与真人录音之间的差距小于0.05分,达到了能够媲美人声的效果。
*MOS(Mean Opinion Score),平均主观意见分。在国际标准中,统一使用MOS值来评价系统合成出的话音质量。
讯飞一直致力于打造真实自然、情感丰富的合成音。其音库的构建关键在于两个方面,一方面是面对不同业务场景找到合适的声音,同时又能设计出适合这个场景和音色的录音风格;另一方面是在录音过程中,通过对发音人的指导和与发音人的沟通对话以及情绪的调动,使录出来的声音自然且情感丰富。最新一代合成技术利用深度学习框架进行技术升级,达到了媲美真人细腻情感表达的效果。
语音合成技术的应用前景十分广泛。在未来,语音合成技术将会在多语种、多模态合成方向进行发力,以满足元宇宙中跨语言、多模态的交流需求。另外,随着科技的进步,语音合成技术可以模仿人类说话,并能用于配音、新闻媒体创作等领域,甚至还可以用于音乐制作。生产语音技术会在不同的场景下选择不同的发音人,以更好地满足不同领域和应用场景的需求。在这一领域的未来,科技的革新和创新将会让语音合成技术更加高效、智能、自然,给人们带来更好的体验和服务。
同时,讯飞已面向广大用户开放了最新的语音合成系统,开发者们和B端客户可以在讯飞开放平台使用,C端用户下载讯飞有声APP即可体验。