微软全新文本转语音技术——笑声、情感、心情,AI语音逼真到惊人!

296 阅读3分钟

文本转语音一直是音频领域的热门研究方向。然而,由于传统技术的局限,生成的音频常常缺乏人类情感,显得机械和生硬。各大模型厂家都在致力于解决这个问题,将人类的情感融入文本转音频的过程中。

image.png

最近,OpenAI推出了全新的GPT-4o(“o”代表“omni”),该模型可以接受文本、音频和图像的任意组合输入,并生成相应的输出。GPT-4o的智能程度更高,交互方式更自然,能在短短232毫秒内响应音频输入,平均响应时间为320毫秒,与人类对话的反应时间相当。更令人惊喜的是,它生成的音频对话富有人类情感。然而,遗憾的是,OpenAI的这一模型通常不向普通用户开放,只有升级为plus会员后才能体验其功能,而且即使这样,也不一定能完全使用。

image.png 我们之前也介绍过微软的文本转语音(TTS)服务。微软的TTS服务开放了部分功能,用户可以通过几行Python代码轻松实现文本转语音。然而,传统的TTS生成的音频文件往往缺乏情感,语音语调单一,更别提笑声、叹气声等语气词了。为了弥补这一不足,微软最近发布了新的文本转语音服务,新增了笑声、语气词等,让生成的音频更加接近人类的自然对话。

image.png

微软的新TTS服务不仅添加了人类对话中的语气词,还加入了停顿、笑声等元素,效果简直就像真人聊天一样。借助Azure OpenAI GPT等大型语言模型(LLM)的强大功能,AI现在可以生成更加自然、流畅、高质量的响应。因此,在口头对话中,对TTS声音的自然性和表现力的要求比以往任何时候都更高。微软的新一代文本转音频模型,非常适合需要逼真语音交互的应用程序,如聊天机器人、语音助手、游戏、电子学习和娱乐等。

image.png

无论是创建语音聊天机器人、语音助手还是对话代理,这些新声音都能确保交互更加真实、引人入胜。与传统语音相比,针对对话优化的语音听起来更自然、更有吸引力,还包括笑声和充满停顿的语气词,为虚拟对话增添了人情味。

image.png

此外,微软的新一代文本转音频服务还提供了适用于各种场景的音频生成,包括对话、感叹词对话、冥想、新闻、诗歌、故事、电子学习、广告、定制服务和广播等,覆盖了生活中的许多场景。除了中文和英文外,模型还支持其他多种语言,是配音的绝佳帮手。

赶快试试微软的最新文本转语音服务,让你的音频生成更加自然生动吧!

企业免费申请通道

可以加我微信:Aider_或Frankyi1999 电话:19180589213