利用语音解耦技术提升语音AI的多样性与包容性本文介绍了如何通过机器学习技术，特别是语音解耦，来分离和修改语音的语调、口音

利用语音解耦技术提升语音AI的多样性与包容性

会议背景

在2022年6月，某中心召开了re:MARS现场会议，该活动探讨机器学习、自动化、机器人技术和空间领域的进展与实际应用。会议汇聚了构建人工智能和机器学习未来的思想领袖与技术专家，内容涵盖主题演讲、创新聚焦以及一系列分组会议讨论。现在，通过“re:MARS重温”系列，某中心科学团队回顾了会议中的一些关键演讲和分组讨论。

演讲核心：语音解耦技术

2022年6月24日，某机构的高级软件开发经理与Alexa的高级语音科学家共同发表了题为“利用语音解耦技术提升语音AI的多样性与包容性”的演讲。他们的演示聚焦于语音解耦技术，以及如何利用该技术影响语音的各个方面——语调、措辞、语调、表现力和口音——以创建独特的Alexa响应。

演讲的核心主题是什么？

在本次演讲中，讨论了如何在文本到语音（TTS）中使用机器学习（ML）技术来改善多样性、公平性和包容性，使Alexa的响应能为每个人提供最佳体验。利用语音解耦技术来分离语音的不同方面，如语言、口音、年龄、性别和情感，以便可以修改这些方面，创建能说多种语言或口音的声音，或者以任何性别、年龄或口音创建新的声音。此外，还介绍了Alexa的偏好语速功能和耳语模式，这些功能帮助满足具有不同需求的用户。

预计这项工作在哪些应用中会产生最大影响？

语音产品的用户，如语音AI（Alexa）、交互式语音应答系统（IVR，例如某机构的连接服务）或Amazon Polly用户，将能够轻松地丰富其产品组合，提供多样化的TTS声音，可以说不同的口音或语言，具有不同的说话者特征（性别、年龄）或不同的风格，以适应其全球客户群的需求。

希望听众从演讲中获取哪些关键要点？

可以利用ML技术来修改语音的各个方面，并提高TTS声音的多样性和风格，从而满足不同客户的需求。

研究领域

对话式人工智能

利用语音解耦技术提升语音AI的多样性与包容性