阿里最新开源,源码地址+部署脚本,支持多语种声音克隆

177 阅读6分钟

大家好,我是小悟。

一串文字输入进去,一个完全根据描述定制的声音就出来了,从声音特点到情感状态再到节奏快慢,一切都听从你的指令。

阿里通义千问的Qwen3-TTS模型正式开源了。看完所有功能介绍和性能数据,我发现声音生成的游戏规则正在被重新定义。

图片

这个名为Qwen3-TTS的语音生成系统,背后隐藏着远比表面看起来更强大的能力。它带来的不只是更多音色选择,而是根本上改变了我们与语音生成技术交互的方式。

功能全面:不只是合成语音那么简单

Qwen3-TTS到底是什么?简单点说,它是一个能让你随意创造、操控和克隆声音的智能系统。它不满足于传统的文本转语音,而是把声音变成一种可编程的媒介。

你可以通过自然语言告诉它想要什么样的声音:“高亢的男性嗓音,语调随兴奋情绪不断上扬,快速而充满活力”。

然后它会真的按照这些描述生成语音,系统支持10种主流语言和多种方言,从中文到意大利语,从标准发音到地方口音。

它开源的模型包含1.7B和0.6B两种尺寸,兼顾了极致性能和高效运行的不同需求。这意味着无论是研究机构还是应用开发者,都能找到适合自己场景的版本。

图片

图片

实际痛点:传统语音合成的三个瓶颈

使用传统语音合成技术时的体验,三个限制很明显。

第一是声音生硬,缺乏情感变化,听起来像机器在念稿。

第二是可控性差,很难调节语速、情感和语气细节。

第三是音色选择有限,要么是预定义的几种声音,要么需要大量数据训练才能克隆特定音色。对多数用户而言,想要一个特定类型的声音往往需要妥协。

Qwen3-TTS瞄准的正是这些痛点。它不只是提高声音的“自然度”,而是从根本上改变声音生成的控制维度。

现在声音的每一个特性都可以通过指令调整,这种能力以前只有专业音频工程师通过复杂处理才能实现。

核心创新:双向流式生成与多码本编码

Qwen3-TTS的核心突破集中在两个方面。技术层面,它采用了创新的Dual-Track双轨建模,实现了极致的双向流式生成速度,最快可以在输入单字后即刻输出音频首包,端到端合成延迟低至97毫秒。

这个速度意味着真正的实时交互成为可能。想象一下在线翻译、语音助手或游戏角色对话场景中,几乎没有延迟的语音反馈会带来完全不同的体验。

另一个关键技术是Qwen3-TTS-Tokenizer-12Hz多码本语音编码器。它不仅高效压缩语音信号,还能完整保留副语言信息和声学环境特征。

这意味着声音中的微妙情感线索、个人说话习惯甚至环境氛围都能被保留下来,让生成的声音更像真人发声。

图片

实际表现:声音创造与控制全面领先

Qwen3-TTS在多项评估中都达到了行业领先水平。在音色创造任务上,它在指令遵循能力和生成表现力上都超越了闭源模型,这对外部开发者来说是个好消息。

它支持基于自然语言描述生成定制化音色。用户可以输入声学属性、人设描述、背景信息等,系统就能生成符合期望的声音形象。

比如输入“17岁男性,男高音音域,逐渐获得自信”这样的描述,系统就能创造出相应的声音。

音色克隆能力同样出色,在相似度和稳定性上都超越了现有方案。值得一提的是,它支持音色复用,创造的声音可以被保存并重复使用,生成自然的多轮次多角色对话。

图片

图片

图片

应用场景:从无障碍服务到创意内容

Qwen3-TTS的能力会带来哪些实际应用变化?在无障碍服务领域,视障用户可以定制最适合自己理解习惯的声音,不再受限于有限的预设选项。

在教育和培训中,教师可以创造具有特定情感表达的声音,让数字内容更加生动吸引人。

影视和游戏行业可以利用它快速生成角色对话,甚至创造现实中不存在的声音类型。

普通用户也能用手机应用创造属于自己的语音助手声音,或者为有声读物和播客定制独特讲述者声音。

项目相关

本地安装与使用,源代码部署,更多详细步骤和用法,详见仓库文档:

环境配置
要快速使用 Qwen3-TTS,最简单的方法是从 PyPI 安装`qwen-tts` Python 包。这将拉取所需的运行时依赖项,并允许您加载任何已发布的 Qwen3-TTS 模型。
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

然后运行:
pip install -U qwen-tts

如果想在本地开发或修改代码,请以可编辑模式从源代码安装。
git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

此外,推荐使用 FlashAttention 2 来减少 GPU 内存使用。
pip install -U flash-attn --no-build-isolation

如果你的机器 RAM 小于 96GB 且拥有大量 CPU 核心,请运行:

MAX_JOBS=4 pip install -U flash-attn --no-build-isolation

开源社区:

ModerScopehttps://www.modelscope.cn/collections/Qwen/Qwen3-TTS
Github:https://github.com/QwenLM/Qwen3-TTS
HuggingFacehttps://huggingface.co/collections/Qwen/qwen3-tts

图片

最后

AI与声音的关系正在发生根本变化。这种变化将会渗透到我们与数字世界交互的每一个环节,从早晨的天气预报播报,到深夜的有声故事讲述,都可能由这样智能的系统生成。

虽然现在AI语音工具不少,但Qwen3-TTS的开源让我觉得,高质量的声音生成不再是少数大公司的专利。

开发者可以自由使用、甚至二次开发,这说不定会催生很多有趣的应用,比如有声书定制、虚拟人互动、甚至帮助语言障碍者发声。

图片

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海