AI开口“飚”方言!阿里Qwen-TTS发布,从京腔到川普,7种宝藏音色任你选

1,005 阅读3分钟

你是否已经厌倦了千篇一律、毫无感情的AI语音?现在,改变的时刻到了!阿里巴巴通义千问团队重磅发布了全新的语音生成模型——Qwen-TTS,它不仅能说一口流利的中英双语,更能“飚”起地道的方言,让你的AI从此有了乡音、有了情感、有了“人味儿”!

image.png

核心亮点:不止普通话,更是家乡话

Qwen-TTS 本次最令人惊艳的突破,莫过于对三种特色中文口音的精准还原:

  • 地道京味儿(音色: Dylan): “那都不是事儿!”一口纯正的京腔,带着标志性的儿化音,无论是讲故事还是侃大山,都京味儿十足。
  • 吴侬软语(音色: Jada): “侬好呀!”细腻婉转的上海口音,将江南水乡的温婉与灵动注入语音之中,生动还原沪语风情。
  • 麻辣川普(音色: Sunny): “巴适得板!”热情直率的四川口音,抑扬顿挫间充满了乐天与幽默,让语音充满鲜活的生命力。

image.png

七大宝藏音色,中英无缝切换

除了方言,Qwen-TTS还提供了7种精心打磨的高品质音色,并且 所有音色均支持中英文无缝混合朗读,语调自然流畅,告别生硬的“机器翻译腔”。

  • 女声: Cherry (活泼灵动), Chelsie (柔和亲切), Serena (优雅知性), Jada (上海话), Sunny (四川话)
  • 男声: Ethan (沉稳磁性), Dylan (北京话)

无论你需要的是短视频的元气配音、有声书的沉稳旁白,还是智能客服的亲切问候,总有一款音色能完美契合你的需求。

image.png

硬核实力:是什么让声音如此“逼真”?

惊艳效果的背后,是强大的技术实力支撑。

  • 海量数据训练: 模型基于超过 300万小时 的高质量语音数据进行训练,使其在韵律、情感和节奏控制上达到了媲美真人的水准。
  • 极速响应: 支持流式输出,首包响应时间低于400毫秒,完全满足实时语音交互、虚拟主播等场景的需求。
  • 权威评测认可: 在行业权威的 SeedTTS-Eval 评测集中,Qwen-TTS的自然度表现优异,词错误率(WER)极低,音色相似度(SIM)极高。

image.png

一键调用,让你的应用即刻“能说会道”

对于开发者而言,接入Qwen-TTS极其便捷。通过通义千问API,仅需几行代码,即可为你的应用赋予强大的语音能力。

import dashscope

response = dashscope.audio.qwen_tts.SpeechSynthesizer.call(
    model="qwen-tts-latest", 
    text="胖娃胖嘟嘟,骑马上成都", 
    voice="Sunny" # 切换 voice 即可体验不同音色和方言
)

# 获取可直接播放或下载的语音URL
audio_url = response.output.audio["url"]
print(f"语音已生成,链接:{audio_url}")

总结

Qwen-TTS的发布,不仅是一次技术升级,更是AI语音走向个性化、情感化和本土化的重要一步。从影视配音、有声阅读到虚拟人和智能硬件,一个充满无限可能的语音新时代正向我们走来。

准备好,让你的AI开口说家乡话了吗?

image.png


如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站