使用API运行MiniMax Speech-02语音合成模型
Speech-02系列是文本转语音模型,能够创建具有情感表达的自然语音。该系列模型支持超过30种语言。
根据某机构语音竞技场评估,Speech-02-HD是当前最佳的文本转语音模型,而Speech-02-Turbo位列第三。
通过某平台,您可以用一行代码运行这些模型。
模型选择
提供两种模型选择:
- Speech-02-HD:适用于高质量配音和有声读物
- Speech-02-Turbo:更经济、更快速,最适合实时应用
两种模型都支持语音克隆功能。语音克隆需要至少10秒的音频,训练时间约30秒。每个语音都可以调整音调、速度和音量,使其听起来更自然。
应用场景
这些模型可帮助您创建:
- 声音自然的虚拟助手
- 具有录音室品质的有声读物和配音
- 具有母语发音的语言学习工具
- 支持多语言的客服机器人
- 适合偏好音频用户的无障碍内容
情感控制
情感控制系统有两种为语音添加情感的方式:
- 自动检测模式:从文本中分析情感基调
- 手动控制:设置您想要的确切情感
这使您的声音在娱乐、教育或商业内容中听起来自然且引人入胜。
语言支持
模型支持30多种语言和口音,包括:
- 英语变体(美式、英式、澳大利亚式和印度式)
- 亚洲语言(普通话、粤语、日语、韩语、越南语和印尼语)
- 欧洲语言(法语、德语、西班牙语、葡萄牙语、土耳其语、俄语和乌克兰语)
使用JavaScript进行语音克隆和文本转语音
安装Node.js客户端库:
npm install replicate
设置API令牌环境变量:
export REPLICATE_API_TOKEN=r8_9wm**********************************
导入并设置客户端:
import Replicate from "replicate";
const replicate = new Replicate({
auth: process.env.REPLICATE_API_TOKEN,
});
克隆语音(需要MP3、M4A或WAV格式文件,时长10秒至5分钟,大小小于20MB):
const cloneOutput = await replicate.run(
"minimax/voice-cloning",
{
input: {
voice_file: "path/to/your/audio.wav",
model: "speech-02-turbo"
}
}
);
const voiceId = cloneOutput.voice_id;
console.log("Cloned voice ID:", voiceId);
使用克隆语音进行文本转语音(使用<#x#>添加单词间暂停,x为暂停秒数0.01-99.99):
const input = {
text: "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
voice_id: voiceId,
emotion: "happy"
};
const output = await replicate.run("minimax/speech-02-turbo", { input });
console.log(output);
使用Python进行语音克隆和文本转语音
安装客户端并设置API令牌:
pip install replicate
export REPLICATE_API_TOKEN=r8_9wm**********************************
克隆语音并使用它进行文本转语音:
import replicate
# 克隆语音(需要MP3、M4A或WAV文件,10秒-5分钟,<20MB)
clone_output = replicate.run(
"minimax/voice-cloning",
input={
"voice_file": "path/to/your/audio.wav",
"model": "speech-02-turbo"
}
)
# 使用克隆语音生成语音
# 使用<#x#>在单词间添加暂停,x为暂停秒数(0.01-99.99)
output = replicate.run(
"minimax/speech-02-turbo",
input={
"text": "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
"voice_id": clone_output["voice_id"],
"emotion": "happy"
}
)
print(output)
定价
文本转语音模型根据输入和输出令牌计费:
- Turbo模型:每百万字符30美元
- HD模型:每百万字符50美元
语音克隆费用为每个语音3美元。
社区交流
关注我们的社交媒体并加入社区,获取最新更新和讨论。