使用API运行MiniMax语音合成模型指南

174 阅读3分钟

使用API运行MiniMax Speech-02语音合成模型

Speech-02系列是文本转语音模型,能够创建具有情感表达的自然语音。该系列模型支持超过30种语言。

根据某机构语音竞技场评估,Speech-02-HD是当前最佳的文本转语音模型,而Speech-02-Turbo位列第三。

通过某平台,您可以用一行代码运行这些模型。

模型选择

提供两种模型选择:

  • Speech-02-HD:适用于高质量配音和有声读物
  • Speech-02-Turbo:更经济、更快速,最适合实时应用

两种模型都支持语音克隆功能。语音克隆需要至少10秒的音频,训练时间约30秒。每个语音都可以调整音调、速度和音量,使其听起来更自然。

应用场景

这些模型可帮助您创建:

  • 声音自然的虚拟助手
  • 具有录音室品质的有声读物和配音
  • 具有母语发音的语言学习工具
  • 支持多语言的客服机器人
  • 适合偏好音频用户的无障碍内容

情感控制

情感控制系统有两种为语音添加情感的方式:

  • 自动检测模式:从文本中分析情感基调
  • 手动控制:设置您想要的确切情感

这使您的声音在娱乐、教育或商业内容中听起来自然且引人入胜。

语言支持

模型支持30多种语言和口音,包括:

  • 英语变体(美式、英式、澳大利亚式和印度式)
  • 亚洲语言(普通话、粤语、日语、韩语、越南语和印尼语)
  • 欧洲语言(法语、德语、西班牙语、葡萄牙语、土耳其语、俄语和乌克兰语)

使用JavaScript进行语音克隆和文本转语音

安装Node.js客户端库:

npm install replicate

设置API令牌环境变量:

export REPLICATE_API_TOKEN=r8_9wm**********************************

导入并设置客户端:

import Replicate from "replicate";

const replicate = new Replicate({
  auth: process.env.REPLICATE_API_TOKEN,
});

克隆语音(需要MP3、M4A或WAV格式文件,时长10秒至5分钟,大小小于20MB):

const cloneOutput = await replicate.run(
  "minimax/voice-cloning",
  {
    input: {
      voice_file: "path/to/your/audio.wav",
      model: "speech-02-turbo"
    }
  }
);

const voiceId = cloneOutput.voice_id;
console.log("Cloned voice ID:", voiceId);

使用克隆语音进行文本转语音(使用<#x#>添加单词间暂停,x为暂停秒数0.01-99.99):

const input = {
  text: "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
  voice_id: voiceId,
  emotion: "happy"
};

const output = await replicate.run("minimax/speech-02-turbo", { input });
console.log(output);

使用Python进行语音克隆和文本转语音

安装客户端并设置API令牌:

pip install replicate
export REPLICATE_API_TOKEN=r8_9wm**********************************

克隆语音并使用它进行文本转语音:

import replicate

# 克隆语音(需要MP3、M4A或WAV文件,10秒-5分钟,<20MB)
clone_output = replicate.run(
    "minimax/voice-cloning",
    input={
        "voice_file": "path/to/your/audio.wav",
        "model": "speech-02-turbo"
    }
)

# 使用克隆语音生成语音
# 使用<#x#>在单词间添加暂停,x为暂停秒数(0.01-99.99)
output = replicate.run(
    "minimax/speech-02-turbo",
    input={
        "text": "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
        "voice_id": clone_output["voice_id"],
        "emotion": "happy"
    }
)
print(output)

定价

文本转语音模型根据输入和输出令牌计费:

  • Turbo模型:每百万字符30美元
  • HD模型:每百万字符50美元

语音克隆费用为每个语音3美元。

社区交流

关注我们的社交媒体并加入社区,获取最新更新和讨论。