使用API运行MiniMax语音合成模型指南本文详细介绍如何使用API运行MiniMax Speech-02系列语音合成

使用API运行MiniMax Speech-02语音合成模型

Speech-02系列是文本转语音模型，能够创建具有情感表达的自然语音。该系列模型支持超过30种语言。

根据某机构语音竞技场评估，Speech-02-HD是当前最佳的文本转语音模型，而Speech-02-Turbo位列第三。

通过某平台，您可以用一行代码运行这些模型。

模型选择

提供两种模型选择：

Speech-02-HD：适用于高质量配音和有声读物
Speech-02-Turbo：更经济、更快速，最适合实时应用

两种模型都支持语音克隆功能。语音克隆需要至少10秒的音频，训练时间约30秒。每个语音都可以调整音调、速度和音量，使其听起来更自然。

应用场景

这些模型可帮助您创建：

声音自然的虚拟助手
具有录音室品质的有声读物和配音
具有母语发音的语言学习工具
支持多语言的客服机器人
适合偏好音频用户的无障碍内容

情感控制

情感控制系统有两种为语音添加情感的方式：

自动检测模式：从文本中分析情感基调
手动控制：设置您想要的确切情感

这使您的声音在娱乐、教育或商业内容中听起来自然且引人入胜。

语言支持

模型支持30多种语言和口音，包括：

英语变体（美式、英式、澳大利亚式和印度式）
亚洲语言（普通话、粤语、日语、韩语、越南语和印尼语）
欧洲语言（法语、德语、西班牙语、葡萄牙语、土耳其语、俄语和乌克兰语）

使用JavaScript进行语音克隆和文本转语音

安装Node.js客户端库：

npm install replicate

设置API令牌环境变量：

export REPLICATE_API_TOKEN=r8_9wm**********************************

导入并设置客户端：

import Replicate from "replicate";

const replicate = new Replicate({
  auth: process.env.REPLICATE_API_TOKEN,
});

克隆语音（需要MP3、M4A或WAV格式文件，时长10秒至5分钟，大小小于20MB）：

const cloneOutput = await replicate.run(
  "minimax/voice-cloning",
  {
    input: {
      voice_file: "path/to/your/audio.wav",
      model: "speech-02-turbo"
    }
  }
);

const voiceId = cloneOutput.voice_id;
console.log("Cloned voice ID:", voiceId);

使用克隆语音进行文本转语音（使用<#x#>添加单词间暂停，x为暂停秒数0.01-99.99）：

const input = {
  text: "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
  voice_id: voiceId,
  emotion: "happy"
};

const output = await replicate.run("minimax/speech-02-turbo", { input });
console.log(output);

使用Python进行语音克隆和文本转语音

安装客户端并设置API令牌：

pip install replicate
export REPLICATE_API_TOKEN=r8_9wm**********************************

克隆语音并使用它进行文本转语音：

import replicate

# 克隆语音（需要MP3、M4A或WAV文件，10秒-5分钟，<20MB）
clone_output = replicate.run(
    "minimax/voice-cloning",
    input={
        "voice_file": "path/to/your/audio.wav",
        "model": "speech-02-turbo"
    }
)

# 使用克隆语音生成语音
# 使用<#x#>在单词间添加暂停，x为暂停秒数（0.01-99.99）
output = replicate.run(
    "minimax/speech-02-turbo",
    input={
        "text": "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
        "voice_id": clone_output["voice_id"],
        "emotion": "happy"
    }
)
print(output)

定价

文本转语音模型根据输入和输出令牌计费：

Turbo模型：每百万字符30美元
HD模型：每百万字符50美元

语音克隆费用为每个语音3美元。

社区交流

关注我们的社交媒体并加入社区，获取最新更新和讨论。