教程上新 | GPT-SoVITS 声音复刻术!华妃、甄嬛、胖橘等声音一键克隆

546 阅读3分钟

由 B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程「GPT-SoVITS 音频合成在线 Demo」现已上线至 [OpenBayes]公共教程!

公共教程地址:

openbayes.com/console/pub…

为了让大家更快上手,Jack-Cui 录制了生动有趣的教学视频,现已入选 B 站热门视频榜单~

王炸!AI声音克隆+Sora开源平替一键启动,全网最简单!_哔哩哔哩_bilibili

本教程将手把手教会你如何一键启动,克隆各种有趣音色, 分分钟让你喜欢的经典角色、动漫人物,用他们独特的音色,说出你定制的台词。

操作步骤

PART 1

 数据准备阶段

目前该教程内已预设多款经典角色音色供大家体验,如想克隆其它音色,则需要准备一段该音色 MP3 格式的音频文件,最好为单独人声(30s 左右即可),高质量的音频文件可以提升克隆声音的逼真程度。

  1. 通过左侧菜单栏中的「数据集」后,点击「创建新数据集」。

图片

  1. 按照要求填写好「数据集名称」和「数据集描述后」,点击「创建数据集」。

图片

  1. 创建完成后,点击右上角「上传新版本」,将想要克隆的音频文件上传。

图片

图片

PART 2

Demo 运行阶段

  1. 数据准备完成后,在左侧菜单栏「公共教程」中,打开「GPT-SoVITS 音频合成在线 Demo」,点击右上角「克隆」,将教程克隆至自己的容器中。

图片

图片

  1. 可以看到已经为大家绑定了可莉、华妃、甄嬛、胖橘的音频数据。目前绑定数据的数量已满,可以删除不需要的音频数据后添加自己创建的数据集。

图片

  1. 添加完成后,点击「审核并执行」。

图片

  1. 跳转页面后,点击「继续执行」。推荐使用 RTX 4090,新用户 使用下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 免费算力时长哦!

📢 小贝总专属邀请链接(直接复制到浏览器打开):

openbayes.com/console/sig…

图片

  1. 稍等片刻,待状态会变为「运行中」后,点击「打开工作空间」。首次克隆启动该容器约需要 3-5 分钟,如超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;如重启仍无法解决,请在官网联系平台客服。

图片

  1. 打开工作空间后,点击左侧「run.ipynb」,通过菜单栏中的「运行」按钮,点击「运行所有单元格」。

图片

  1. 找到「Running on public URL」,打开该链接。

图片

  1. 在「数据集地址」模块内填写本次想要克隆声音的数据集地址,选择音频数据类型后,点击「开始训练」,待输出结果显示为「模型正在开启预测,请稍后」,回到「run.ipynb」,即可看到显示「GPT 训练完成」。

图片

图片
图片

图片

  1. 打开右侧「API 地址」,请注意,用户需在实名认证后才能使用 API 地址访问功能。

图片

PART 3

 效果展示阶段

  1. 在「GPT 模型列表」和「SoVITS 模型列表」选择训练好的模型,然后在「Inference text」中输入文本,点击「Start inference」后,稍等片刻,就可以愉快地玩耍啦!

图片

如有任何疑问,可扫描下方二维码,添加 OpenBayes贝式计算首席福利官小贝总微信咨询!

图片