OpenBayes 一周速览 丨 InstantCharacter单图完成角色个性化创作

123 阅读4分钟

公共资源速递

7 个教程:

  • 一键部署 MegaTTS3

  • Dia-1.6B:情感语音合成 Demo

  • FramePack 低显存视频生成 Demo

  • Baichuan-Audio 开源端到端语音交互基座

  • InstantCharacter:生成任意个性化角色行为

  • 使用 vLLM+Open WebUI 部署 GLM-4-32B

  • 使用 vLLM+Open WebUI 部署 Qwen3 系列模型

访问官网立即使用: openbayes.com

公共教程

1. 一键部署 MegaTTS3

MegaTTS 3 是一种具有创新稀疏对齐的 TTS 系统引导潜在扩散转换器 (DiT) 的算法,主要用于将输入的文本转换为高质量、自然流畅的语音输出。MegaTTS 3 实现了最先进的零样本 TTS 语音质量,并支持对口音强度的高度灵活控制。

直接克隆并打开 API 地址即可运行模型。

*** 在线运行:**

go.openbayes.com/aXagO

模型示例

2. Dia-1.6B:情感语音合成 Demo

Dia-1.6B 能够直接从文本脚本生成高度逼真的对话,并支持基于音频的情感和语调控制。此外,Dia-1.6B 还可以生成非语言交流的声音,如笑声、咳嗽声、清喉咙声等,使对话更加自然和生动。该模型不仅支持多角色对话生成,还能通过 [S1]、[S2] 等标签区分角色,单次生成多角色对话,保持自然节奏和情感过渡。

该教程现已上线 OpenBayes 公共教程界面,支持上传自己的音频样本,模型将根据样本生成相似的语音,实现零样本声纹克隆。

*** 在线运行:**

go.openbayes.com/wMlTX

模型使用步骤

3. FramePack 低显存视频生成 Demo

FramePack 通过创新的神经网络架构,有效解决了传统视频生成中显存占用高、漂移和遗忘等问题,并显著降低了硬件要求。仅需 6 GB 即可生成 120 秒全帧率视频。

点击下方链接,立即开启创作之旅,体验低门槛视频生成。

*** 在线运行:**

go.openbayes.com/qZjVU

功能演示

4. Baichuan-Audio 开源端到端语音交互基座

Baichuan-Audio 是 Baichuan 最新的端到端训练的语音交互大模型,无缝集成了音频理解和生成功能,支持高质量可控的中英双语实时对话。

相关代码已配置完成,点击下方链接,快速体验定制化对话生成。

*** 在线运行:**

go.openbayes.com/9UO33

模型示例

5. InstantCharacter:生成任意个性化角色行为

InstantCharacter 是一种创新的免调优方法,旨在实现从单个图像生成字符保留,从而支持各种下游任务。定性实验证明了 InstantCharacter 在生成高保真、文本可控和字符一致的图像方面的高级功能,为字符驱动的图像生成树立了新的基准。

相关代码已配置完成,点击下方链接即可体验个性化图像生成。

*** 在线运行:**

go.openbayes.com/3vVxA

模型效果演示

6. 使用 vLLM+Open WebUI 部署 GLM-4-32B

GLM-4-32B 拥有 320 亿个参数,性能媲美 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列,并支持非常友好的本地部署功能。GLM-4-32B-Base-0414 已在 15T 高质量数据上进行预训练,其中包含大量推理类合成数据,为后续的强化学习扩展奠定了基础。

该教程现已上线 OpenBayes 公共教程界面,一键克隆即可启动。

*** 在线运行:**

go.openbayes.com/17Ecf

模型使用步骤

7. 使用 vLLM+Open WebUI 部署 Qwen3 系列模型

Qwen3 是 Qwen 系列中最新一代大语言模型,提供全面的密集 (Dense) 模型和混合专家 (MoE) 模型。它支持文本、图像、音频和视频处理,能够满足多模态内容创作和跨模态任务的需求。在企业级应用中,Qwen3 的 Agent 能力和多语言支持使其能够胜任医疗诊断、法律文档分析和客服自动化等复杂任务。此外,小型模型如 Qwen3-0.6B 适合在手机等端侧设备上部署,进一步拓展了其应用场景。

该教程提供了多个参数的模型,可根据需求更换。点击下方链接快速体验。

*** 在线运行:**

go.openbayes.com/nX4FS

模型界面示例