ViMax 开源：把创意和剧本自动拍成视频ViMax 是 HKUDS 开源的 Agentic Video Generat

文章封面

ViMax 是 HKUDS 开源的 Agentic Video Generation 框架，支持从创意、小说和剧本自动生成视频，并处理分镜、参考图与一致性校验。

如果只用一句话概括 ViMax：它想把“写故事、拆分镜、找参考图、做一致性检查、生成视频片段并组装成片”这条链路，交给一组智能体自动完成。

这不是单纯调用一个视频模型生成几秒素材，而是把视频生产拆成一个更接近真实创作流程的多阶段系统。项目由 HKUDS 开源，定位是 Agentic Video Generation，代码采用 Python 3.12、uv 管理环境，并使用 MIT License。

一、ViMax 解决的不是“生成一段视频”，而是“组织一条生产线”

当前很多 AI 视频工具最大的痛点，并不是不会生成画面，而是很难稳定生成长一点、有角色连续性、有镜头节奏、有叙事结构的内容。ViMax 的 README 把问题拆得很清楚：参考图难管理、角色和场景一致性容易漂移、剧本和分镜需要专业知识、长视频需要跨场景连续性。

ViMax 的思路是把这些环节都拆成可调度的 Agent 任务：先理解输入，再规划故事和镜头，再选择参考图、生成首帧、做一致性校验，最后并行生成镜头并合成视频。

二、四条主线：创意、小说、剧本和客串

1. Idea2Video：一句想法变成完整视频故事

用户输入一个创意和风格要求，系统自动补齐叙事结构、角色设计、分镜和生成流程。适合做短片创意验证、概念片、儿童故事或短剧原型。

2. Novel2Video：把小说压缩成分集视频内容

面向更长文本，ViMax 会做叙事压缩、角色追踪和场景级视觉化改编。它不是逐句转视频，而是把长文本整理成更适合视频生产的结构。

3. Script2Video：从明确剧本生成视频

如果你已经写好了剧本，ViMax 可以围绕场景、人物、对话和节奏要求继续做镜头规划与视频生成。这个模式对短剧团队和内容工作室更直接。

4. AutoCameo：把人物照片融入故事

项目还强调“智能客串”：上传个人或宠物照片，把指定形象作为角色融入创意剧本和视频片段中，目标是保持外观一致并实现自然互动。

三、核心流程：多智能体如何协作

按项目架构，ViMax 的流水线大致可以理解为：

输入层：创意、剧本、小说、参考图、风格指令和配置参数。
中央调度：控制不同智能体的阶段切换、资源管理、重试和降级逻辑。
剧本理解：抽取角色、环境、事件和场景边界。
场景与镜头规划：把故事拆成分镜步骤、镜头列表、关键帧和节奏点。
视觉资产规划：选择参考图、跟踪角色和环境、生成更适合图像模型的提示词。
一致性校验：并行生成多张图，再由 MLLM/VLM 选择更符合角色、场景和构图要求的首帧。
视觉合成与组装：从首尾帧到视频片段，再汇总成最终视频。

这套设计的重点，是把“人类创作者会反复检查的一致性问题”前置到流水线里，而不是等所有素材生成完再手动补救。

四、怎么上手

ViMax 更像一个开发者框架，而不是点开网页就能用的成品工具。最关键的上手动作可以理解成三件事：拉代码、装环境、把你自己的大模型/图像模型/视频模型服务接进去。

原来零散的步骤，我改成一段更适合收藏和复制的命令块；每个注释行对应一个操作意图，真正要执行的命令放在注释下面。

# 1. 拉代码：先把 ViMax 放到本地
git clone https://github.com/HKUDS/ViMax.git
cd ViMax

# 2. 装环境：项目使用 uv 管理 Python 3.12 依赖
uv sync

# 3. 配模型：在配置文件里填入聊天模型、图像模型和视频模型的 API Key
# 常用入口在 configs/idea2video.yaml 和 configs/script2video.yaml
# 建议先复制一份本地配置，再按自己的模型服务修改
cp configs/idea2video.yaml configs/idea2video.local.yaml
cp configs/script2video.yaml configs/script2video.local.yaml

# 4. 从一句创意生成视频：适合 idea2video 的快速验证
uv run python main_idea2video.py --config configs/idea2video.local.yaml

# 5. 从已有剧本生成视频：适合短剧、分镜脚本或项目原型
uv run python main_script2video.py --config configs/script2video.local.yaml

配置文件里的字段会随项目更新而变化，实际接入时以仓库 README 和 configs 目录为准。理解上，ViMax 负责“调度创作流水线”，具体的文生图、图生视频、视频生成能力则由你接入的模型服务提供。

五、它适合谁

想快速验证视频创意的独立创作者。
需要把小说、故事或 IP 设定改编成短视频原型的团队。
正在搭建 AI 短剧、互动视频或角色一致性视频工作流的开发者。
想研究“多智能体 + 图像/视频生成”工程化链路的人。

ViMax 的价值不在于替代某一个视频生成模型，而在于把多个模型和多个创作步骤组织起来。对于 AI 视频来说，真正难的往往不是生成第一段画面，而是让第十个镜头、第二十个镜头仍然服务于同一个故事和同一组角色。

结语

ViMax 给出的方向很明确：未来的视频生成工具，可能不只是“输入一句话，吐出几秒视频”，而是由一组智能体共同完成编剧、导演、分镜、制片和质检。

项目地址：github.com/HKUDS/ViMax

更多内容欢迎关注公众号：