ViMax 是 HKUDS 开源的 Agentic Video Generation 框架,支持从创意、小说和剧本自动生成视频,并处理分镜、参考图与一致性校验。
如果只用一句话概括 ViMax:它想把“写故事、拆分镜、找参考图、做一致性检查、生成视频片段并组装成片”这条链路,交给一组智能体自动完成。
这不是单纯调用一个视频模型生成几秒素材,而是把视频生产拆成一个更接近真实创作流程的多阶段系统。项目由 HKUDS 开源,定位是 Agentic Video Generation,代码采用 Python 3.12、uv 管理环境,并使用 MIT License。
一、ViMax 解决的不是“生成一段视频”,而是“组织一条生产线”
当前很多 AI 视频工具最大的痛点,并不是不会生成画面,而是很难稳定生成长一点、有角色连续性、有镜头节奏、有叙事结构的内容。ViMax 的 README 把问题拆得很清楚:参考图难管理、角色和场景一致性容易漂移、剧本和分镜需要专业知识、长视频需要跨场景连续性。
ViMax 的思路是把这些环节都拆成可调度的 Agent 任务:先理解输入,再规划故事和镜头,再选择参考图、生成首帧、做一致性校验,最后并行生成镜头并合成视频。
二、四条主线:创意、小说、剧本和客串
1. Idea2Video:一句想法变成完整视频故事
用户输入一个创意和风格要求,系统自动补齐叙事结构、角色设计、分镜和生成流程。适合做短片创意验证、概念片、儿童故事或短剧原型。
2. Novel2Video:把小说压缩成分集视频内容
面向更长文本,ViMax 会做叙事压缩、角色追踪和场景级视觉化改编。它不是逐句转视频,而是把长文本整理成更适合视频生产的结构。
3. Script2Video:从明确剧本生成视频
如果你已经写好了剧本,ViMax 可以围绕场景、人物、对话和节奏要求继续做镜头规划与视频生成。这个模式对短剧团队和内容工作室更直接。
4. AutoCameo:把人物照片融入故事
项目还强调“智能客串”:上传个人或宠物照片,把指定形象作为角色融入创意剧本和视频片段中,目标是保持外观一致并实现自然互动。
三、核心流程:多智能体如何协作
按项目架构,ViMax 的流水线大致可以理解为:
- 输入层:创意、剧本、小说、参考图、风格指令和配置参数。
- 中央调度:控制不同智能体的阶段切换、资源管理、重试和降级逻辑。
- 剧本理解:抽取角色、环境、事件和场景边界。
- 场景与镜头规划:把故事拆成分镜步骤、镜头列表、关键帧和节奏点。
- 视觉资产规划:选择参考图、跟踪角色和环境、生成更适合图像模型的提示词。
- 一致性校验:并行生成多张图,再由 MLLM/VLM 选择更符合角色、场景和构图要求的首帧。
- 视觉合成与组装:从首尾帧到视频片段,再汇总成最终视频。
这套设计的重点,是把“人类创作者会反复检查的一致性问题”前置到流水线里,而不是等所有素材生成完再手动补救。
四、怎么上手
ViMax 更像一个开发者框架,而不是点开网页就能用的成品工具。最关键的上手动作可以理解成三件事:拉代码、装环境、把你自己的大模型/图像模型/视频模型服务接进去。
原来零散的步骤,我改成一段更适合收藏和复制的命令块;每个注释行对应一个操作意图,真正要执行的命令放在注释下面。
# 1. 拉代码:先把 ViMax 放到本地
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
# 2. 装环境:项目使用 uv 管理 Python 3.12 依赖
uv sync
# 3. 配模型:在配置文件里填入聊天模型、图像模型和视频模型的 API Key
# 常用入口在 configs/idea2video.yaml 和 configs/script2video.yaml
# 建议先复制一份本地配置,再按自己的模型服务修改
cp configs/idea2video.yaml configs/idea2video.local.yaml
cp configs/script2video.yaml configs/script2video.local.yaml
# 4. 从一句创意生成视频:适合 idea2video 的快速验证
uv run python main_idea2video.py --config configs/idea2video.local.yaml
# 5. 从已有剧本生成视频:适合短剧、分镜脚本或项目原型
uv run python main_script2video.py --config configs/script2video.local.yaml
配置文件里的字段会随项目更新而变化,实际接入时以仓库 README 和 configs 目录为准。理解上,ViMax 负责“调度创作流水线”,具体的文生图、图生视频、视频生成能力则由你接入的模型服务提供。
五、它适合谁
- 想快速验证视频创意的独立创作者。
- 需要把小说、故事或 IP 设定改编成短视频原型的团队。
- 正在搭建 AI 短剧、互动视频或角色一致性视频工作流的开发者。
- 想研究“多智能体 + 图像/视频生成”工程化链路的人。
ViMax 的价值不在于替代某一个视频生成模型,而在于把多个模型和多个创作步骤组织起来。对于 AI 视频来说,真正难的往往不是生成第一段画面,而是让第十个镜头、第二十个镜头仍然服务于同一个故事和同一组角色。
结语
ViMax 给出的方向很明确:未来的视频生成工具,可能不只是“输入一句话,吐出几秒视频”,而是由一组智能体共同完成编剧、导演、分镜、制片和质检。
更多内容欢迎关注公众号:
