每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队

0 阅读7分钟

引言

"12 条生产流水线、52 个工具、500+ Agent Skill——把你的 AI 编程助手变成完整的视频制作工作室。"

这是"每日一个开源项目"系列的第138篇文章。今天的主角是 OpenMontage——一个开源的 Agentic 视频生产系统,用 Claude Code、Cursor 或 Codex 作为驱动引擎,把自然语言提示变成完整制作的视频。

大多数 AI 视频工具的输出是单个片段:输入提示,生成一段 5 秒的视频。OpenMontage 的设计目标不同——它模拟的是一个完整的视频制作团队:研究员、编剧、分镜师、素材制作、剪辑、合成、质量审核,每个阶段都有对应的 Agent Skill 在驱动。

起点是一句自然语言描述,终点是经过质量验证的完整视频文件。全程在你的 AI 编程助手里运行,不需要切换工具。

你将学到什么

  • OpenMontage 的三层知识体系架构:Tools / Skills / Pipeline Defs 如何协同
  • 12 条制作流水线的覆盖范围:从动画解说到纪录片蒙太奇
  • 零付费路径:不花一分钱能做出什么
  • 质量治理设计:预合成验证、滑动风险评分、预算控制
  • 7 维度提供商评分系统:AI 如何选择用哪个视频生成服务
  • 参考视频分析:输入 YouTube 链接后发生了什么

前置知识

  • 使用过 Claude Code、Cursor 或类似 AI 编程工具
  • 了解视频制作的基本流程(脚本、镜头、配音、剪辑)
  • Python 基础使用经验

项目背景

项目简介

OpenMontage 是一个 Agentic 视频生产系统,定位是"把 AI 编程助手变成完整的视频制作工作室"。

它解决的不是"用 AI 生成一段视频"的问题,而是"从零到发布的完整视频制作流程"的问题。研究内容、写脚本、规划分镜、生成素材、剪辑、合成、质量检查——这些步骤在传统视频制作里分属不同的人,在 OpenMontage 里对应不同的 Agent Skill,由 AI 编程助手按流水线顺序执行。

另一个设计重点是解决"动态假图"问题:大多数 AI 视频工具生成的是静态图片帧的动画效果,不是真正有运动的视频素材。OpenMontage 可以从 Pexels、Pixabay、Archive.org、NASA、维基共享资源等免费来源获取真实运动素材,再做蒙太奇剪辑。

作者介绍

  • 作者: calesthio
  • 社区: GitHub Discussions(展示、想法、Q&A 分类)
  • License: AGPL-3.0
  • 视频频道: @OpenMontage on YouTube

项目数据

  • ⭐ GitHub Stars: 9,000+
  • 🍴 Forks: 1,300+
  • 🛠 制作工具: 52 个
  • 🎬 流水线: 12 条
  • 📚 Agent Skill: 500+
  • 📄 License: AGPL-3.0

主要功能

核心作用

传统 AI 视频工具:
提示词 → 生成单个视频片段 → 用户手动拼接

OpenMontage:
"制作一个关于量子计算的 3 分钟科普视频"
           ↓
   [研究] → 收集背景信息和事实
           ↓
   [提案] → 生成制作方案,包含预估费用
           ↓
   [脚本] → 完整旁白文本
           ↓
   [分镜] → 每个场景的视觉规划
           ↓
   [素材] → 生成/获取视频、图片、配音、音乐
           ↓
   [剪辑] → 组装时间线
           ↓
   [合成] → 渲染最终视频
           ↓
   [质量审核] → 帧验证 + 音频分析 + 交付检查
           ↓
   完整视频文件

12 条制作流水线

流水线输出
Animated Explainer研究支撑的教育类动画视频
Documentary Montage真实素材剪辑的纪录片风格视频
Cinematic预告片、概念片、氛围短片
Clip Factory把长内容批量切成短视频
Talking Head主播/主持人视频
Avatar Spokesperson数字人发言人视频
Localization & Dub多语言翻译配音版本
Screen Demo软件操作演示录屏
Podcast Repurpose播客音频→视频剪辑集锦
Hybrid现有素材 + AI 生成内容混合
Animation动态图形、动态排版

零付费路径

不需要任何付费 API,可以完整跑通一个视频:

组件零付费方案
配音/TTSPiper(离线,免费)
视频素材Pexels、Pixabay、Archive.org、NASA、维基共享资源
图像生成Stable Diffusion(本地运行)
视频生成WAN 2.1、Hunyuan、LTX-Video(本地 GPU)
合成/渲染Remotion(React)、HyperFrames(HTML/GSAP)
后期处理FFmpeg

有付费 API 时的成本参考(来自 README):

  • Ghibli 风格动画(12 张 FLUX 图 + 音乐):$0.15
  • Pixar 风格动画短片(6 段 Kling 视频 + 配音):$1.33
  • 产品广告(仅 OpenAI):$0.69

快速开始

安装

git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

在 Claude Code 中使用

cd OpenMontage
claude  # 打开 Claude Code

然后直接用自然语言描述:

制作一个 2 分钟的视频,介绍阿尔茨海默症的早期预警信号,
面向 40-60 岁的普通观众,科学严谨但不生硬,
使用真实医疗素材,不需要任何 AI 生成的人脸。

Agent 会先生成制作方案和费用估算,确认后才开始执行。


项目详细剖析

三层知识体系

OpenMontage 的架构把能力和知识分成三层:

Layer 1: 执行层
  tools/          ← 52 个 Python 工具
  pipeline_defs/  ← 12 条 YAML 流水线定义
  schemas/        ← 15 个 JSON Schema(输入输出验证)
  └── 作用:定义"可以做什么""按什么顺序做"

Layer 2: 使用规范层
  skills/         ← OpenMontage 自身的使用约定
  └── 作用:告诉 Agent 如何正确使用这套工具

Layer 3: 外部技术知识层
  .agents/skills/ ← 深度的外部技术知识
  └── 作用:关于 FFmpeg、Remotion、各提供商 API 的专业知识

500+ Agent Skill 分布在后两层,相当于把视频制作领域的专家知识打包给了 AI 编程助手。每个 Skill 是一个 Markdown 文件,包含这个步骤的专业知识、常见错误和判断标准。

渲染引擎:Remotion vs HyperFrames

OpenMontage 支持两种合成渲染引擎,各有适用场景:

Remotion(React 渲染):

  • 用 React 组件描述视频帧
  • 适合需要精确时间控制的内容:字幕、标题、数据可视化
  • 输出质量稳定,开发者可以用 React 语法定制

HyperFrames(HTML/GSAP 渲染):

  • 用 HTML + GSAP 动画描述视频
  • 适合动态排版、品牌内容、Web 风格的视觉设计
  • 自定义灵活度高

两者都通过 Node.js 在本地渲染,不依赖外部服务。

质量治理机制

这是 OpenMontage 里工程设计含量最高的部分:

预合成验证门禁:在开始渲染之前,系统检查生产承诺是否满足。如果检测到以下情况,拒绝继续执行:

  • 计划输出与脚本内容不匹配
  • 场景覆盖率低于阈值
  • 素材质量不满足目标规格

幻灯片风险评分(Slideshow Risk Score): 6 个维度评估视频是否过于"静态化"——把一堆图片拼一起假装是视频:

  • 场景平均时长
  • 运动素材占比
  • 摄像机运动检测
  • 场景切换频率
  • 音频动态范围
  • 视觉变化密度

评分超过阈值,Agent 会主动寻找更多动态素材或重新规划场景方案,而不是直接输出一个幻灯片。

预算控制

默认配置:
  - 单次操作超过 $0.50 需要确认
  - 总预算上限 $10
  - 任何执行前先给出费用估算

调整方式:
  在对话中说 "set budget cap to $5"
  或者修改配置文件

渲染后自审

  • FFprobe 验证:分辨率、帧率、码率是否符合规格
  • 关键帧提取:人工抽检视觉质量
  • 音频分析:音量、静音检测、同步验证

7 维度提供商评分系统

当同一个任务有多个可选的视频/图像生成提供商时,系统用 7 个维度打分选择:

维度权重说明
任务匹配度30%这个提供商对当前类型任务的专长
输出质量20%历史评测的质量分数
可控性15%支持多少参数精细控制
可靠性15%API 稳定性和成功率
成本效率10%单位输出的费用
延迟5%生成速度
连续性5%跨场景风格一致性能力

所有选择都写入决策审计日志,包含推理过程。出了问题可以回溯"AI 为什么选了这个提供商"。

参考视频分析功能

一个很实用的功能:提供一个 YouTube / TikTok / Reels 链接作为参考:

帮我做一个类似这个风格的视频:https://youtube.com/watch?v=xxx
主题换成量子计算,时长 2 分钟,但是面向中国观众

Agent 会分析参考视频的:

  • 旁白文本和节奏
  • 场景切换频率和节拍
  • 视觉风格类型
  • 钩子结构(前 5 秒的设计)

然后生成差异化的制作方案(不复制原视频,而是学习风格),并附上费用估算,等待确认后才开始执行。


项目地址与资源

官方资源

技术栈参考


总结

OpenMontage 把视频制作这件事从"要会用十几个专业软件"变成了"在 AI 编程助手里描述你想要什么"。

12 条流水线覆盖了从科普动画到产品广告的主要视频类型;52 个工具对接了视频/图像/TTS/音乐/素材的完整供应链;质量治理机制在防止 AI 交付一个幻灯片风格的劣质输出;预算控制机制让成本可预期。

零付费路径意义在于:即使完全没有 API 预算,也能跑通整个流程理解系统是怎么工作的,再按需接入付费服务。

9k Stars 对于一个功能如此复杂的项目来说增长速度很快,说明"AI 辅助视频制作"这个方向有真实需求。


探索 PrimeSkills —— 精选 AI Agent 与技能的市场,每一个都经过真实企业工作流验证,去掉浮夸,留下真正有用的。

欢迎访问我的个人主页,发现更多有价值的见解和有趣的产品。