一键生成 AI 视频的开源工作流系统

6 阅读6分钟

AI Video Workflow:一键生成 AI 视频的开源工作流系统

从视频分析到成片输出,全流程 AI 自动化

前言

在 AI 视频生成领域,虽然已经有了 Sora、可灵、Seedance、Hailuo 等优秀的视频生成模型,但从一个创意到最终成片,中间仍然需要大量繁琐的人工操作:分析原视频、编写分镜脚本、生成角色参考图、制作每个镜头的画面、生成视频片段、最后合并……

AI Video Workflow 就是为了解决这个问题而生的。它是一个完全开源的 AI 视频生成工作流系统,将上述所有步骤串联成一个自动化流程,让你只需要输入一个视频或一段脚本,就能一键生成完整的 AI 视频。

在线体验workflow.gptproto.com

开源地址github.com/GPTProto/ai…


核心功能

1. 智能视频分析

上传一个视频或输入视频 URL,系统会使用 Gemini Pro 模型自动分析视频内容,提取出:

  • 角色信息:识别视频中的主要角色,生成详细的角色描述和生成提示词
  • 分镜脚本:将视频拆分成多个场景,为每个场景生成图像提示词和视频提示词

这意味着你可以直接用一个参考视频作为输入,AI 会自动理解视频内容并生成对应的创作脚本。

2. 角色参考图生成

基于分析得到的角色描述,系统会自动调用 AI 图像生成模型,为每个角色生成高质量的参考图。这些参考图将用于后续的分镜生成,确保整个视频中角色形象的一致性。

支持的图像生成模型:

  • Gemini Pro Image - Google 多模态图像模型,支持文生图和图生图
  • Seedream 4.0 - 字节跳动图像模型
  • Wan 2.5 - 阿里巴巴图像模型

3. 分镜图片生成

有了角色参考图后,系统会结合参考图和分镜描述,使用 图生图(Image-to-Image) 技术为每个场景生成精确的分镜画面。

这一步的关键在于:通过参考图的引导,生成的分镜画面能够保持角色形象的一致性,避免同一个角色在不同镜头中"变脸"的问题。

4. 视频片段生成

分镜图片准备好后,系统会调用视频生成模型,将静态的分镜图片转换为动态视频片段。

这里采用了首尾帧技术:将上一个镜头的最后一帧作为下一个镜头的起始帧,确保镜头之间的过渡自然流畅。

支持的视频生成模型:

  • Seedance 1.0 Pro - 字节跳动视频模型,支持首尾帧
  • Hailuo 02 Standard - MiniMax 视频模型,支持首尾帧
  • Wan 2.2 Plus - 阿里巴巴视频模型

5. 智能视频合并

所有视频片段生成完成后,系统会自动使用 FFmpeg 将它们无缝合并成一个完整的视频。

整个过程全自动完成,你只需要等待最终的成片输出。


工作流程图

输入视频/脚本
      │
      ▼
┌─────────────┐
│  视频分析   │  ← Gemini Pro 分析内容
│  脚本生成   │
└──────┬──────┘
       │
       ▼
┌─────────────┐
│ 角色参考图  │  ← AI 文生图
│   生成      │
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  分镜图片   │  ← AI 图生图(结合参考图)
│   生成      │
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  视频片段   │  ← Seedance/Hailuo/Wan
│   生成      │
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  视频合并   │  ← FFmpeg
│   输出      │
└─────────────┘

两种运行模式

自动模式

适合对结果要求不高,或者想快速看到效果的场景。系统会自动完成所有步骤,无需人工干预。

手动模式

适合对质量有较高要求的场景。每个步骤完成后,系统会暂停,让你检查结果、修改参数,确认无误后再继续下一步。

你可以:

  • 手动修改角色描述和提示词
  • 重新生成不满意的角色参考图
  • 调整分镜画面
  • 为某个镜头选择不同的视频模型

技术栈

这个项目使用了现代化的技术栈,代码质量和开发体验都很不错:

技术说明
Next.js 16React 全栈框架,支持 App Router
React 19最新版 React,性能更优
TypeScript类型安全,减少运行时错误
Tailwind CSS 4原子化 CSS,快速构建 UI
React Flow可视化工作流编辑器
Radix UI无障碍 UI 组件库
FFmpeg视频处理和合并
Electron可选的桌面应用支持

后端服务可选配置:

  • 阿里云 OSS - 存储生成的图片和视频
  • Supabase - PostgreSQL 数据库,用于保存工作流历史

快速开始

1. 克隆项目

git clone https://github.com/GPTProto/ai-workflow.git
cd ai-workflow

2. 安装依赖

npm install

3. 配置环境变量

cp .env.example .env.local

编辑 .env.local,填入你的配置:

# 必需:OpenAI 兼容的 API
OPENAI_API_KEY=你的API密钥
OPENAI_BASE_URL=https://api.openai.com/v1

# 可选:阿里云 OSS
OSS_ACCESS_KEY_ID=你的AccessKeyId
OSS_ACCESS_KEY_SECRET=你的AccessKeySecret
OSS_BUCKET=你的Bucket名称

# 可选:Supabase
SUPABASE_URL=https://你的项目.supabase.co
SUPABASE_ANON_KEY=你的anon_key

4. 安装 FFmpeg

视频合并功能需要 FFmpeg:

# macOS
brew install ffmpeg

# Ubuntu/Debian
sudo apt install ffmpeg

# Windows
choco install ffmpeg

5. 启动开发服务器

npm run dev

访问 http://localhost:3000 即可使用。


使用场景

1. 视频翻拍/二创

有一个喜欢的视频,想用 AI 风格重新生成?直接把原视频丢进去,系统会自动分析并生成 AI 版本。

2. 分镜脚本可视化

写好了分镜脚本,想看看实际效果?直接输入 JSON 格式的脚本,一键生成完整视频。

3. 快速原型验证

有一个视频创意,想快速验证可行性?用这个工具几分钟就能看到效果。

4. 批量视频生成

结合 API,可以实现批量的视频生成流水线。


与其他工具的对比

功能AI Video Workflow传统剪辑软件其他 AI 工具
自动分析视频部分支持
角色一致性需手动部分支持
端到端自动化
多模型支持-单一模型
开源免费部分
本地部署部分

未来规划

  • 支持更多视频生成模型(Sora、可灵等)
  • 添加音频/配乐生成
  • 支持字幕自动生成
  • 优化角色一致性算法
  • 添加更多预设模板

相关链接


总结

AI Video Workflow 是一个功能完整、开箱即用的 AI 视频生成工作流系统。它把原本需要多个工具、多个步骤才能完成的视频制作流程,简化成了一键操作。

无论你是想快速验证一个创意,还是想批量生成 AI 视频内容,这个工具都能帮到你。

项目完全开源,欢迎 Star、Fork 和贡献代码!


如果这个项目对你有帮助,请给我们一个 ⭐ Star!