背景介绍
最近做了一款开源项目——AI Video Creation,利用多种AI技术实现了从文本到语音、从语音到字幕、再到视频生成的流程自动化。
项目概述
AI Video Creation 是一个旨在利用人工智能技术自动生成艺术作品的开源项目。该项目结合了文本转语音(ChatTTS)、语音识别(Whisper)、图像生成(Kolors)等多种技术,从而创建高质量的视频内容。
主要特性
- 🚀 文本转语音:将文本转换为高质量的语音音频。
- 🚀 语音识别:将音频文件转换为字幕文件(SRT),方便后续编辑。
- 🚀 视频生成:根据字幕和图像生成视频,支持多种视觉效果。
- 🚀 视频项目管理:可以管理多个视频项目,包括创建、删除和查看项目。
技术栈
- 前端:React, TypeScript, Ant Design
- 后端:Python, FastAPI, PyDub, Whisper, ChatTTS, Kolors
安装与使用
前提条件
- 建议使用 conda 创建虚拟环境。
- 需要 Python 3.12 版本。
- 建议 Node.js 环境 18 及以上版本。
- 需要安装 FFmpeg。
- 建议在 Linux 环境下进行安装,其他平台未测试。
克隆仓库
git clone https://github.com/coralf/ai-video-creation.git
前端安装与运行
安装依赖
cd ai-video-creation/frontend
npm install
运行前端
npm start
后端安装与运行
安装依赖
pip install poetry
poetry install
运行后端
cd ai-video-creation/backend
python run.py
使用说明
创建视频项目
-
访问前端应用 打开浏览器,访问
http://localhost:3000。 -
创建新项目 点击“开始创作”按钮,进入项目创建界面。
基础使用
-
编写分镜的字幕文案
- 每张图片可能对应一句或多句话,在一个单元格内使用换行来分割多句。
-
提示词
- AI 绘画模型使用的是 Kolors,请直接使用中文编写提示词。
-
随机种子
- 通过调整这个数值,可以生成不同的图片。
-
生成视频
- 当所有分镜的字幕文案编写完成后,点击“生成视频”按钮,系统会自动生成视频。
生成视频同时会生成音频、字幕、图片过渡动画等,可能需要较长的时间。
设置
音频设置
点击试听后,生成视频时会按照试听的声音进行生成音频。
后续计划
目前项目还在持续开发中,以下是一些待实现的功能:
- 支持字幕设置颜色、大小、位置。
- 支持视频设置分辨率、帧率。
- 支持单个分镜动态视频生成(stable video diffusion 系列模型)。
- 支持 GPT-SoVITS。
- 支持开源大语言模型实现完全自动创作。
如果你觉得这个项目对你有帮助,不妨给它点个 Star 支持一下吧! GitHub