AI 全自动短视频引擎

14 阅读3分钟

短视频内容的需求量越来越大。

但大多数人不会写脚本、不会剪辑、不会配音、不会配图。

Pixelle-Video 这个开源项目,把整个视频创作流程自动化了。

输入一个主题,AI 自动完成文案撰写、配图生成、语音合成、背景音乐添加,最后合成完整视频。

01. 工程问题

短视频创作的门槛其实很高。

你得会写脚本,把一个主题拆成几个分镜,每个分镜配什么文案。

你得会配图,要么自己拍,要么找素材,要么用 AI 生成。

你得会配音,要么自己录,要么用 TTS 工具。

你得会剪辑,把所有素材拼成完整视频,调整节奏、加转场、配 BGM。

每个环节都要学,整套流程跑下来,新手可能要花好几天。

Image

Pixelle-Video 解决的就是这个全流程自动化问题。

它的核心思路是:把视频创作拆成原子能力,每个能力用 AI 模块实现,然后用工作流串联起来。

用户只需要输入主题,剩下的全部交给 AI。

02. 实现方式

项目基于 ComfyUI 架构。

这个架构的核心特点是原子能力灵活组合。

文案生成用 LLM,支持多种模型切换。

图像生成用 ComfyUI 工作流,可以本地部署,也可以调用云端服务。

语音合成支持 Edge-TTS、Index-TTS 等多种方案。

视频生成支持 WAN 2.1 等 AI 视频模型。

每个模块都是独立的,可以单独替换或升级。

Image

前端用 Streamlit 搭建,一个 Web 界面搞定所有配置。

选择 LLM 模型、配置图像生成服务、选择 TTS 方案、设置视频模板,全部在界面上完成。

生成的视频支持竖屏、横屏多种尺寸,适合不同平台发布。

项目还提供了 Windows 整合包,双击启动,不需要配置 Python 环境。

Image

03. 成熟边界

项目目前有 12.6K Star,版本迭代比较频繁。

从 v0.1.3 到 v0.1.15,大约两个月时间发布了十几个版本。

功能更新包括数字人口播、图生视频、动作迁移等高级能力。

但项目也存在一些边界。

首先,本地部署需要 GPU 支持。

图像生成和视频生成都依赖显卡算力,没有显卡的话只能用云端服务。

其次,云端方案有费用。

项目 README 明确说明了三种费用方案:完全免费方案用本地部署,推荐方案用低成本 LLM,云端方案费用较高。

第三,存在一些已知问题。

Issues 里有 TTS 配置报错、MPS 后端兼容性等反馈。

这些问题大部分是使用配置问题,但也说明项目还在快速迭代中。

04. 适用人群

这个项目适合几类人。

内容创作者,需要快速生成短视频,但不想花时间学剪辑。

营销人员,需要批量生成产品介绍视频。

教育工作者,需要制作教学视频。

零基础的视频创作爱好者,想尝试 AI 视频生成。

不适合的场景也有。

需要精细剪辑的专业视频,这个工具做不到。

需要真人出镜的正式内容,AI 生成的数字人效果有限。

对视频质量要求极高的商业项目,目前的能力还达不到。

总的来说,Pixelle-Video 是一个降低短视频创作门槛的工具。

它把复杂的视频制作流程封装成了一句话的操作。

但也要清楚它的边界:适合快速生成,不适合精细打磨。

适合批量生产,不适合精品制作。

使用前最好先了解本地部署的硬件要求,或者准备好云端服务的预算。