AI 全自动短视频引擎短视频内容的需求量越来越大。但大多数人不会写脚本、不会剪辑、不会配音、不会配图。 Pixelle

短视频内容的需求量越来越大。

但大多数人不会写脚本、不会剪辑、不会配音、不会配图。

Pixelle-Video 这个开源项目，把整个视频创作流程自动化了。

输入一个主题，AI 自动完成文案撰写、配图生成、语音合成、背景音乐添加，最后合成完整视频。

01. 工程问题

短视频创作的门槛其实很高。

你得会写脚本，把一个主题拆成几个分镜，每个分镜配什么文案。

你得会配图，要么自己拍，要么找素材，要么用 AI 生成。

你得会配音，要么自己录，要么用 TTS 工具。

你得会剪辑，把所有素材拼成完整视频，调整节奏、加转场、配 BGM。

每个环节都要学，整套流程跑下来，新手可能要花好几天。

Pixelle-Video 解决的就是这个全流程自动化问题。

它的核心思路是：把视频创作拆成原子能力，每个能力用 AI 模块实现，然后用工作流串联起来。

用户只需要输入主题，剩下的全部交给 AI。

02. 实现方式

项目基于 ComfyUI 架构。

这个架构的核心特点是原子能力灵活组合。

文案生成用 LLM，支持多种模型切换。

图像生成用 ComfyUI 工作流，可以本地部署，也可以调用云端服务。

语音合成支持 Edge-TTS、Index-TTS 等多种方案。

视频生成支持 WAN 2.1 等 AI 视频模型。

每个模块都是独立的，可以单独替换或升级。

前端用 Streamlit 搭建，一个 Web 界面搞定所有配置。

选择 LLM 模型、配置图像生成服务、选择 TTS 方案、设置视频模板，全部在界面上完成。

生成的视频支持竖屏、横屏多种尺寸，适合不同平台发布。

项目还提供了 Windows 整合包，双击启动，不需要配置 Python 环境。

03. 成熟边界

项目目前有 12.6K Star，版本迭代比较频繁。

从 v0.1.3 到 v0.1.15，大约两个月时间发布了十几个版本。

功能更新包括数字人口播、图生视频、动作迁移等高级能力。

但项目也存在一些边界。

首先，本地部署需要 GPU 支持。

图像生成和视频生成都依赖显卡算力，没有显卡的话只能用云端服务。

其次，云端方案有费用。

项目 README 明确说明了三种费用方案：完全免费方案用本地部署，推荐方案用低成本 LLM，云端方案费用较高。

第三，存在一些已知问题。

Issues 里有 TTS 配置报错、MPS 后端兼容性等反馈。

这些问题大部分是使用配置问题，但也说明项目还在快速迭代中。

04. 适用人群

这个项目适合几类人。

内容创作者，需要快速生成短视频，但不想花时间学剪辑。

营销人员，需要批量生成产品介绍视频。

教育工作者，需要制作教学视频。

零基础的视频创作爱好者，想尝试 AI 视频生成。

不适合的场景也有。

需要精细剪辑的专业视频，这个工具做不到。

需要真人出镜的正式内容，AI 生成的数字人效果有限。

对视频质量要求极高的商业项目，目前的能力还达不到。

总的来说，Pixelle-Video 是一个降低短视频创作门槛的工具。

它把复杂的视频制作流程封装成了一句话的操作。

但也要清楚它的边界：适合快速生成，不适合精细打磨。

适合批量生产，不适合精品制作。