GitHub Daily
阿里开源 AI 全自动短视频引擎
一句话生成完整视频
2026年5月9日 · 星期六
做一条短视频要多久?写文案、找配图、录配音、剪视频、加字幕、配音乐……一套流程下来,半天时间就没了。今天介绍的这个项目,让**「输入一个主题,3分钟出片」**成为现实——Pixelle-Video,阿里巴巴 AIDC-AI 团队出品的 AI 全自动短视频引擎,Apache 2.0 协议完全开源。
📦 项目速览
项目名称
AIDC-AI/Pixelle-Video
GitHub Stars
11,400+ ⭐
编程语言
Python 3.8+
开源协议
Apache 2.0(可商用)
技术栈
ComfyUI + FastAPI + Wan 2.1
最新版本
v0.1.15 · 持续更新中
💡它能解决什么问题?
⏱ 短视频创作者的真实困境
-
写文案要憋半天,不知道怎么开头才能抓人
-
配图要去各大图库搜,还怕版权问题
-
配音要自己录,普通话不标准、声音不好听直接劝退
-
剪辑软件学习成本高,PR/AE 不是谁都能上手
-
日更账号压力大,一天生产5条视频根本不可能
-
多语言版本制作成本高,聘请配音演员费用昂贵
✨ Pixelle-Video 的解决方案
-
文案自动生成:接入通义千问/GPT-4o/DeepSeek,输入主题即出解说词
-
AI 配图自动生成:每句旁白自动生成匹配插图,FLUX/Wan/SDXL 随意切换
-
多语种语音合成:Edge-TTS 免费多语言配音,支持声音克隆
-
一键合成成片:素材自动拼接、字幕叠加、BGM 匹配,全程无人值守
-
批量生产模式:一次性提交多个主题,系统顺序自动处理
-
数字人口播:上传照片即可生成真人出镜播报视频
🚀核心亮点
🏗️ 四层架构设计(核心技术解析)
🖥️ Streamlit Web UI · http://localhost:8501
↓
⚡ FastAPI 后端 · http://localhost:8000
↓
🎛️ PixelleVideoCore 协调中枢
LLM Service
TTSService
MediaService
VideoService
↓
🔌 ComfyKit 统一抽象层(架构精髓)
↓
🖥️ 本地 ComfyUI · 完全免费
☁️ RunningHub 云端 · 按量付费
8步自动化生命周期
从环境初始化到成片输出,系统分为8个明确阶段:[1/8]初始化 → [2/8]生成文案 → [3/8]确定标题 → [4/8]规划视觉 → [5/8]初始化分镜 → [6/8]素材生产 → [7/8]后期合成 → [8/8]持久化。音频时长自动决定视频片段长度,架构级音画同步保证。
ComfyKit 统一抽象层
所有媒体生成能力(TTS/图像/视频)统一封装在 ComfyKit 接口后。每个能力对应一个 ComfyUI 工作流 JSON 文件。管线与具体模型真正解耦——切换模型只需更换工作流文件,无需改动一行代码。
丰富模板体系
11种场景模板 × 3种尺寸规格:竖屏9:16(抖音/小红书)、横屏16:9(B站/YouTube)、方形1:1(Instagram)。视觉风格涵盖现代感、优雅书卷、赛博朋克、治愈系等7种。
数字人 + 动作迁移
2026年重磅更新:上传一张照片即可生成多语言数字人口播视频,口型同步自然;上传参考视频+静态图片,AI 将视频动作精准迁移到图片人物,支持跳舞、手势、表情迁移。
多模型灵活切换
LLM 支持通义千问/GPT-4o/DeepSeek/Ollama 本地;图像支持 FLUX/SDXL/Qwen;视频支持 Wan 2.1/Wan 2.2/Nano Banana;TTS 支持 Edge-TTS/Index-TTS/ChatTTS。按需选择,成本可控。
本地 + 云端双模式
有显卡?本地 ComfyUI 部署,数据不出本机,完全免费。无显卡?RunningHub 云端调用,按量付费,48G 高配机器也支持。同一套代码,两种运行方式随意切换。
📊 与主流工具对比
| 对比维度 | Pixelle-Video | 可灵 AI 2.0 | Runway Gen-4 | HeyGen | | --- | --- | --- | --- | --- | | 开发商 | 阿里巴巴 AIDC-AI | 快手 | Runway | HeyGen | | 费用 | 完全免费开源 | ¥66/月 | 29/月 | | 全流程自动化 | ✅ 文案→成片 | ❌ 仅视频生成 | ❌ 仅视频生成 | ❌ 仅数字人 | | 本地部署 | ✅ 数据完全私有 | ❌ 仅云端 | ❌ 仅云端 | ❌ 仅云端 | | 多语言支持 | ✅ 中/英/韩等 | 主要中文 | 多语言 | 130+语言 |
🎯实战场景展示
📚 场景一:知识博主日更5条短视频
某心理学公众号博主需要每天发布5条心理学科普短视频,用于引流到公众号。
1准备好5个主题:为什么越努力越焦虑、3个瞬间判断一个人是否可信...
2在 Pixelle-Video Web 界面选择「批量生成」模式,粘贴所有主题
3选择 image_psychology_card 模板(小红书爆款结构)
4TTS 选择 [zh-CN-Yunjian] 音色,语速 1.2x
5点击生成,30分钟后收到5条成片。传统方式需要一整天。
💰 成本对比
传统方式:剪辑师成本约 500元/条 × 5 = 2500元/天。使用 Pixelle-Video:电费 + API 费用 ≈ 5元/天,成本降低 99.8%。
🌍 场景二:跨境电商多语言产品介绍
跨境电商卖家需要为同一款产品制作中、英、韩三语介绍视频,用于不同市场的商品页面。
1输入主题:XX蓝牙耳机:降噪深度-48dB,续航30小时,IP55防水
2中文版:TTS 选中文音色,生成后下载
3英文版:切换 LLM 为英文提示词,TTS 选 [en-US-Jenny]
4韩语版:LLM 切换为韩语提示词,TTS 选韩语音色
5三条视频总耗时约15分钟。过去聘请三语配音演员需要3-5天,成本超2000元。
🎓 场景三:教育机构课程视频批量制作
某在线教育平台需要将100节课程大纲转化为短视频,用于社群运营和课程售卖转化。
1将课程大纲整理为文本文件,每行一个知识点
2使用「固定文案内容」模式,粘贴知识点文本
3选择 image_elegant 模板(书卷风,适合教育内容)
4Python API 批量调用:pixelle.generate_video(text=line)
5100节短视频自动生成,单节成本接近0,总耗时约2小时(传统方式需要2周)。
📖上手指南
Pixelle-Video 提供三种部署方式,任选其一即可。推荐新手使用 Windows 一键整合包。
# 方式一:Windows 一键整合包(新手推荐)Bash
# 步骤1:访问 GitHub Releases 下载整合包
# https://github.com/AIDC-AI/Pixelle-Video/releases
# 步骤2:解压到非中文路径(重要!)
# 步骤3:双击运行 start.bat
# 步骤4:浏览器自动打开 http://localhost:8501
# 步骤5:在「系统配置」面板配置 LLM API Key,点击保存
# 常见问题:启动失败?
# 1. 确认解压路径不含中文或特殊字符
# 2. 以管理员身份运行 start.bat
# 3. 关闭杀毒软件后重试
# 4. 删除文件夹重新解压
# 方式二:从源码安装(macOS / Linux / 高级用户)Bash
# 步骤1:安装 uv(现代 Python 包管理器)
if
[
"$(uname)"
=
"Darwin"
] || [
"$(uname)"
=
"Linux"
];
then
curl -LsSf https://astral.sh/uv/install.sh | sh
fi
# 步骤2:安装 FFmpeg(视频处理依赖)
# macOS:
brew install ffmpeg
# Ubuntu:
sudo
apt update &&
sudo
apt install ffmpeg
# 步骤3:克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
# 步骤4:启动 Web 界面(uv 会自动创建虚拟环境并安装依赖)
uv run streamlit run web/app.py
# 访问 http://localhost:8501
# 方式三:Docker 部署(服务器部署推荐)Bash
# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
# 构建镜像(国内网络开启镜像加速)
export
USE_CN_MIRROR
=
"true"
docker compose build --no-cache
# 启动容器
export
USE_CN_MIRROR
=
"true"
docker compose up -d
# 访问地址:
# Web 界面:http://localhost:8501
# API 接口:http://localhost:8000
⚙️ 关键配置说明
LLM 配置(config.yaml):
• 通义千问(推荐):base_url=https://dashscope.aliyuncs.com/compatible-mode/v1,model=qwen-plus,费用极低• DeepSeek(高性价比):base_url=https://api.deepseek.com/v1,model=deepseek-chat• 本地免费:base_url=http://localhost:11434/v1,model=qwen2.5:7b,需先安装 Ollama
ComfyUI 本地配置(有显卡用户):
• 访问 https://comfy.org/download 安装 ComfyUI• 启动后确认可访问 http://127.0.0.1:8188• 重要:在 ComfyUI 中加载 workflows/selfhost/analyse_image.json(必须先做!)• 在 Pixelle-Video 配置页面填写 ComfyUI 地址,保存
# Python API 调用示例(批量集成用)Python
from
pixelle_video.service
import
PixelleVideoCore
# 初始化核心引擎
pixelle = PixelleVideoCore()
await
pixelle.initialize()
# 生成单个视频
result =
await
pixelle.generate_video(
text=
"为什么要养成阅读习惯"
,
mode=
"generate"
,
n_scenes=
5
,
frame_template=
"1080x1920/image_default.html"
,
tts_workflow=
"tts_edge.json"
,
media_workflow=
"image_flux.json"
)
print
(
f"视频已生成:{result['video_path']}"
)
# 批量生成(读取主题列表文件)
with
open
(
"topics.txt"
)
as
f:
topics = [line.strip()
for
line
in
f
if
line.strip()]
for
topic
in
topics:
result =
await
pixelle.generate_video(text=topic)
print
(
f"✅ {topic} → {result['video_path']}"
)
🛠️常见问题 FAQ
Q:ComfyUI 报错"缺失节点"怎么办?
A:这是最常见的坑!必须在 ComfyUI 界面中加载 workflows/selfhost/ 目录下的所有 JSON 工作流文件(尤其是 analyse_image.json),让 ComfyUI 自动安装缺失的自定义节点,每个文件加载后需点击运行等待完成。
Q:TTS 生成失败?
A:检查 config.yaml 中 tts.default_workflow 路径是否正确;确认网络可访问微软 Edge-TTS 服务;检查防火墙是否放行 443 端口;项目在 2025-12-10 更新中已锁定 edge-tts 版本,建议更新到最新版。
Q:生成视频的画质和帧率如何?
A:当前版本主打短视频场景,输出最高 1080P、30帧。画质取决于所选的生图/生视频模型——用 FLUX.1-dev 生成的图像质量极高,用 Wan 2.1 生成的视频流畅度较好。专业影视级需求建议使用 Runway 等工具。
Q:可以用于商业用途吗?
A:可以!项目采用 Apache 2.0 协议,允许商业使用。但需注意:使用的 AI 模型(如 FLUX、Wan 2.1)可能有独立的许可协议,商用前请确认各模型的商业使用条款。
📝 今日总结
🎯 定位
阿里巴巴开源的 AI 全自动短视频引擎,Apache 2.0 协议,完全免费
✨ 核心价值
输入主题 → 自动生成文案/配图/配音/字幕/成片,全流程无人值守
🏗️ 技术亮点
ComfyKit 统一抽象层,8步生命周期,本地/云端双模式,数字人+动作迁移
📈 适用人群
知识博主、跨境电商、教育机构、自媒体运营、有任何批量视频制作需求的人
🌟 立即体验 Pixelle-Video
完全开源免费 · 本地部署数据私有 · 3分钟出片
⭐ GitHub 仓库****📚 官方文档