阿里开源 AI 全自动短视频引擎 · 一句话生成完整视频 |Github Daily

2 阅读9分钟

GitHub Daily 

阿里开源 AI 全自动短视频引擎 

一句话生成完整视频

2026年5月9日 · 星期六

做一条短视频要多久?写文案、找配图、录配音、剪视频、加字幕、配音乐……一套流程下来,半天时间就没了。今天介绍的这个项目,让**「输入一个主题,3分钟出片」**成为现实——Pixelle-Video,阿里巴巴 AIDC-AI 团队出品的 AI 全自动短视频引擎,Apache 2.0 协议完全开源。

📦 项目速览

项目名称

AIDC-AI/Pixelle-Video

GitHub Stars

11,400+ ⭐

编程语言

Python 3.8+

开源协议

Apache 2.0(可商用)

技术栈

ComfyUI + FastAPI + Wan 2.1

最新版本

v0.1.15 · 持续更新中

💡它能解决什么问题?

⏱ 短视频创作者的真实困境

  • 写文案要憋半天,不知道怎么开头才能抓人

  • 配图要去各大图库搜,还怕版权问题

  • 配音要自己录,普通话不标准、声音不好听直接劝退

  • 剪辑软件学习成本高,PR/AE 不是谁都能上手

  • 日更账号压力大,一天生产5条视频根本不可能

  • 多语言版本制作成本高,聘请配音演员费用昂贵

✨ Pixelle-Video 的解决方案

  • 文案自动生成:接入通义千问/GPT-4o/DeepSeek,输入主题即出解说词

  • AI 配图自动生成:每句旁白自动生成匹配插图,FLUX/Wan/SDXL 随意切换

  • 多语种语音合成:Edge-TTS 免费多语言配音,支持声音克隆

  • 一键合成成片:素材自动拼接、字幕叠加、BGM 匹配,全程无人值守

  • 批量生产模式:一次性提交多个主题,系统顺序自动处理

  • 数字人口播:上传照片即可生成真人出镜播报视频

🚀核心亮点

🏗️ 四层架构设计(核心技术解析)

🖥️ Streamlit Web UI · http://localhost:8501

⚡ FastAPI 后端 · http://localhost:8000

🎛️ PixelleVideoCore 协调中枢

LLM Service

TTSService

MediaService

VideoService

🔌 ComfyKit 统一抽象层(架构精髓)

🖥️ 本地 ComfyUI · 完全免费

☁️ RunningHub 云端 · 按量付费

8步自动化生命周期

从环境初始化到成片输出,系统分为8个明确阶段:[1/8]初始化 → [2/8]生成文案 → [3/8]确定标题 → [4/8]规划视觉 → [5/8]初始化分镜 → [6/8]素材生产 → [7/8]后期合成 → [8/8]持久化。音频时长自动决定视频片段长度,架构级音画同步保证。

ComfyKit 统一抽象层

所有媒体生成能力(TTS/图像/视频)统一封装在 ComfyKit 接口后。每个能力对应一个 ComfyUI 工作流 JSON 文件。管线与具体模型真正解耦——切换模型只需更换工作流文件,无需改动一行代码。

丰富模板体系

11种场景模板 × 3种尺寸规格:竖屏9:16(抖音/小红书)、横屏16:9(B站/YouTube)、方形1:1(Instagram)。视觉风格涵盖现代感、优雅书卷、赛博朋克、治愈系等7种。

数字人 + 动作迁移

2026年重磅更新:上传一张照片即可生成多语言数字人口播视频,口型同步自然;上传参考视频+静态图片,AI 将视频动作精准迁移到图片人物,支持跳舞、手势、表情迁移。

多模型灵活切换

LLM 支持通义千问/GPT-4o/DeepSeek/Ollama 本地;图像支持 FLUX/SDXL/Qwen;视频支持 Wan 2.1/Wan 2.2/Nano Banana;TTS 支持 Edge-TTS/Index-TTS/ChatTTS。按需选择,成本可控。

本地 + 云端双模式

有显卡?本地 ComfyUI 部署,数据不出本机,完全免费。无显卡?RunningHub 云端调用,按量付费,48G 高配机器也支持。同一套代码,两种运行方式随意切换。

📊 与主流工具对比

| 对比维度 | Pixelle-Video | 可灵 AI 2.0 | Runway Gen-4 | HeyGen | | --- | --- | --- | --- | --- | | 开发商 | 阿里巴巴 AIDC-AI | 快手 | Runway | HeyGen | | 费用 | 完全免费开源 | ¥66/月 | 15/15/月 | 29/月 | | 全流程自动化 | ✅ 文案→成片 | ❌ 仅视频生成 | ❌ 仅视频生成 | ❌ 仅数字人 | | 本地部署 | ✅ 数据完全私有 | ❌ 仅云端 | ❌ 仅云端 | ❌ 仅云端 | | 多语言支持 | ✅ 中/英/韩等 | 主要中文 | 多语言 | 130+语言 |

🎯实战场景展示

📚 场景一:知识博主日更5条短视频

某心理学公众号博主需要每天发布5条心理学科普短视频,用于引流到公众号。

1准备好5个主题:为什么越努力越焦虑3个瞬间判断一个人是否可信...

2在 Pixelle-Video Web 界面选择「批量生成」模式,粘贴所有主题

3选择 image_psychology_card 模板(小红书爆款结构)

4TTS 选择 [zh-CN-Yunjian] 音色,语速 1.2x

5点击生成,30分钟后收到5条成片。传统方式需要一整天。

💰 成本对比

传统方式:剪辑师成本约 500元/条 × 5 = 2500元/天。使用 Pixelle-Video:电费 + API 费用 ≈ 5元/天,成本降低 99.8%。

🌍 场景二:跨境电商多语言产品介绍

跨境电商卖家需要为同一款产品制作中、英、韩三语介绍视频,用于不同市场的商品页面。

1输入主题:XX蓝牙耳机:降噪深度-48dB,续航30小时,IP55防水

2中文版:TTS 选中文音色,生成后下载

3英文版:切换 LLM 为英文提示词,TTS 选 [en-US-Jenny]

4韩语版:LLM 切换为韩语提示词,TTS 选韩语音色

5三条视频总耗时约15分钟。过去聘请三语配音演员需要3-5天,成本超2000元。

🎓 场景三:教育机构课程视频批量制作

某在线教育平台需要将100节课程大纲转化为短视频,用于社群运营和课程售卖转化。

1将课程大纲整理为文本文件,每行一个知识点

2使用「固定文案内容」模式,粘贴知识点文本

3选择 image_elegant 模板(书卷风,适合教育内容)

4Python API 批量调用:pixelle.generate_video(text=line)

5100节短视频自动生成,单节成本接近0,总耗时约2小时(传统方式需要2周)。

📖上手指南

Pixelle-Video 提供三种部署方式,任选其一即可。推荐新手使用 Windows 一键整合包。

# 方式一:Windows 一键整合包(新手推荐)Bash

# 步骤1:访问 GitHub Releases 下载整合包
# https://github.com/AIDC-AI/Pixelle-Video/releases
# 步骤2:解压到非中文路径(重要!)
# 步骤3:双击运行 start.bat
# 步骤4:浏览器自动打开 http://localhost:8501
# 步骤5:在「系统配置」面板配置 LLM API Key,点击保存
# 常见问题:启动失败?
# 1. 确认解压路径不含中文或特殊字符
# 2. 以管理员身份运行 start.bat
# 3. 关闭杀毒软件后重试
# 4. 删除文件夹重新解压

# 方式二:从源码安装(macOS / Linux / 高级用户)Bash

# 步骤1:安装 uv(现代 Python 包管理器)
if
 [ 
"$(uname)"
 = 
"Darwin"
 ] || [ 
"$(uname)"
 = 
"Linux"
 ]; 
then
     curl -LsSf https://astral.sh/uv/install.sh | sh
fi
# 步骤2:安装 FFmpeg(视频处理依赖)
# macOS:
brew install ffmpeg
# Ubuntu:
sudo
 apt update && 
sudo
 apt install ffmpeg
# 步骤3:克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git 
cd Pixelle-Video
# 步骤4:启动 Web 界面(uv 会自动创建虚拟环境并安装依赖)
uv run streamlit run web/app.py
# 访问 http://localhost:8501

# 方式三:Docker 部署(服务器部署推荐)Bash

# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git 
cd Pixelle-Video
# 构建镜像(国内网络开启镜像加速)
export
USE_CN_MIRROR
=
"true"
docker compose build --no-cache
# 启动容器
export
USE_CN_MIRROR
=
"true"
docker compose up -d
# 访问地址:
# Web 界面:http://localhost:8501
# API 接口:http://localhost:8000

⚙️ 关键配置说明

LLM 配置(config.yaml):

• 通义千问(推荐):base_url=https://dashscope.aliyuncs.com/compatible-mode/v1,model=qwen-plus,费用极低• DeepSeek(高性价比):base_url=https://api.deepseek.com/v1,model=deepseek-chat• 本地免费:base_url=http://localhost:11434/v1,model=qwen2.5:7b,需先安装 Ollama

ComfyUI 本地配置(有显卡用户):

• 访问 https://comfy.org/download 安装 ComfyUI• 启动后确认可访问 http://127.0.0.1:8188• 重要:在 ComfyUI 中加载 workflows/selfhost/analyse_image.json(必须先做!)• 在 Pixelle-Video 配置页面填写 ComfyUI 地址,保存

# Python API 调用示例(批量集成用)Python

from
 pixelle_video.service 
import
 PixelleVideoCore
# 初始化核心引擎
pixelle = PixelleVideoCore()
await
 pixelle.initialize()
# 生成单个视频
result = 
await
 pixelle.generate_video(     
    text=
"为什么要养成阅读习惯"
,     
    mode=
"generate"
,     
    n_scenes=
5
,     
    frame_template=
"1080x1920/image_default.html"
,
    tts_workflow=
"tts_edge.json"
,
    media_workflow=
"image_flux.json"
)
    print
(
f"视频已生成:{result['video_path']}"
)
# 批量生成(读取主题列表文件)
with 
open
(
"topics.txt"
) 
as
 f:  
  topics = [line.strip() 
for
 line 
in
 f 
if
 line.strip()]
for
 topic 
in
 topics:   
    result = 
await
 pixelle.generate_video(text=topic)
   
print
(
f"✅ {topic} → {result['video_path']}"
)

🛠️常见问题 FAQ

Q:ComfyUI 报错"缺失节点"怎么办?

A:这是最常见的坑!必须在 ComfyUI 界面中加载 workflows/selfhost/ 目录下的所有 JSON 工作流文件(尤其是 analyse_image.json),让 ComfyUI 自动安装缺失的自定义节点,每个文件加载后需点击运行等待完成。

Q:TTS 生成失败?

A:检查 config.yaml 中 tts.default_workflow 路径是否正确;确认网络可访问微软 Edge-TTS 服务;检查防火墙是否放行 443 端口;项目在 2025-12-10 更新中已锁定 edge-tts 版本,建议更新到最新版。

Q:生成视频的画质和帧率如何?

A:当前版本主打短视频场景,输出最高 1080P、30帧。画质取决于所选的生图/生视频模型——用 FLUX.1-dev 生成的图像质量极高,用 Wan 2.1 生成的视频流畅度较好。专业影视级需求建议使用 Runway 等工具。

Q:可以用于商业用途吗?

A:可以!项目采用 Apache 2.0 协议,允许商业使用。但需注意:使用的 AI 模型(如 FLUX、Wan 2.1)可能有独立的许可协议,商用前请确认各模型的商业使用条款。

📝 今日总结

🎯 定位

阿里巴巴开源的 AI 全自动短视频引擎,Apache 2.0 协议,完全免费

✨ 核心价值

输入主题 → 自动生成文案/配图/配音/字幕/成片,全流程无人值守

🏗️ 技术亮点

ComfyKit 统一抽象层,8步生命周期,本地/云端双模式,数字人+动作迁移

📈 适用人群

知识博主、跨境电商、教育机构、自媒体运营、有任何批量视频制作需求的人

🌟 立即体验 Pixelle-Video

完全开源免费 · 本地部署数据私有 · 3分钟出片

⭐ GitHub 仓库****📚 官方文档