【GitHub每日速递 20260508】零剪辑经验狂喜!输入1个主题,AI全自动搞定文案/配音/画面/视频,数字人口播、动作迁移全都有

0 阅读9分钟

零剪辑经验狂喜!输入1个主题,AI全自动搞定文案/配音/画面/视频,数字人口播、动作迁移全都有

Pixelle-Video 是一个基于Python开发的视频处理工具。简单讲,它能帮助用户通过AI技术对视频进行智能编辑和增强。适用人群:视频创作者、AI开发者及数字内容制作人员。

项目地址:github.com/AIDC-AI/Pix…

主要语言:Python

stars: 9.8k

1

核心功能

  • 全自动视频生成:只需输入一个主题,即可自动完成撰写视频文案、生成 AI 配图/视频、合成语音解说、添加背景音乐以及一键合成视频等一系列操作,实现零门槛、零剪辑经验的视频创作。
  • AI 智能文案:根据输入的主题,智能创作解说词,无需用户自己编写脚本。
  • AI 生成配图与视频:为每句话配上精美的 AI 插图,同时支持使用 AI 视频生成模型(如 WAN 2.1)创建动态视频内容。
  • AI 生成语音:支持 Edge - TTS、Index - TTS 等众多主流 TTS 方案,还可上传参考音频进行声音克隆。
  • 背景音乐添加:支持添加 BGM,提供无 BGM、内置音乐和自定义音乐三种选择,让视频更有氛围。
  • 视觉风格多样:有多种模板可选,包括静态模板、图片模板和视频模板,可打造独特的视频风格。
  • 灵活的视频尺寸:支持竖屏、横屏等多种视频尺寸。
  • 多 AI 模型支持:支持 GPT、通义千问、DeepSeek、Ollama 等多种 AI 模型。
  • 原子能力灵活组合:基于 ComfyUI 架构,可使用预置工作流,也可自定义任意能力,如替换生图模型为 FLUX、替换 TTS 为 ChatTTS 等。

视频生成流程

采用模块化设计,流程为文案生成 → 配图规划 → 逐帧处理 → 视频合成,每个环节都支持灵活定制,可选择不同的 AI 模型、音频引擎、视觉风格等,满足个性化创作需求。

最近更新

  • 2026 年 1 月 26 日:新增「动作迁移」模块,可上传参考视频和图片进行动作迁移。
  • 2026 年 1 月 14 日:新增「数字人口播」和「图生视频」流水线,新增多语言 TTS 音色支持。
  • 2026 年 1 月 6 日:新增 RunningHub 48G 显存机器调用支持。
  • 2025 年 12 月 28 日:支持 RunningHub 并发限制可配置,优化 LLM 返回结构化数据的逻辑。
  • 2025 年 12 月 17 日:支持 ComfyUI API Key 配置,支持 Nano Banana 模型调用,API 接口支持模板自定义参数。
  • 2025 年 12 月 10 日:侧边栏内置 FAQ,锁定 edge - tts 版本修复 TTS 服务不稳定问题。
  • 2025 年 12 月 8 日:支持固定脚本多种分割方式(段落/行/句子),优化模板选择交互逻辑支持直接预览选择。
  • 2025 年 12 月 6 日:修复视频生成 API 返回 URL 路径处理,支持跨平台兼容。
  • 2025 年 12 月 5 日:新增 Windows 整合包下载,优化图片与视频反推工作流。
  • 2025 年 12 月 4 日:新增「自定义素材」功能,支持用户上传自己的照片和视频,AI 智能分析生成脚本。
  • 2025 年 11 月 18 日:优化 RunningHub 服务调用支持并行处理,新增历史记录页面,支持批量创建视频任务。

快速开始

  • Windows 一键整合包:推荐 Windows 用户使用,无需安装 Python、uv 或 ffmpeg,一键开箱即用。下载最新的 Windows 一键整合包并解压,双击运行 start.bat 启动 Web 界面,浏览器会自动打开 http://localhost:8501,在「⚙️ 系统配置」中配置 LLM API 和图像生成服务后即可开始生成视频。
  • 从源码安装:适合 macOS / Linux 用户或需要自定义的用户。需要先安装 Python 包管理器 uv 和视频处理工具 ffmpeg,然后下载项目,使用 uv run streamlit run web/app.py 启动 Web 界面,在 Web 界面配置 LLM API 和图像生成服务后开始生成视频。

使用方法

打开 Web 界面后为三栏布局:

  • 系统配置:首次使用时需配置,包括 LLM 配置(选择 AI 模型并填入 API Key)和图像配置(本地部署需配置 ComfyUI URL,云端部署需配置 RunningHub API Key),配置完成后点击「保存配置」。
  • 内容输入:有 AI 生成内容和固定文案内容两种生成模式,可选择是否添加背景音乐,支持试听。
  • 语音设置:可从下拉菜单选择 TTS 工作流,可上传参考音频用于声音克隆,支持预览语音效果。
  • 视觉设置:图像生成可选择 ComfyUI 工作流、设置图像尺寸和提示词前缀;视频模板有多种选择,可按尺寸分组显示,支持预览模板效果。
  • 生成视频:配置好所有参数后,点击「🎬 生成视频」,会显示实时进度,生成完成后自动显示视频预览,视频文件保存在 output/ 文件夹。

常见问题解答

  • 生成时长:生成时长取决于视频分镜数量、网络状况和 AI 推理速度,通常几分钟内即可完成。
  • 视频效果不满意:可尝试更换 LLM 模型、调整图像尺寸和提示词前缀、更换 TTS 工作流或上传参考音频、尝试不同的视频模板和尺寸。
  • 费用:本项目完全支持免费运行,有完全免费方案(LLM 使用 Ollama + ComfyUI 本地部署)、推荐方案(LLM 使用通义千问 + ComfyUI 本地部署)和云端方案(LLM 使用 OpenAI + 图像使用 RunningHub)可供选择。

参考项目

受到 Pixelle - MCP、MoneyPrinterTurbo、NarratoAI、MoneyPrinterPlus、ComfyKit 等优秀开源项目的启发。

Claude党必装!10大Browserbase神技让AI直接操控浏览器,反爬、验证码、网页自动化全搞定

[browserbase/skills] 是一个 用于浏览器自动化操作技能管理 的 JavaScript 库。简单讲,它帮助开发者通过代码控制浏览器行为并复用常见操作流程。适用人群:前端开发者、自动化测试工程师

项目地址:github.com/browserbase…

主要语言:JavaScript

stars: 1.8k

仓库核心功能

该仓库提供了一系列技能,旨在使Claude Code通过浏览器自动化和官方bb CLI与Browserbase协同工作。

技能详情

  • browser:可通过CLI命令实现浏览器交互自动化,支持远程Browserbase会话,具备反机器人隐身、验证码解决和住宅代理功能。
  • browserbase-cli:使用官方bb CLI处理Browserbase Functions和平台API工作流,涵盖会话、项目、上下文、扩展、抓取和仪表盘等操作。
  • functions:借助bb CLI将无服务器浏览器自动化部署到Browserbase云。
  • site-debugger:诊断并修复失败的浏览器自动化问题,分析机器人检测、选择器、时间安排、认证和验证码,生成经过测试的站点操作手册。
  • browser-trace:在任何浏览器自动化过程中捕获完整的DevTools协议跟踪(CDP数据流、截图、DOM转储),并将数据流按页面分割成可搜索的存储桶。
  • bb-usage:在终端仪表盘中显示Browserbase使用统计、会话分析和成本预测。
  • cookie-sync:将本地Chrome的cookie同步到Browserbase持久上下文,使浏览CLI能够访问已认证的网站。
  • fetch:在不使用浏览器会话的情况下从静态页面获取HTML或JSON,检查状态码、头部信息并跟踪重定向。
  • search:在不使用浏览器会话的情况下搜索网络并返回结构化结果(标题、URL、元数据)。
  • ui-test:基于AI的对抗性UI测试,分析git差异以测试更改,或探索整个应用程序以查找漏洞。

安装方法

  • 对于流行的编码代理,使用命令npx skills add browserbase/skills进行安装。
  • 在Claude Code上,添加市场源可运行/plugin marketplace add browserbase/skills,然后安装插件/plugin install browse@browserbase;也可通过手动界面操作:依次输入/plugin,选择3. Add marketplace,输入市场源browserbase/skills,选择browse插件并安装,最后重启Claude Code使更改生效。

使用方式

安装完成后,可向Claude提出浏览或使用Browserbase CLI的需求,例如:

  • “Go to Hacker News, get the top post comments, and summarize them”
  • “QA test http://localhost:3000 and fix any bugs you encounter”
  • “Order me a pizza, you're already signed in on Doordash”
  • “Use bb to list my Browserbase projects and show the output as JSON”
  • “Initialize a new Browserbase Function with bb functions init and explain the next commands”

对于本地和localhost工作,browse env local默认启动一个干净的隔离浏览器;若要重用现有本地Chrome会话、cookie或登录状态,可使用browse env local --auto-connect

故障排除

  • Chrome未找到:根据不同平台安装Chrome,macOS或Windows可访问www.google.com/chrome/ ,Linux可使用命令sudo apt install google-chrome-stable
  • 配置文件刷新:若要刷新主Chrome配置文件中的cookie,可运行rm -rf .chrome-profile

资源链接

仓库优势

  • 集成多种浏览器自动化和平台操作技能,为Claude Code与Browserbase协作提供全面支持。
  • 具备反机器人、验证码解决等实用功能,增强自动化操作的可靠性。
  • 提供详细的安装、使用和故障排除说明,方便用户上手和解决问题。

应用场景

  • 网页数据抓取:可利用fetchbrowser技能获取网页内容。
  • 网站自动化测试:通过ui-testsite-debugger技能进行网站的功能和UI测试。
  • 云部署:使用functions技能将浏览器自动化部署到Browserbase云。
  • 数据分析:通过bb-usage技能查看使用统计和成本预测,进行资源管理和成本控制。

原文:mp.weixin.qq.com/s/W66nrx_n9…

欢迎关注g*h:AI Tech研习社

关注g*h,后台回复【OpenClaw完全使用手册】,领取OpenClaw完全使用手册.pdf学习资料,更多学习资源敬请期待。