开源1天5k+星,Browser Use 团队新作,聊天就能剪视频

137 阅读6分钟

剪视频是一件很痛苦的事,你得学 Premiere 或 Final Cut,面对密密麻麻的时间轴、轨道、效果面板。一个 5 分钟的视频,可能要花几个小时剪辑——剪掉口误、调整颜色、加字幕、找合适的转场...

今天要介绍的 video-use,彻底改变了这个局面。

GitHub: github.com/browser-use…

和 AI 聊天就能剪视频

video-use 的定位很独特:用 AI Agent 剪辑视频

它的使用方式非常简单:

  1. 把原始素材放到一个文件夹
  2. 打开 Claude Code(或 Codex、Hermes 等 AI Agent)
  3. 说"帮我把这些剪成一个产品发布视频"
  4. 等几分钟,final.mp4 就生成了

不需要打开剪辑软件,不需要拖动时间轴,不需要学习任何快捷键。就像和朋友描述你想要什么,朋友帮你剪好

browser-use 团队的新作

video-use 来自 browser-use 团队——就是那个让 AI 能自动控制浏览器的开源项目。

这个团队很擅长做一件事:让 AI 以人类的方式理解和操作复杂系统。browser-use 让 AI 看网页像人看网页一样,video-use 让 AI 剪视频像人剪视频一样。

项目完全开源,100%免费。

AI 是怎么理解视频的

你可能会好奇:AI 又没长眼睛,它怎么知道怎么剪视频?

video-use 用了很聪明的两层架构:

第一层:音频转录

通过 ElevenLabs Scribe 把视频语音转成文字,精确到每个词的时间戳,还能识别说话人和音频事件(笑声、掌声、叹息)。所有素材打包成一个约 12KB 的文本文件 takes_packed.md。

第二层:视觉合成(按需)

只在需要的时候生成胶片条 + 波形图 + 词标签的图片。比如在判断某个停顿是否应该剪掉时,AI 会看一眼波形图确认。

对比传统方式

传统视频分析要把 30,000 帧视频传给 AI,每帧 1,500 tokens,总共 45M tokens,又贵又慢。

video-use 只需要 12KB 文本 + 几张关键图片,成本低、速度快。

这就像 browser-use 不给 AI 看网页截图,而是给结构化 DOM 数据——但用于视频。

全自动剪辑流程

video-use 的工作流程是全自动的:

转录打包LLM 推理生成 EDL渲染自我评估

如果自我评估发现问题(比如画面跳跃、音频爆音、字幕遮挡),会自动修复并重新渲染,最多尝试 3 次。只有通过了自我检查,才会把成品展示给你。

这种"先检查再交付"的机制,避免了传统剪辑中常见的低级错误。

核心功能一览

video-use 能帮你自动完成这些工作:

智能剪辑

自动识别并剪掉语气词(umm、uh)、错误开头、片段间的停顿和死寂。AI 会根据语音边界精确剪辑,不会把句子剪得支离破碎。

自动调色

提供几种预设风格:暖色电影感、中性增强,或者你可以自定义 ffmpeg 调色链。整个视频的色调会保持一致。

音频优化

在每个剪辑点自动添加 30ms 的淡入淡出,避免切换时的爆音。这是专业剪辑师的基本操作,video-use 自动帮你做了。

字幕生成

自动生成字幕,默认是两词大写分块的样式(像很多 YouTube 视频那样),但完全可定制。字体、颜色、位置都能调整。

动画叠加

可以通过 HyperFrames、Remotion、Manim 或 PIL 生成动画元素,比如标题卡、数据可视化、示意图等。这些动画由并行子 Agent 生成,效率很高。

会话记忆

剪辑进度保存在 project.md 文件中。这周剪了一半,下周打开可以继续,不会丢失上下文。

适用于任何内容类型

video-use 不预设你要剪什么类型的视频:

  • Talking heads —— 口播、演讲、vlog
  • 教程 —— 软件教学、技能分享
  • 访谈 —— 对话、播客视频版
  • 旅行视频 —— 风景、日常记录
  • 蒙太奇 —— 产品展示、宣传片

你不需要选择预设或菜单,直接告诉 AI 你想要什么效果就行。

安装和使用

video-use 的安装很简单,有两种方式:

自动安装(推荐)

直接在 Claude Code 里粘贴:

Set up https://github.com/browser-use/video-use for me.

Agent 会自动:

  • 克隆仓库
  • 安装依赖
  • 注册技能
  • 提示你输入 ElevenLabs API Key

手动安装

# 1. 克隆并创建软链接
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use

# 2. 安装依赖
cd ~/Developer/video-use
uv sync
brew install ffmpeg
brew install yt-dlp  # 可选

# 3. 配置 API Key
cp .env.example .env
# 编辑 .env 添加 ELEVENLABS_API_KEY

使用方法

cd /path/to/your/videos  # 进入素材文件夹
claude  # 启动 Claude Code

然后在聊天中说:

edit these into a launch video

AI 会:

  1. 清点你的素材
  2. 提出剪辑策略(比如"建议保留第1段的0:05-0:32和第3段的全部")
  3. 等你确认
  4. 执行剪辑
  5. 自我评估
  6. 输出 edit/final.mp4

所有输出都在你的视频文件夹下的 edit/ 目录里,不会搞乱技能目录。

设计哲学

video-use 的设计很有意思:

文本为主,视觉按需

不给 AI 看每一帧,而是给转录文本。只在决策点生成视觉参考。

音频主导,视觉跟随

剪辑点基于语音边界和停顿,而不是画面变化。

询问 → 确认 → 执行 → 评估 → 持久化

不会擅自剪辑,每一步都有确认环节。

零内容假设

不预设你要剪什么,先观察、询问,再动手。

12 条硬性规则,其余自由

制作正确性(如音频不爆音、剪辑点自然)必须保证,审美风格可以灵活。

为什么选 video-use

零学习成本

不需要学剪辑软件,用自然语言描述需求就行。

全自动处理

从转录到渲染到自我检查,全流程自动化。

专业级输出

自动调色、音频淡入淡出、字幕样式,都是专业标准。

开源免费

100% 开源,没有订阅费、没有功能限制。

会话连续性

project.md 保存进度,可以分多次完成一个项目。

适用范围广

vlog、教程、访谈、宣传片,什么类型都能处理。

GitHub: github.com/browser-use…

写在最后

video-use 代表了一种新的视频创作方式:用自然语言指挥 AI 完成专业剪辑

它可能不会完全替代专业剪辑师——复杂的叙事结构、精细的节奏把控,目前还是需要人来完成。但对于大部分日常剪辑需求(剪掉口误、加个字幕、调个色、拼几段素材),video-use 完全够用,而且效率极高。

这就是 AI 带来的生产力革命。

如果你也厌倦了剪辑软件的复杂界面,试试 video-use。和 AI 聊天剪视频,可能是未来的标准 workflow。


关注

如果这篇文章对你有帮助,欢迎点赞、收藏、转发。我会持续分享 AI 工具和开源项目,关注我,一起探索 AI 带来的生产力变革。