
剪视频是一件很痛苦的事,你得学 Premiere 或 Final Cut,面对密密麻麻的时间轴、轨道、效果面板。一个 5 分钟的视频,可能要花几个小时剪辑——剪掉口误、调整颜色、加字幕、找合适的转场...
今天要介绍的 video-use,彻底改变了这个局面。
GitHub: github.com/browser-use…
和 AI 聊天就能剪视频
video-use 的定位很独特:用 AI Agent 剪辑视频。
它的使用方式非常简单:
- 把原始素材放到一个文件夹
- 打开 Claude Code(或 Codex、Hermes 等 AI Agent)
- 说"帮我把这些剪成一个产品发布视频"
- 等几分钟,final.mp4 就生成了
不需要打开剪辑软件,不需要拖动时间轴,不需要学习任何快捷键。就像和朋友描述你想要什么,朋友帮你剪好。

browser-use 团队的新作
video-use 来自 browser-use 团队——就是那个让 AI 能自动控制浏览器的开源项目。
这个团队很擅长做一件事:让 AI 以人类的方式理解和操作复杂系统。browser-use 让 AI 看网页像人看网页一样,video-use 让 AI 剪视频像人剪视频一样。
项目完全开源,100%免费。
AI 是怎么理解视频的
你可能会好奇:AI 又没长眼睛,它怎么知道怎么剪视频?
video-use 用了很聪明的两层架构:
第一层:音频转录
通过 ElevenLabs Scribe 把视频语音转成文字,精确到每个词的时间戳,还能识别说话人和音频事件(笑声、掌声、叹息)。所有素材打包成一个约 12KB 的文本文件 takes_packed.md。
第二层:视觉合成(按需)
只在需要的时候生成胶片条 + 波形图 + 词标签的图片。比如在判断某个停顿是否应该剪掉时,AI 会看一眼波形图确认。
对比传统方式:
传统视频分析要把 30,000 帧视频传给 AI,每帧 1,500 tokens,总共 45M tokens,又贵又慢。
video-use 只需要 12KB 文本 + 几张关键图片,成本低、速度快。
这就像 browser-use 不给 AI 看网页截图,而是给结构化 DOM 数据——但用于视频。
全自动剪辑流程
video-use 的工作流程是全自动的:
转录 → 打包 → LLM 推理 → 生成 EDL → 渲染 → 自我评估
如果自我评估发现问题(比如画面跳跃、音频爆音、字幕遮挡),会自动修复并重新渲染,最多尝试 3 次。只有通过了自我检查,才会把成品展示给你。
这种"先检查再交付"的机制,避免了传统剪辑中常见的低级错误。
核心功能一览
video-use 能帮你自动完成这些工作:
智能剪辑
自动识别并剪掉语气词(umm、uh)、错误开头、片段间的停顿和死寂。AI 会根据语音边界精确剪辑,不会把句子剪得支离破碎。
自动调色
提供几种预设风格:暖色电影感、中性增强,或者你可以自定义 ffmpeg 调色链。整个视频的色调会保持一致。
音频优化
在每个剪辑点自动添加 30ms 的淡入淡出,避免切换时的爆音。这是专业剪辑师的基本操作,video-use 自动帮你做了。
字幕生成
自动生成字幕,默认是两词大写分块的样式(像很多 YouTube 视频那样),但完全可定制。字体、颜色、位置都能调整。
动画叠加
可以通过 HyperFrames、Remotion、Manim 或 PIL 生成动画元素,比如标题卡、数据可视化、示意图等。这些动画由并行子 Agent 生成,效率很高。
会话记忆
剪辑进度保存在 project.md 文件中。这周剪了一半,下周打开可以继续,不会丢失上下文。
适用于任何内容类型
video-use 不预设你要剪什么类型的视频:
- Talking heads —— 口播、演讲、vlog
- 教程 —— 软件教学、技能分享
- 访谈 —— 对话、播客视频版
- 旅行视频 —— 风景、日常记录
- 蒙太奇 —— 产品展示、宣传片
你不需要选择预设或菜单,直接告诉 AI 你想要什么效果就行。
安装和使用
video-use 的安装很简单,有两种方式:
自动安装(推荐)
直接在 Claude Code 里粘贴:
Set up https://github.com/browser-use/video-use for me.
Agent 会自动:
- 克隆仓库
- 安装依赖
- 注册技能
- 提示你输入 ElevenLabs API Key
手动安装
# 1. 克隆并创建软链接
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use
# 2. 安装依赖
cd ~/Developer/video-use
uv sync
brew install ffmpeg
brew install yt-dlp # 可选
# 3. 配置 API Key
cp .env.example .env
# 编辑 .env 添加 ELEVENLABS_API_KEY
使用方法
cd /path/to/your/videos # 进入素材文件夹
claude # 启动 Claude Code
然后在聊天中说:
edit these into a launch video
AI 会:
- 清点你的素材
- 提出剪辑策略(比如"建议保留第1段的0:05-0:32和第3段的全部")
- 等你确认
- 执行剪辑
- 自我评估
- 输出 edit/final.mp4
所有输出都在你的视频文件夹下的 edit/ 目录里,不会搞乱技能目录。
设计哲学
video-use 的设计很有意思:
文本为主,视觉按需
不给 AI 看每一帧,而是给转录文本。只在决策点生成视觉参考。
音频主导,视觉跟随
剪辑点基于语音边界和停顿,而不是画面变化。
询问 → 确认 → 执行 → 评估 → 持久化
不会擅自剪辑,每一步都有确认环节。
零内容假设
不预设你要剪什么,先观察、询问,再动手。
12 条硬性规则,其余自由
制作正确性(如音频不爆音、剪辑点自然)必须保证,审美风格可以灵活。
为什么选 video-use
零学习成本
不需要学剪辑软件,用自然语言描述需求就行。
全自动处理
从转录到渲染到自我检查,全流程自动化。
专业级输出
自动调色、音频淡入淡出、字幕样式,都是专业标准。
开源免费
100% 开源,没有订阅费、没有功能限制。
会话连续性
project.md 保存进度,可以分多次完成一个项目。
适用范围广
vlog、教程、访谈、宣传片,什么类型都能处理。
GitHub: github.com/browser-use…
写在最后
video-use 代表了一种新的视频创作方式:用自然语言指挥 AI 完成专业剪辑。
它可能不会完全替代专业剪辑师——复杂的叙事结构、精细的节奏把控,目前还是需要人来完成。但对于大部分日常剪辑需求(剪掉口误、加个字幕、调个色、拼几段素材),video-use 完全够用,而且效率极高。
这就是 AI 带来的生产力革命。
如果你也厌倦了剪辑软件的复杂界面,试试 video-use。和 AI 聊天剪视频,可能是未来的标准 workflow。
关注
如果这篇文章对你有帮助,欢迎点赞、收藏、转发。我会持续分享 AI 工具和开源项目,关注我,一起探索 AI 带来的生产力变革。