开源1天5k+星，Browser Use 团队新作，聊天就能剪视频video-use 是 browser-use 团队开

剪视频是一件很痛苦的事，你得学 Premiere 或 Final Cut，面对密密麻麻的时间轴、轨道、效果面板。一个 5 分钟的视频，可能要花几个小时剪辑——剪掉口误、调整颜色、加字幕、找合适的转场...

今天要介绍的 video-use，彻底改变了这个局面。

GitHub： github.com/browser-use…

和 AI 聊天就能剪视频

video-use 的定位很独特：用 AI Agent 剪辑视频。

它的使用方式非常简单：

把原始素材放到一个文件夹
打开 Claude Code（或 Codex、Hermes 等 AI Agent）
说"帮我把这些剪成一个产品发布视频"
等几分钟，final.mp4 就生成了

不需要打开剪辑软件，不需要拖动时间轴，不需要学习任何快捷键。就像和朋友描述你想要什么，朋友帮你剪好。

browser-use 团队的新作

video-use 来自 browser-use 团队——就是那个让 AI 能自动控制浏览器的开源项目。

这个团队很擅长做一件事：让 AI 以人类的方式理解和操作复杂系统。browser-use 让 AI 看网页像人看网页一样，video-use 让 AI 剪视频像人剪视频一样。

项目完全开源，100%免费。

AI 是怎么理解视频的

你可能会好奇：AI 又没长眼睛，它怎么知道怎么剪视频？

video-use 用了很聪明的两层架构：

第一层：音频转录

通过 ElevenLabs Scribe 把视频语音转成文字，精确到每个词的时间戳，还能识别说话人和音频事件（笑声、掌声、叹息）。所有素材打包成一个约 12KB 的文本文件 takes_packed.md。

第二层：视觉合成（按需）

只在需要的时候生成胶片条 + 波形图 + 词标签的图片。比如在判断某个停顿是否应该剪掉时，AI 会看一眼波形图确认。

对比传统方式：

传统视频分析要把 30,000 帧视频传给 AI，每帧 1,500 tokens，总共 45M tokens，又贵又慢。

video-use 只需要 12KB 文本 + 几张关键图片，成本低、速度快。

这就像 browser-use 不给 AI 看网页截图，而是给结构化 DOM 数据——但用于视频。

全自动剪辑流程

video-use 的工作流程是全自动的：

转录 → 打包 → LLM 推理 → 生成 EDL → 渲染 → 自我评估

如果自我评估发现问题（比如画面跳跃、音频爆音、字幕遮挡），会自动修复并重新渲染，最多尝试 3 次。只有通过了自我检查，才会把成品展示给你。

这种"先检查再交付"的机制，避免了传统剪辑中常见的低级错误。

核心功能一览

video-use 能帮你自动完成这些工作：

智能剪辑

自动识别并剪掉语气词（umm、uh）、错误开头、片段间的停顿和死寂。AI 会根据语音边界精确剪辑，不会把句子剪得支离破碎。

自动调色

提供几种预设风格：暖色电影感、中性增强，或者你可以自定义 ffmpeg 调色链。整个视频的色调会保持一致。

音频优化

在每个剪辑点自动添加 30ms 的淡入淡出，避免切换时的爆音。这是专业剪辑师的基本操作，video-use 自动帮你做了。

字幕生成

自动生成字幕，默认是两词大写分块的样式（像很多 YouTube 视频那样），但完全可定制。字体、颜色、位置都能调整。

动画叠加

可以通过 HyperFrames、Remotion、Manim 或 PIL 生成动画元素，比如标题卡、数据可视化、示意图等。这些动画由并行子 Agent 生成，效率很高。

会话记忆

剪辑进度保存在 project.md 文件中。这周剪了一半，下周打开可以继续，不会丢失上下文。

适用于任何内容类型

video-use 不预设你要剪什么类型的视频：

Talking heads —— 口播、演讲、vlog
教程 —— 软件教学、技能分享
访谈 —— 对话、播客视频版
旅行视频 —— 风景、日常记录
蒙太奇 —— 产品展示、宣传片

你不需要选择预设或菜单，直接告诉 AI 你想要什么效果就行。

安装和使用

video-use 的安装很简单，有两种方式：

自动安装（推荐）

直接在 Claude Code 里粘贴：

Set up https://github.com/browser-use/video-use for me.

Agent 会自动：

克隆仓库
安装依赖
注册技能
提示你输入 ElevenLabs API Key

手动安装

# 1. 克隆并创建软链接
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use

# 2. 安装依赖
cd ~/Developer/video-use
uv sync
brew install ffmpeg
brew install yt-dlp  # 可选

# 3. 配置 API Key
cp .env.example .env
# 编辑 .env 添加 ELEVENLABS_API_KEY

使用方法

cd /path/to/your/videos  # 进入素材文件夹
claude  # 启动 Claude Code

然后在聊天中说：

edit these into a launch video

AI 会：

清点你的素材
提出剪辑策略（比如"建议保留第1段的0:05-0:32和第3段的全部"）
等你确认
执行剪辑
自我评估
输出 edit/final.mp4

所有输出都在你的视频文件夹下的 edit/ 目录里，不会搞乱技能目录。

设计哲学

video-use 的设计很有意思：

文本为主，视觉按需

不给 AI 看每一帧，而是给转录文本。只在决策点生成视觉参考。

音频主导，视觉跟随

剪辑点基于语音边界和停顿，而不是画面变化。

询问 → 确认 → 执行 → 评估 → 持久化

不会擅自剪辑，每一步都有确认环节。

零内容假设

不预设你要剪什么，先观察、询问，再动手。

12 条硬性规则，其余自由

制作正确性（如音频不爆音、剪辑点自然）必须保证，审美风格可以灵活。

为什么选 video-use

零学习成本

不需要学剪辑软件，用自然语言描述需求就行。

全自动处理

从转录到渲染到自我检查，全流程自动化。

专业级输出

自动调色、音频淡入淡出、字幕样式，都是专业标准。

开源免费

100% 开源，没有订阅费、没有功能限制。

会话连续性

project.md 保存进度，可以分多次完成一个项目。

适用范围广

vlog、教程、访谈、宣传片，什么类型都能处理。

GitHub： github.com/browser-use…

写在最后

video-use 代表了一种新的视频创作方式：用自然语言指挥 AI 完成专业剪辑。

它可能不会完全替代专业剪辑师——复杂的叙事结构、精细的节奏把控，目前还是需要人来完成。但对于大部分日常剪辑需求（剪掉口误、加个字幕、调个色、拼几段素材），video-use 完全够用，而且效率极高。

这就是 AI 带来的生产力革命。

如果你也厌倦了剪辑软件的复杂界面，试试 video-use。和 AI 聊天剪视频，可能是未来的标准 workflow。

关注

如果这篇文章对你有帮助，欢迎点赞、收藏、转发。我会持续分享 AI 工具和开源项目，关注我，一起探索 AI 带来的生产力变革。