大家好,我是成峰。
最近把剪辑 Agent 的字幕功能重做了一遍。
跑一条指令,剪映首页多出一个新草稿。双击打开,字幕全在时间轴上,花字和入场动画都已经配好了。
字幕准确率 95%,有口播稿能到 99%。
做这件事之前,我试过两条路
第一层:剪映自己的字幕
剪过视频的人都懂——专名一识别就错。
「成峰」→「乘风」 「Claude Code」→「克劳德扣的」 「Agent」→「阿金特」
半小时视频,改字幕的时间比剪还久。
这不是识别模型的问题,是专名本来就没有标准发音。
第二层:我上一版做的剪辑 Agent
为了解决识别不准,我之前做过一版剪辑 Agent。
字幕准是准了。但反馈下来,大家卡的不是准不准——是根本用不起来。
两个门槛:
-
要有 AI 编程经验:没基础直接劝退
-
命令行交互:对很多人来说比较陌生
技术对了,但门槛把人挡在外面。
做出来的能用,但用不起来的人最多。
GitHub 上淘到了 capcut-mate
前段时间翻 GitHub,看到一个叫 capcut-mate 的项目。
冷门,但它最关键的价值只有一个——不是导出字幕文件,而是直接生成可编辑的剪映草稿。
字幕、花字、入场动画,全都能用 API 写进去。不用烧录,不用手动拖 SRT,产物就是一个剪映原生项目。
我把它接进了剪辑 Agent,在它基础上加了三件事:
1.接一套语音识别服务(火山引擎 ASR),先拿到准确时间戳
2.口播稿对齐:识别只负责拿时间戳,字幕文本直接用你的口播稿
3.错词字典:没口播稿时,用字典做二次校对
新流程就跑通了:
三条路并排放一起,差距一目了然:
一句话总结:剪映自带是省事但不准,老版 Agent 是准但难上手,这一版是把「准确率」和「可用性」一起补齐。
具体怎么用:5 步搞定
第 1 步:下载 Skills + 配一次火山 apikey
首次使用还要配一下火山语音识别的 apikey(转录用的):
1.去 火山引擎控制台 开通语音识别服务,拿到 apikey 就可以了
2.填到 Skill 的配置文件里(Skill 会在第一次跑时提示你填,只用配一次)
之后每条视频都复用这套 key,不用管它。
这个是开通地址,不要找错地方:
console.volcengine.com/speech/new/…
打开以后,根据图,选择模型,点击开通:
创建 apikey,并复制:
发给 Agent 配置,就可以了。
地址:https://github.com/Ceeon/videocut-skills
存放路径:.claude/skills/
需要注意 skills 文件夹存放的层级
火山 apikey:****
下完就能用。环境、依赖、本地服务,Skill 第一次跑的时候自己装,你不用管。老用户直接更新就行。
第 2 步:准备口播稿 或 字典
这一步决定准确率。
- 有口播稿(99%) 直接放进来,字幕文本用你的稿子,识别只为拿时间戳
- 有错词字典(95%) 把常错的专名列出来(
成峰/乘风、Claude Code/克劳德扣的),Agent 校对时照着修 - 两样都没(约 80%) 也能跑,但专名要自己人肉复核一遍,建议还是补个字典一句话:
你给越多上下文,Agent 犯越少错。
**
**
第 3 步:导出字幕
输入 /v,选 videocut:导出字幕。
然后拖动给 Agent 字幕文件,以及视频就行。
Skill 先确认一下口播稿 / 字典路径,然后直接开跑。
第 4 步:预设样式(可改)
我给 Skill 自带一套默认样式——黄字黑描边、4:3 画面、贴底、入场渐显,适合大部分口播视频。
想换样式,一句话告诉 Agent 就行:
- "字体换白色"、"改成竖屏"、"字幕放中间"
如果你有自己偏好的样式,也可以根据剪映 app 里的内容,去查询对应的参数是什么:
需要说明的一点是,这个坐标,代表了字幕的位置,可以在剪映里预先配置好,然后发给 Agent:
不用查文档,不用敲命令。花字清单在 Skill 的 references 里,挑一眼直接报名字。
第 5 步:在剪映里打开
跑完你会拿到两个产物:
📄 SRT 文件 → 已经在剪映里剪过的视频,拖这个就行
🎬 剪映草稿 → Cmd+Q 退出剪映 → 重开 → 首页双击打开
重开剪映是关键一步——剪映启动时才扫描草稿目录,不重开看不到新草稿。
为什么准确率会分成 80% / 95% / 99%
三档方案,对应三种场景。
**
**
有口播稿(99%) :识别只是为了拿时间戳,字幕文本直接用你的口播稿。只要口播和稿子差别不大,专名基本不会错。
有错词字典(95%) :火山引擎识别 + AI 结合上下文纠错——这篇一直在讲 Claude Code,「克劳德扣的」大概率就是 Claude Code。不是靠词典硬匹配,是读上下文。
两样都没(约 80%) :能跑,但专名要手工过一遍。
什么时候会掉到 80% 以下? 多人对话、带 BGM 背景音、方言或中英混播——这些场景识别本身就难,再好的纠错也救不回来。这类视频我一般还是手工过一遍。
真正变化的不是技术,是门槛
字幕这事折腾了好几版:
1.剪映自带 → 专名不准
2.老版 Agent → 准了,但要 AI 编程基础才能跑
3.这一版 → 不用懂技术,一个指令跑完直接进剪映
对口播作者来说,字幕从来不是创作,是返工。
这次升级解决的不是「字幕能不能生成」,而是「非技术用户能不能直接拿来剪」。
如果你每周都在做口播,第一次配置花 10 分钟,后面每条视频都能少掉 20 分钟的低价值返工。把口播稿一起给它——剪字幕这件事,就该退出你的手工流程了。