剪辑 Agent 字幕升级:99% 正确率的字幕,一条指令直接推进剪映

0 阅读5分钟

大家好,我是成峰。

最近把剪辑 Agent 的字幕功能重做了一遍。

跑一条指令,剪映首页多出一个新草稿。双击打开,字幕全在时间轴上,花字和入场动画都已经配好了。

字幕准确率 95%,有口播稿能到 99%。

效果演示

做这件事之前,我试过两条路

第一层:剪映自己的字幕

剪过视频的人都懂——专名一识别就错。

「成峰」→「乘风」 「Claude Code」→「克劳德扣的」 「Agent」→「阿金特」

半小时视频,改字幕的时间比剪还久。

这不是识别模型的问题,是专名本来就没有标准发音。

第二层:我上一版做的剪辑 Agent

为了解决识别不准,我之前做过一版剪辑 Agent。

字幕准是准了。但反馈下来,大家卡的不是准不准——是根本用不起来。

两个门槛:

  • 要有 AI 编程经验:没基础直接劝退

  • 命令行交互:对很多人来说比较陌生

技术对了,但门槛把人挡在外面。

做出来的能用,但用不起来的人最多。

GitHub 上淘到了 capcut-mate

前段时间翻 GitHub,看到一个叫 capcut-mate 的项目。

capcut-mate 项目截图

冷门,但它最关键的价值只有一个——不是导出字幕文件,而是直接生成可编辑的剪映草稿。

字幕、花字、入场动画,全都能用 API 写进去。不用烧录,不用手动拖 SRT,产物就是一个剪映原生项目。

我把它接进了剪辑 Agent,在它基础上加了三件事:

1.接一套语音识别服务(火山引擎 ASR),先拿到准确时间戳 

2.口播稿对齐:识别只负责拿时间戳,字幕文本直接用你的口播稿 

3.错词字典:没口播稿时,用字典做二次校对

新流程就跑通了:

主流程图

三条路并排放一起,差距一目了然:

三条路对比

一句话总结:剪映自带是省事但不准,老版 Agent 是准但难上手,这一版是把「准确率」和「可用性」一起补齐。

具体怎么用:5 步搞定

5 步总览

第 1 步:下载 Skills + 配一次火山 apikey

首次使用还要配一下火山语音识别的 apikey(转录用的):

1.去 火山引擎控制台 开通语音识别服务,拿到 apikey 就可以了 

2.填到 Skill 的配置文件里(Skill 会在第一次跑时提示你填,只用配一次)

之后每条视频都复用这套 key,不用管它。

这个是开通地址,不要找错地方:

console.volcengine.com/speech/new/…

打开以后,根据图,选择模型,点击开通:

开通模型

创建 apikey,并复制:

创建 apikey

发给 Agent 配置,就可以了。

地址:https://github.com/Ceeon/videocut-skills
存放路径:.claude/skills/
需要注意 skills 文件夹存放的层级
火山 apikey:****

下完就能用。环境、依赖、本地服务,Skill 第一次跑的时候自己装,你不用管。老用户直接更新就行。

第 2 步:准备口播稿 或 字典

这一步决定准确率。

准确率对比

  • 有口播稿(99%) 直接放进来,字幕文本用你的稿子,识别只为拿时间戳
  • 有错词字典(95%) 把常错的专名列出来(成峰/乘风Claude Code/克劳德扣的),Agent 校对时照着修
  • 两样都没(约 80%) 也能跑,但专名要自己人肉复核一遍,建议还是补个字典一句话:

你给越多上下文,Agent 犯越少错。

**
**

第 3 步:导出字幕

输入 /v,选 videocut:导出字幕

然后拖动给 Agent 字幕文件,以及视频就行。

Skill 先确认一下口播稿 / 字典路径,然后直接开跑。

导出字幕界面

第 4 步:预设样式(可改)

我给 Skill 自带一套默认样式——黄字黑描边、4:3 画面、贴底、入场渐显,适合大部分口播视频。

想换样式,一句话告诉 Agent 就行

  • "字体换白色"、"改成竖屏"、"字幕放中间"

如果你有自己偏好的样式,也可以根据剪映 app 里的内容,去查询对应的参数是什么:

剪映样式参数

需要说明的一点是,这个坐标,代表了字幕的位置,可以在剪映里预先配置好,然后发给 Agent:

字幕坐标配置

不用查文档,不用敲命令。花字清单在 Skill 的 references 里,挑一眼直接报名字。

花字清单

第 5 步:在剪映里打开

跑完你会拿到两个产物:

📄 SRT 文件  → 已经在剪映里剪过的视频,拖这个就行
🎬 剪映草稿  → Cmd+Q 退出剪映 → 重开 → 首页双击打开

重开剪映是关键一步——剪映启动时才扫描草稿目录,不重开看不到新草稿。

剪映草稿打开

为什么准确率会分成 80% / 95% / 99%

三档方案,对应三种场景。

**
**

有口播稿(99%) :识别只是为了拿时间戳,字幕文本直接用你的口播稿。只要口播和稿子差别不大,专名基本不会错。

有错词字典(95%) :火山引擎识别 + AI 结合上下文纠错——这篇一直在讲 Claude Code,「克劳德扣的」大概率就是 Claude Code。不是靠词典硬匹配,是读上下文

两样都没(约 80%) :能跑,但专名要手工过一遍。

什么时候会掉到 80% 以下? 多人对话、带 BGM 背景音、方言或中英混播——这些场景识别本身就难,再好的纠错也救不回来。这类视频我一般还是手工过一遍。

真正变化的不是技术,是门槛

字幕这事折腾了好几版:

1.剪映自带 → 专名不准 

2.老版 Agent → 准了,但要 AI 编程基础才能跑 

3.这一版 → 不用懂技术,一个指令跑完直接进剪映

对口播作者来说,字幕从来不是创作,是返工。

这次升级解决的不是「字幕能不能生成」,而是「非技术用户能不能直接拿来剪」。

如果你每周都在做口播,第一次配置花 10 分钟,后面每条视频都能少掉 20 分钟的低价值返工。把口播稿一起给它——剪字幕这件事,就该退出你的手工流程了。