剪辑 Agent 字幕升级：99% 正确率的字幕，一条指令直接推进剪映大家好，我是成峰。最近把剪辑 Agent 的字幕

大家好，我是成峰。

最近把剪辑 Agent 的字幕功能重做了一遍。

跑一条指令，剪映首页多出一个新草稿。双击打开，字幕全在时间轴上，花字和入场动画都已经配好了。

字幕准确率 95%，有口播稿能到 99%。

效果演示

做这件事之前，我试过两条路

第一层：剪映自己的字幕

剪过视频的人都懂——专名一识别就错。

「成峰」→「乘风」「Claude Code」→「克劳德扣的」「Agent」→「阿金特」

半小时视频，改字幕的时间比剪还久。

这不是识别模型的问题，是专名本来就没有标准发音。

第二层：我上一版做的剪辑 Agent

为了解决识别不准，我之前做过一版剪辑 Agent。

字幕准是准了。但反馈下来，大家卡的不是准不准——是根本用不起来。

两个门槛：

要有 AI 编程经验：没基础直接劝退
命令行交互：对很多人来说比较陌生

技术对了，但门槛把人挡在外面。

做出来的能用，但用不起来的人最多。

GitHub 上淘到了 capcut-mate

前段时间翻 GitHub，看到一个叫 capcut-mate 的项目。

capcut-mate 项目截图

冷门，但它最关键的价值只有一个——不是导出字幕文件，而是直接生成可编辑的剪映草稿。

字幕、花字、入场动画，全都能用 API 写进去。不用烧录，不用手动拖 SRT，产物就是一个剪映原生项目。

我把它接进了剪辑 Agent，在它基础上加了三件事：

1.接一套语音识别服务（火山引擎 ASR），先拿到准确时间戳

2.口播稿对齐：识别只负责拿时间戳，字幕文本直接用你的口播稿

3.错词字典：没口播稿时，用字典做二次校对

新流程就跑通了：

主流程图

三条路并排放一起，差距一目了然：

三条路对比

一句话总结：剪映自带是省事但不准，老版 Agent 是准但难上手，这一版是把「准确率」和「可用性」一起补齐。

具体怎么用：5 步搞定

5 步总览

第 1 步：下载 Skills + 配一次火山 apikey

首次使用还要配一下火山语音识别的 apikey（转录用的）：

1.去火山引擎控制台开通语音识别服务，拿到 apikey 就可以了

2.填到 Skill 的配置文件里（Skill 会在第一次跑时提示你填，只用配一次）

之后每条视频都复用这套 key，不用管它。

这个是开通地址，不要找错地方：

console.volcengine.com/speech/new/…

打开以后，根据图，选择模型，点击开通：

开通模型

创建 apikey，并复制：

创建 apikey

发给 Agent 配置，就可以了。

地址：https://github.com/Ceeon/videocut-skills
存放路径：.claude/skills/
需要注意 skills 文件夹存放的层级
火山 apikey：****

下完就能用。环境、依赖、本地服务，Skill 第一次跑的时候自己装，你不用管。老用户直接更新就行。

第 2 步：准备口播稿或字典

这一步决定准确率。

准确率对比

有口播稿（99%） 直接放进来，字幕文本用你的稿子，识别只为拿时间戳
有错词字典（95%） 把常错的专名列出来（成峰/乘风、Claude Code/克劳德扣的），Agent 校对时照着修
两样都没（约 80%） 也能跑，但专名要自己人肉复核一遍，建议还是补个字典一句话：

你给越多上下文，Agent 犯越少错。

**
**

第 3 步：导出字幕

输入 /v，选 videocut:导出字幕。

然后拖动给 Agent 字幕文件，以及视频就行。

Skill 先确认一下口播稿 / 字典路径，然后直接开跑。

导出字幕界面

第 4 步：预设样式（可改）

我给 Skill 自带一套默认样式——黄字黑描边、4:3 画面、贴底、入场渐显，适合大部分口播视频。

想换样式，一句话告诉 Agent 就行：

"字体换白色"、"改成竖屏"、"字幕放中间"

如果你有自己偏好的样式，也可以根据剪映 app 里的内容，去查询对应的参数是什么：

剪映样式参数

需要说明的一点是，这个坐标，代表了字幕的位置，可以在剪映里预先配置好，然后发给 Agent：

字幕坐标配置

不用查文档，不用敲命令。花字清单在 Skill 的 references 里，挑一眼直接报名字。

花字清单

第 5 步：在剪映里打开

跑完你会拿到两个产物：

📄 SRT 文件  → 已经在剪映里剪过的视频，拖这个就行
🎬 剪映草稿  → Cmd+Q 退出剪映 → 重开 → 首页双击打开

重开剪映是关键一步——剪映启动时才扫描草稿目录，不重开看不到新草稿。

剪映草稿打开

为什么准确率会分成 80% / 95% / 99%

三档方案，对应三种场景。

**
**

有口播稿（99%） ：识别只是为了拿时间戳，字幕文本直接用你的口播稿。只要口播和稿子差别不大，专名基本不会错。

有错词字典（95%） ：火山引擎识别 + AI 结合上下文纠错——这篇一直在讲 Claude Code，「克劳德扣的」大概率就是 Claude Code。不是靠词典硬匹配，是读上下文。

两样都没（约 80%） ：能跑，但专名要手工过一遍。

什么时候会掉到 80% 以下？ 多人对话、带 BGM 背景音、方言或中英混播——这些场景识别本身就难，再好的纠错也救不回来。这类视频我一般还是手工过一遍。

真正变化的不是技术，是门槛

字幕这事折腾了好几版：

1.剪映自带 → 专名不准

2.老版 Agent → 准了，但要 AI 编程基础才能跑

3.这一版 → 不用懂技术，一个指令跑完直接进剪映

对口播作者来说，字幕从来不是创作，是返工。

这次升级解决的不是「字幕能不能生成」，而是「非技术用户能不能直接拿来剪」。

如果你每周都在做口播，第一次配置花 10 分钟，后面每条视频都能少掉 20 分钟的低价值返工。把口播稿一起给它——剪字幕这件事，就该退出你的手工流程了。

剪辑 Agent 字幕升级：99% 正确率的字幕，一条指令直接推进剪映