一句话生成短视频:当 AI Skills 真正打通"创作流水线"
从一个真实的"5 分钟詹姆斯暴扣集锦"案例出发,拆解 AI Skills 是如何把内容创作从"专业流水线"压缩成"一句提示词"的。文末附原理剖析与可复用工程范式。
一、先看疗效:从"提示词"到"成片",全程零操作
准备两个 Skill:
| Skill | 职责 | 安装命令 |
|---|---|---|
yt-dlp | 资源下载(YouTube / B 站 / X / TikTok 等几乎全平台,增加/删除渠道可以直接在skill改动) | npx skills add https://github.com/lwmxiaobei/yt-dlp-skill --skill yt-dlp |
remotion-best-practices | 用 React 代码生成 / 剪辑视频 | npx skills add https://github.com/remotion-dev/skills --skill remotion-best-practices |
Skill 主页:
然后,丢给 AI 一句话:
"使用 yt-dlp 下载一些勒布朗詹姆斯的暴扣片段,并使用 remotion-best-practices 剪辑成一个高燃的短视频,5 分钟左右。"
接下来发生的事情,几乎不需要我介入:
- 检索 + 下载:
yt-dlp跑去全网拉取詹姆斯的暴扣集锦原片; - 智能截取:AI 解析视频时长 / 关键帧,挑出最燃的扣篮镜头;
- 拼接 + 转场 + 配文字:
remotion-best-practices自动写好 React 组件,加上文字标题、视觉特效、运镜节奏; - 一键预览:
npm run dev弹出本地预览界面,所见即所得,可继续在线编辑; - 追加字幕:再说一句"加上中文字幕",AI 复用同一 Skill,把字幕组件嵌到时间轴里。
整个过程:没有打开过任何剪辑软件,没有手动拖过一帧时间线。
二、技术原理:Skills 到底干了什么?
很多读者会把 Skills 误当成"提示词模板"。其实它的本质更深一层——它是给 AI 用的"NPM 包"。
2.1 Skill 的目录结构
一个标准 Skill 大致长这样:
my-skill/
├── SKILL.md # 描述:这个 Skill 是什么、什么时候用
├── reference.md # 详细技术参考文档(可选)
├── scripts/ # 可被 AI 调用的脚本
│ ├── download.sh
│ └── compose.ts
└── templates/ # 模板代码 / 配置
└── Composition.tsx
其中 SKILL.md 的关键字段是 description:AI 会基于这段描述自动判断"该不该调用我"。例如 yt-dlp Skill 的 description 大致是:
"Download videos and extract audio from various platforms using yt-dlp. Use when user provides a video URL, asks to download a video, or when conversation contains video links from YouTube, Twitter/X, Vimeo, TikTok, Instagram, etc."
这意味着——只要用户的提示词触发了语义匹配,AI 就会自动加载 Skill 的完整指令集。
2.2 端到端的执行链路
回到我们的詹姆斯案例,AI 内部其实做了这些事:
用户提示词
│
▼
┌──────────────────────────────────────┐
│ 1. Skill 路由:匹配到 yt-dlp + remotion │
└──────────────────────────────────────┘
│
▼
┌──────────────────────────────────────┐
│ 2. 调用 yt-dlp Skill: │
│ - 搜索关键词 "LeBron James dunks" │
│ - 拉取 YouTube/B 站 N 条原视频 │
│ - 用 ffprobe 解析时长、分辨率 │
└──────────────────────────────────────┘
│
▼
┌──────────────────────────────────────┐
│ 3. 智能裁剪: │
│ - ffmpeg 按时间段切片 │
│ - 选出动作最密集的片段(场景变化检测) │
└──────────────────────────────────────┘
│
▼
┌──────────────────────────────────────┐
│ 4. 调用 remotion-best-practices: │
│ - 生成 Composition.tsx(每段一个 Sequence)│
│ - 注入转场(Spring/Tween) │
│ - 注入字幕、配乐、Logo 水印 │
└──────────────────────────────────────┘
│
▼
┌──────────────────────────────────────┐
│ 5. npm run dev → 预览 │
│ npx remotion render → 输出 mp4 │
└──────────────────────────────────────┘
2.3 为什么 Remotion 是"AI 友好"的剪辑引擎?
传统剪辑软件(Premiere / FCPX)是 GUI-first 的,AI 根本"看不懂"时间线面板。而 Remotion 把视频变成了 React 代码:
import {Sequence, Video, AbsoluteFill, useCurrentFrame, spring} from 'remotion';
export const DunkComposition: React.FC<{clips: Clip[]}> = ({clips}) => {
const frame = useCurrentFrame();
return (
<AbsoluteFill style={{backgroundColor: 'black'}}>
{clips.map((clip, i) => (
<Sequence key={i} from={clip.startFrame} durationInFrames={clip.duration}>
<Video src={clip.url} startFrom={clip.trimStart} />
<TitleOverlay
text={clip.title}
opacity={spring({frame: frame - clip.startFrame, fps: 30})}
/>
</Sequence>
))}
</AbsoluteFill>
);
};
每一个剪辑动作 = 一段 JSX。 每一个特效 = 一个 React Hook。
对 AI 来说,这就是它最熟悉的"写代码"任务——它当然能写得又快又好。
三、追加一句,字幕也能自动生成
视频剪完,再追加一句:
"继续使用 remotion-best-practices 给视频加上中文字幕。"
AI 会做这些事:
- 调用
whisper(本地或 API)把视频音轨转成 SRT 时间轴; - 把 SRT 解析成
{start, end, text}数组; - 在 Remotion 的 Composition 里插入
<Subtitle />组件:
{subtitles.map((sub) => (
<Sequence
key={sub.start}
from={sub.start * fps}
durationInFrames={(sub.end - sub.start) * fps}
>
<AbsoluteFill style={{justifyContent: 'flex-end', paddingBottom: 80}}>
<p style={subtitleStyle}>{sub.text}</p>
</AbsoluteFill>
</Sequence>
))}
字体、描边、出场动画都符合短视频审美。全程仍然是一句话。
四、Skills 的真正想象空间:可组合的"AI 工种"
yt-dlp 负责"采集",remotion-best-practices 负责"生产",两个 Skill 组合,就是一条自媒体流水线。
把这个思路推广出去:
| 角色 | Skill 组合 | 产出 |
|---|---|---|
| 数据分析师 | tavily-search + xlsx + pptx | 数据 → 报表 → 汇报稿 |
| UI 设计师 | figma-implement-design + frontend-design + webapp-testing | 设计稿 → 代码 → 自测 |
| 独立开发者 | yt-dlp + remotion-best-practices + pdf | 抓素材 → 出宣传片 → 出招商方案 |
| 跨境电商 | tavily-search + canvas-design + xlsx | 选品调研 → 海报 → SKU 表 |
每一个 Skill 都是一个"数字员工"。当你拥有的 Skill 越多,你这个"一人公司"的产能就越接近一个完整团队。
五、工程视角:Skills 解决了什么?
作为开发者,我更想强调 Skills 在工程范式上的突破:
5.1 它把"专业经验"沉淀成了可分发的资产
过去:经验留在工程师的脑子里。
现在:经验写进 SKILL.md,npx skills add 一行就装到任意 AI 客户端里。
这就是为什么我看好 Skills:它是 AI 时代的 NPM。
5.2 它解决了"提示词太长 / 容易飘"的问题
过去你为了让 AI 剪一个视频,得在系统提示词里塞上千行说明。 现在 Skill 按需加载,AI 只在"匹配语义"时才把它读进上下文,节省 token、避免污染。
5.3 它让"工作流"具备了组合性
Skill A 的输出可以是 Skill B 的输入。例如:
yt-dlp.download(url) → mp4 文件
│
▼
remotion-best-practices.compose([mp4...]) → 成片
│
▼
whisper.transcribe(成片) → SRT
│
▼
remotion-best-practices.addSubtitles(成片, SRT) → 最终成片
这是一种面向 AI 的 Unix Pipeline——小而专的工具,组合出无穷场景。
六、写在最后:技术平权,正在发生
我把这件事,称为个人内容生产的工业革命。 工业革命之前,做一件衣服需要绣娘从早绣到晚;工业革命之后,缝纫机让一个普通人就能开服装店。AI Skills 之于内容创作,就是这台"缝纫机":
它让一个有想法、但没团队、没预算、没技术的普通人, 在按下回车的那一刻,瞬间拥有了一个顶级制作团队。
剪辑、配音、字幕、特效、运镜——这些过去意味着学费、设备和时间的东西,被一行 npx skills add 抹平了。
剩下的,只有一个问题留给你:你的好点子,准备好了吗?
附录:本文用到的 Skill / 资源
- yt-dlp Skill:skills.sh/lwmxiaobei/…
- remotion-best-practices Skill:skills.sh/remotion-de…
- Remotion 官网:www.remotion.dev/
- Skills 协议规范:skills.sh/docs
- 灵感来源:juejin.cn/post/759869…
如果你觉得有用,欢迎点赞 / 收藏 / 关注,下一篇会拆解"如何自己写一个 Skill 并发布"。