一句话生成短视频:当 AI Skills 真正打通"创作流水线"

23 阅读6分钟

一句话生成短视频:当 AI Skills 真正打通"创作流水线"

从一个真实的"5 分钟詹姆斯暴扣集锦"案例出发,拆解 AI Skills 是如何把内容创作从"专业流水线"压缩成"一句提示词"的。文末附原理剖析与可复用工程范式。


一、先看疗效:从"提示词"到"成片",全程零操作

准备两个 Skill:

Skill职责安装命令
yt-dlp资源下载(YouTube / B 站 / X / TikTok 等几乎全平台,增加/删除渠道可以直接在skill改动)npx skills add https://github.com/lwmxiaobei/yt-dlp-skill --skill yt-dlp
remotion-best-practices用 React 代码生成 / 剪辑视频npx skills add https://github.com/remotion-dev/skills --skill remotion-best-practices

Skill 主页:

然后,丢给 AI 一句话:

"使用 yt-dlp 下载一些勒布朗詹姆斯的暴扣片段,并使用 remotion-best-practices 剪辑成一个高燃的短视频,5 分钟左右。"

接下来发生的事情,几乎不需要我介入:

  1. 检索 + 下载yt-dlp 跑去全网拉取詹姆斯的暴扣集锦原片;
  2. 智能截取:AI 解析视频时长 / 关键帧,挑出最燃的扣篮镜头;
  3. 拼接 + 转场 + 配文字remotion-best-practices 自动写好 React 组件,加上文字标题、视觉特效、运镜节奏;
  4. 一键预览npm run dev 弹出本地预览界面,所见即所得,可继续在线编辑;
  5. 追加字幕:再说一句"加上中文字幕",AI 复用同一 Skill,把字幕组件嵌到时间轴里。

整个过程:没有打开过任何剪辑软件,没有手动拖过一帧时间线。


二、技术原理:Skills 到底干了什么?

很多读者会把 Skills 误当成"提示词模板"。其实它的本质更深一层——它是给 AI 用的"NPM 包"

2.1 Skill 的目录结构

一个标准 Skill 大致长这样:

my-skill/
├── SKILL.md              # 描述:这个 Skill 是什么、什么时候用
├── reference.md          # 详细技术参考文档(可选)
├── scripts/              # 可被 AI 调用的脚本
│   ├── download.sh
│   └── compose.ts
└── templates/            # 模板代码 / 配置
    └── Composition.tsx

其中 SKILL.md 的关键字段是 description:AI 会基于这段描述自动判断"该不该调用我"。例如 yt-dlp Skill 的 description 大致是:

"Download videos and extract audio from various platforms using yt-dlp. Use when user provides a video URL, asks to download a video, or when conversation contains video links from YouTube, Twitter/X, Vimeo, TikTok, Instagram, etc."

这意味着——只要用户的提示词触发了语义匹配,AI 就会自动加载 Skill 的完整指令集。

2.2 端到端的执行链路

回到我们的詹姆斯案例,AI 内部其实做了这些事:

用户提示词
     │
     ▼
┌──────────────────────────────────────┐
│ 1. Skill 路由:匹配到 yt-dlp + remotion │
└──────────────────────────────────────┘
     │
     ▼
┌──────────────────────────────────────┐
│ 2. 调用 yt-dlp Skill:               │
│    - 搜索关键词 "LeBron James dunks"   │
│    - 拉取 YouTube/B 站 N 条原视频     │
│    - 用 ffprobe 解析时长、分辨率       │
└──────────────────────────────────────┘
     │
     ▼
┌──────────────────────────────────────┐
│ 3. 智能裁剪:                          │
│    - ffmpeg 按时间段切片               │
│    - 选出动作最密集的片段(场景变化检测)  │
└──────────────────────────────────────┘
     │
     ▼
┌──────────────────────────────────────┐
│ 4. 调用 remotion-best-practices:      │
│    - 生成 Composition.tsx(每段一个 Sequence)│
│    - 注入转场(Spring/Tween)           │
│    - 注入字幕、配乐、Logo 水印           │
└──────────────────────────────────────┘
     │
     ▼
┌──────────────────────────────────────┐
│ 5. npm run dev → 预览                 │
│    npx remotion render → 输出 mp4     │
└──────────────────────────────────────┘

2.3 为什么 Remotion 是"AI 友好"的剪辑引擎?

传统剪辑软件(Premiere / FCPX)是 GUI-first 的,AI 根本"看不懂"时间线面板。而 Remotion 把视频变成了 React 代码

import {Sequence, Video, AbsoluteFill, useCurrentFrame, spring} from 'remotion';

export const DunkComposition: React.FC<{clips: Clip[]}> = ({clips}) => {
  const frame = useCurrentFrame();

  return (
    <AbsoluteFill style={{backgroundColor: 'black'}}>
      {clips.map((clip, i) => (
        <Sequence key={i} from={clip.startFrame} durationInFrames={clip.duration}>
          <Video src={clip.url} startFrom={clip.trimStart} />
          <TitleOverlay
            text={clip.title}
            opacity={spring({frame: frame - clip.startFrame, fps: 30})}
          />
        </Sequence>
      ))}
    </AbsoluteFill>
  );
};

每一个剪辑动作 = 一段 JSX。 每一个特效 = 一个 React Hook。

对 AI 来说,这就是它最熟悉的"写代码"任务——它当然能写得又快又好。


三、追加一句,字幕也能自动生成

视频剪完,再追加一句:

"继续使用 remotion-best-practices 给视频加上中文字幕。"

AI 会做这些事:

  1. 调用 whisper(本地或 API)把视频音轨转成 SRT 时间轴;
  2. 把 SRT 解析成 {start, end, text} 数组;
  3. 在 Remotion 的 Composition 里插入 <Subtitle /> 组件:
{subtitles.map((sub) => (
  <Sequence
    key={sub.start}
    from={sub.start * fps}
    durationInFrames={(sub.end - sub.start) * fps}
  >
    <AbsoluteFill style={{justifyContent: 'flex-end', paddingBottom: 80}}>
      <p style={subtitleStyle}>{sub.text}</p>
    </AbsoluteFill>
  </Sequence>
))}

字体、描边、出场动画都符合短视频审美。全程仍然是一句话。


四、Skills 的真正想象空间:可组合的"AI 工种"

yt-dlp 负责"采集",remotion-best-practices 负责"生产",两个 Skill 组合,就是一条自媒体流水线

把这个思路推广出去:

角色Skill 组合产出
数据分析师tavily-search + xlsx + pptx数据 → 报表 → 汇报稿
UI 设计师figma-implement-design + frontend-design + webapp-testing设计稿 → 代码 → 自测
独立开发者yt-dlp + remotion-best-practices + pdf抓素材 → 出宣传片 → 出招商方案
跨境电商tavily-search + canvas-design + xlsx选品调研 → 海报 → SKU 表

每一个 Skill 都是一个"数字员工"。当你拥有的 Skill 越多,你这个"一人公司"的产能就越接近一个完整团队。


五、工程视角:Skills 解决了什么?

作为开发者,我更想强调 Skills 在工程范式上的突破:

5.1 它把"专业经验"沉淀成了可分发的资产

过去:经验留在工程师的脑子里。 现在:经验写进 SKILL.mdnpx skills add 一行就装到任意 AI 客户端里。

这就是为什么我看好 Skills:它是 AI 时代的 NPM

5.2 它解决了"提示词太长 / 容易飘"的问题

过去你为了让 AI 剪一个视频,得在系统提示词里塞上千行说明。 现在 Skill 按需加载,AI 只在"匹配语义"时才把它读进上下文,节省 token、避免污染。

5.3 它让"工作流"具备了组合性

Skill A 的输出可以是 Skill B 的输入。例如:

yt-dlp.download(url) → mp4 文件
                        │
                        ▼
remotion-best-practices.compose([mp4...]) → 成片
                        │
                        ▼
whisper.transcribe(成片) → SRT
                        │
                        ▼
remotion-best-practices.addSubtitles(成片, SRT) → 最终成片

这是一种面向 AI 的 Unix Pipeline——小而专的工具,组合出无穷场景。


六、写在最后:技术平权,正在发生

我把这件事,称为个人内容生产的工业革命。 工业革命之前,做一件衣服需要绣娘从早绣到晚;工业革命之后,缝纫机让一个普通人就能开服装店。AI Skills 之于内容创作,就是这台"缝纫机":

它让一个有想法、但没团队、没预算、没技术的普通人, 在按下回车的那一刻,瞬间拥有了一个顶级制作团队。

剪辑、配音、字幕、特效、运镜——这些过去意味着学费、设备和时间的东西,被一行 npx skills add 抹平了。

剩下的,只有一个问题留给你:你的好点子,准备好了吗?


附录:本文用到的 Skill / 资源

如果你觉得有用,欢迎点赞 / 收藏 / 关注,下一篇会拆解"如何自己写一个 Skill 并发布"。