从创意到落地,SOLO 如何让短剧制作更高效

0 阅读10分钟

本文作者:茉卷,TRAE 开发者用户

一个人 + 一个 Agent,就能独立产出一部短剧吗?回答是:当然可以。

先来一段成品展示:

前言

AI 短剧,正在成为内容行业增长最快的赛道之一。

过去做一部短剧,你需要一整支团队:编剧、概念设计、分镜师、原画师、剪辑师——人、时间、预算,三样缺一不可。

但在AI工具迅速发展的今天,一个有想法的创作者,配合合适的 AI 工具,就能 独自完成从创意到成片的全流程。

本文要讲的,就是这件事。

本文会围绕 “如何用 SOLO MTC 协助制作 AI 短剧” 这个主题,从当下 AI 短剧创作的 5个真实痛点切入,为大家分享如何使用 SOLO MTC 模式统一调度 Seedream、Seedance 等模型与技能。

最后走完一次完整的步骤,为大家直接演示工作流。

短剧创作者面临的“痛点”

一个爆款梗、几段对白、三五个镜头就能成片。

但真正消耗创作者心力的,从来不是“想故事”本身,而是——

把故事变成可执行资产的漫长过程。

脑子里的想法 → 变成能直接开拍、能落地、能成片的完整物料。

以现在抖音上很火的 AI 短剧《雪山救狐狸》为例,它背后藏着 5 个让人头大的卡点。

痛点 1:创意 → 执行的鸿沟

你脑子里有一个完美的画面:

雪山上,一个身穿黑衣的女侠从雪地里站起来,披风被风吹动。

但要把这个画面变成一张真正可用的图,你需要反复描述服装细节、指定光影方向、选择画风、调整构图比例……

你可能会反复尝试 Seedream、Gemini 等生图模型 ...

痛点 2:角色一致性困难

好不容易得到一张满意的女主设定图。

但切到下一个镜头,同一个角色可能完全变了样。

短剧最怕“越看越不像同一个人”。

痛点 3:分镜描述的专业门槛

中景、特写、逆光三分构图……

这些专业术语,创作者可能知道想要什么效果,但不一定知道怎么精确翻译成 AI 能听懂的提示词。

痛点 4:工具碎片化

典型流程长这样:

大模型写文案 → Gemini / Midjourney / Seedream 出图 → Vidu / Kling / Seedance 出视频。

每换一个工具,就要重新描述一次上下文,重新对齐一次格式。

这些往往成为了短剧生成的效率杀手。

痛点 5:几乎没有版本管理

  • 提示词存在聊天记录里

  • 图片散落在下载文件夹

  • 剧本躺在 DeepSeek App 里

回过头想找“上次那个版本的女主提示词”,就可能找不到了。包括剧本、主体、分镜、视频之类的都可能全部没有版本线。

SOLO 的作用

你可以把 SOLO 是一个能把所有模型串起来的总导演 Agent。我们本次主要使用 SOLO 内的 MTC 模式。

SOLO 在 AI 短剧的制作过程中可以帮我们做以下事情:

  1. —— 读懂你的一句话需求,自动拆解并生成从「题材 → 设定 → 剧本 → 分镜 → 关键帧 → 视频」的完整工作流,每一步要调哪个 Skill、产出什么文件,都由它规划好

  2. —— 自动读取你放在项目目录里的参考素材

  3. —— 编写并执行脚本代码(比如 Python )

  4. —— 调用外部 Skill API,完成生图、生视频、图片分析

  5. —— 保存并管理所有产出文件,天然带版本线(可以用 /git-commit 提交)

换句话说,创作者可以回归 “制片人” 的位置——做判断、做取舍,而不是做重复劳动。

善用生图 / 生视频 Skill 技能

为什么需要 Skill?

先回答一个更底层的问题:AI 自己不会画图、不会生视频——它是"导演",不是"摄影师"。

AI 工具的本职工作是 理解意图、拆解任务、编排流程、管理文件。 而真正负责"把画面造出来"的,是 Gemini、NanoBanana Pro、Seedream、Seedance、Kling、Vidu 这些外部模型。

那么问题来了:

这些模型都住在各自的 API 背后,参数格式、鉴权方式、返回结构各不相同:

  • Gemini 走 Google 的 接口

  • NanoBanana Pro 走自己的 OpenAPI

  • Seedream / Seedance 又是另一套参数

AI 不会天生就认识它们。 这时候 Skill 就是那个"翻译官":

Skill 把一个外部模型的能力,包装成 AI 能看懂的标准化工具调用——有明确的输入参数、输出格式、使用说明。AI 只需要"知道有这样一个 Skill",不用关心底层调的是 Gemini 还是 NanoBanana Pro。

有了 Skill,AI 才能把 Gemini、NanoBanana Pro、Seedream、Seedance 这些模型编织成一条产线。

你可以选择2个方式配置生图/视频的技能。

方式一:(开箱即用,零代码,需要配置API KEY)

  • 直接用 SOLO 独立端 内置的生图 / 生视频技能,比如 byted-seedream(生图)、byted-seedance(生视频),配置后即可调用。

方式二:(更灵活,适合深度玩家)

  • 用上面提到的模型,封装成技能让MTC使用。 比如我将 LibTV 官方 Skill 包  (github.com/libtv-labs/… LibLib.tv 的生图 / 生视频能力。

本文我选择的是方式二, 为了检测生图质量,我还引入了图片识别模型(非必须)。

MTC 可以调用的典型 Skill 类型如下:

这边给大家介绍2个Skill ,让大家对 MTC 能用的技能有个印象~

Skill 01:图片分析(素材萃取)

用多模态模型“”反推“”一张图的提示词,把模糊的视觉印象精确翻译成 JSON 结构化描述。

左:你丢进去的照片 → 右:解析后生成的人物设定图

截屏2026-04-22 17.30.32.png

Skill 02:多视图(角色一致性)

  • 给定一张角色主图,生成多角度、多姿态的视图集合。

  • 后续所有镜头都以这套视图为锚。

实际操作

传统工作流 VS SOLO MTC 模式工作流

说明:目前角色设定图、关键帧生成、视频生成仍是整条链路中重要的环节,需要人工筛选。

我们根据短剧制作的阶段对比了传统方式和使用 SOLO MTC 模式之前的区别。

步骤讲解

步骤 1:和 AI 一起明确需求

首先,我们应该准备一个技能说明文档,该文档中详细说明了有哪些生图工具(文生图、图生图)和生视频工具(文生视频、图生视频)。

其次,我们让SOLO 生成一个视频制作工作流文档,目的是生成一个短视频制作的上下文,让SOLO知道

我们目前做了什么,没做什么,下一步该做什么。

SOLO 会产出一个工作流文档,后续它会按照这个流程来处理。

然后我们说出想法(此时项目中应该有 工作流文档 和 技能文档

我想构思一部短剧:一名文武双全、精通古今历史的顶尖杀手,意外穿越到三国乱世,成为诸葛亮身边的贴身保镖,凭借现代格斗技巧与超前历史视野,在乱世中为军师保驾护航、屡破危局。

AI 会提出几个问题,帮助你澄清需求。

步骤 2:产出剧本

SOLO 会帮助我们生成一份剧本.md。

完成这一步后,我们会获得「技能文档」、「工作流文档」、「剧本」 这三个关键文档。

步骤 3:生成主体设定

让 SOLO 生成角色设定提示词,我们审核通过后,让 SOLO 调用技能生图。

我们自己可以输入角色要求,然后让 SOLO 根据 【剧本】, 再参考【技能文档】中的方法,利用文生图生成人物设定图。

人物角色的多视图,可以通过下面的提示词来生成。

请生成 {角色名} 的角色多视图拼图(单张图,16:9 横向)。
版式要求:左侧 1/3 为一张角色大脸特写;右侧 2/3 依次为角色正面全身图、左侧面全身图、背面全身图。
左侧头像要求:正面视角,脸部占比大,必须包含完整头部轮廓,头发不得裁切出画框,清晰展示五官、发型与妆容细节。
右侧三视图要求:三个视角都必须从头到脚完整展示,包含完整发型、双手、双脚和鞋子,不得裁切肢体。
一致性要求:四个视图必须是同一角色、同一身份、同一服饰、同一发型、同一配色、同一画风。
严格参考输入参考图,不得改变角色身份。背景必须为纯白背景。

截屏2026-04-22 17.34.19.png

大家也可以利用其他工具来生图,我们可以让SOLO给出 人物角色的文生图提示词,然后拷贝到豆包、Gemini  等工具来生成角色多视图。

步骤 4:制作分镜文案

使用适当的提示词,让 SOLO 生成分镜文案。

分镜 = 把文字剧本,拆成一帧一帧的画面镜头脚本。

步骤 5:分镜图(关键帧)设计

我们让 SOLO 生成分镜设定。

分镜是镜头叙事规划: 拆解剧本,定义全片每一段的镜头角度、节奏、画面内容与转场逻辑。关键帧是镜头核心定格画面: 依循分镜要求生成的固定原画,锁定人物形象、场景氛围与剧情节点,是后续 AI 视频动效生成的基础锚点。通常需要采用参考图来生成图片,比如人物多视图 + 场景图片 来生成。

我们让 SOLO 根据关键帧的描述,利用之前生成的角色设定,采用图生图的来生成关键帧。

截屏2026-04-22 17.34.51.png

步骤 6:视频生成、合成

关键帧就是视频里固定的核心原画骨架,关键帧生视频就是 AI 基于这些定格画面,自动生成中间的动作、运镜与动态过程,把静态画面变成流畅动画。全程以关键帧为基准,最大程度保证人物长相、场景风格全程统一。

有了上面的关键帧,我们再让 SOLO 根据 KF01 这种关键帧描述,通过参考图生视频的方式,结合关键帧、角色多视频,生成视频。比如我们之前生成的关键帧。

大家也可以使用SOLO生成额图片和提示词,到其他生视频平台来制作视频,比如 Kling、Vidu、海螺等平台。

MacBook 上的 FFmpeg 作为开源音视频工具,可通过命令行快速实现多段视频无损拼接、转码与成片合成,本地处理灵活无依赖。SOLO可以直接使用这个工具来合成视频。如果还有剪辑需求,我们就需要使用剪映这种专业的工具了。

当我们把多个视频合成之后,就有了下面的效果(由几个关键帧生成)

写在最后

当“出图、对齐、调参、改稿、归档”这些事情被 Agent 接管,创作者终于可以回到最该做的 事上:

  • 想一个让人停下滑动的好故事

  • 做有人味的审美判断

  • 定义风格,而不是描述风格

让 SOLO 为你的 AI 短剧创作助力。