从创意到落地，SOLO 如何让短剧制作更高效本文会围绕 “如何用 SOLO MTC 协助制作 AI 短剧” 这个主题，为

本文作者：茉卷，TRAE 开发者用户

一个人 + 一个 Agent，就能独立产出一部短剧吗？回答是：当然可以。

先来一段成品展示：

前言

AI 短剧，正在成为内容行业增长最快的赛道之一。

过去做一部短剧，你需要一整支团队：编剧、概念设计、分镜师、原画师、剪辑师——人、时间、预算，三样缺一不可。

但在AI工具迅速发展的今天，一个有想法的创作者，配合合适的 AI 工具，就能 独自完成从创意到成片的全流程。

本文要讲的，就是这件事。

本文会围绕 “如何用 SOLO MTC 协助制作 AI 短剧” 这个主题，从当下 AI 短剧创作的 5个真实痛点切入，为大家分享如何使用 SOLO MTC 模式统一调度 Seedream、Seedance 等模型与技能。

最后走完一次完整的步骤，为大家直接演示工作流。

短剧创作者面临的“痛点”

一个爆款梗、几段对白、三五个镜头就能成片。

但真正消耗创作者心力的，从来不是“想故事”本身，而是——

把故事变成可执行资产的漫长过程。

脑子里的想法 → 变成能直接开拍、能落地、能成片的完整物料。

以现在抖音上很火的 AI 短剧《雪山救狐狸》为例，它背后藏着 5 个让人头大的卡点。

痛点 1：创意 → 执行的鸿沟

你脑子里有一个完美的画面：

雪山上，一个身穿黑衣的女侠从雪地里站起来，披风被风吹动。

但要把这个画面变成一张真正可用的图，你需要反复描述服装细节、指定光影方向、选择画风、调整构图比例……

你可能会反复尝试 Seedream、Gemini 等生图模型 ...

痛点 2：角色一致性困难

好不容易得到一张满意的女主设定图。

但切到下一个镜头，同一个角色可能完全变了样。

短剧最怕“越看越不像同一个人”。

痛点 3：分镜描述的专业门槛

中景、特写、逆光三分构图……

这些专业术语，创作者可能知道想要什么效果，但不一定知道怎么精确翻译成 AI 能听懂的提示词。

痛点 4：工具碎片化

典型流程长这样：

大模型写文案 → Gemini / Midjourney / Seedream 出图 → Vidu / Kling / Seedance 出视频。

每换一个工具，就要重新描述一次上下文，重新对齐一次格式。

这些往往成为了短剧生成的效率杀手。

痛点 5：几乎没有版本管理

提示词存在聊天记录里
图片散落在下载文件夹
剧本躺在 DeepSeek App 里

回过头想找“上次那个版本的女主提示词”，就可能找不到了。包括剧本、主体、分镜、视频之类的都可能全部没有版本线。

SOLO 的作用

你可以把 SOLO 是一个能把所有模型串起来的总导演 Agent。我们本次主要使用 SOLO 内的 MTC 模式。

SOLO 在 AI 短剧的制作过程中可以帮我们做以下事情：

谋 —— 读懂你的一句话需求，自动拆解并生成从「题材 → 设定 → 剧本 → 分镜 → 关键帧 → 视频」的完整工作流，每一步要调哪个 Skill、产出什么文件，都由它规划好
读 —— 自动读取你放在项目目录里的参考素材
写 —— 编写并执行脚本代码（比如 Python ）
调 —— 调用外部 Skill API，完成生图、生视频、图片分析
管 —— 保存并管理所有产出文件，天然带版本线（可以用 /git-commit 提交）

换句话说，创作者可以回归 “制片人” 的位置——做判断、做取舍，而不是做重复劳动。

善用生图 / 生视频 Skill 技能

为什么需要 Skill？

先回答一个更底层的问题：AI 自己不会画图、不会生视频——它是"导演"，不是"摄影师"。

AI 工具的本职工作是 理解意图、拆解任务、编排流程、管理文件。 而真正负责"把画面造出来"的，是 Gemini、NanoBanana Pro、Seedream、Seedance、Kling、Vidu 这些外部模型。

那么问题来了：

这些模型都住在各自的 API 背后，参数格式、鉴权方式、返回结构各不相同：

Gemini 走 Google 的接口
NanoBanana Pro 走自己的 OpenAPI
Seedream / Seedance 又是另一套参数

AI 不会天生就认识它们。 这时候 Skill 就是那个"翻译官"：

Skill 把一个外部模型的能力，包装成 AI 能看懂的标准化工具调用——有明确的输入参数、输出格式、使用说明。AI 只需要"知道有这样一个 Skill"，不用关心底层调的是 Gemini 还是 NanoBanana Pro。

有了 Skill，AI 才能把 Gemini、NanoBanana Pro、Seedream、Seedance 这些模型编织成一条产线。

你可以选择2个方式配置生图/视频的技能。

方式一：（开箱即用，零代码，需要配置API KEY）

直接用 SOLO 独立端内置的生图 / 生视频技能，比如 byted-seedream（生图）、byted-seedance（生视频），配置后即可调用。

方式二：（更灵活，适合深度玩家）

用上面提到的模型，封装成技能让MTC使用。比如我将 LibTV 官方 Skill 包（github.com/libtv-labs/… LibLib.tv 的生图 / 生视频能力。

本文我选择的是方式二，为了检测生图质量，我还引入了图片识别模型（非必须）。

MTC 可以调用的典型 Skill 类型如下：

这边给大家介绍2个Skill ，让大家对 MTC 能用的技能有个印象～

Skill 01：图片分析（素材萃取）

用多模态模型“”反推“”一张图的提示词，把模糊的视觉印象精确翻译成 JSON 结构化描述。

左：你丢进去的照片　→　右：解析后生成的人物设定图

截屏2026-04-22 17.30.32.png

Skill 02：多视图（角色一致性）

给定一张角色主图，生成多角度、多姿态的视图集合。
后续所有镜头都以这套视图为锚。

实际操作

传统工作流 VS SOLO MTC 模式工作流

说明：目前角色设定图、关键帧生成、视频生成仍是整条链路中重要的环节，需要人工筛选。

我们根据短剧制作的阶段对比了传统方式和使用 SOLO MTC 模式之前的区别。

步骤讲解

步骤 1：和 AI 一起明确需求

首先，我们应该准备一个技能说明文档，该文档中详细说明了有哪些生图工具（文生图、图生图）和生视频工具（文生视频、图生视频）。

其次，我们让SOLO 生成一个视频制作工作流文档，目的是生成一个短视频制作的上下文，让SOLO知道

我们目前做了什么，没做什么，下一步该做什么。

SOLO 会产出一个工作流文档，后续它会按照这个流程来处理。

然后我们说出想法（此时项目中应该有 工作流文档 和 技能文档）

我想构思一部短剧：一名文武双全、精通古今历史的顶尖杀手，意外穿越到三国乱世，成为诸葛亮身边的贴身保镖，凭借现代格斗技巧与超前历史视野，在乱世中为军师保驾护航、屡破危局。

AI 会提出几个问题，帮助你澄清需求。

步骤 2：产出剧本

SOLO 会帮助我们生成一份剧本.md。

完成这一步后，我们会获得「技能文档」、「工作流文档」、「剧本」这三个关键文档。

步骤 3：生成主体设定

让 SOLO 生成角色设定提示词，我们审核通过后，让 SOLO 调用技能生图。

我们自己可以输入角色要求，然后让 SOLO 根据【剧本】，再参考【技能文档】中的方法，利用文生图生成人物设定图。

人物角色的多视图，可以通过下面的提示词来生成。

请生成 {角色名} 的角色多视图拼图（单张图，16:9 横向）。
版式要求：左侧 1/3 为一张角色大脸特写；右侧 2/3 依次为角色正面全身图、左侧面全身图、背面全身图。
左侧头像要求：正面视角，脸部占比大，必须包含完整头部轮廓，头发不得裁切出画框，清晰展示五官、发型与妆容细节。
右侧三视图要求：三个视角都必须从头到脚完整展示，包含完整发型、双手、双脚和鞋子，不得裁切肢体。
一致性要求：四个视图必须是同一角色、同一身份、同一服饰、同一发型、同一配色、同一画风。
严格参考输入参考图，不得改变角色身份。背景必须为纯白背景。

截屏2026-04-22 17.34.19.png