Story Claw 实测:把某茄小说《规则怪谈》扔进去,出来了一套专业级分镜
一个做短剧的朋友跟我说:"写分镜脚本不难,难的是让AI画出来的图前后能对得上。" 我深以为然——直到我试了 Story Claw。
一句话说清楚它是什么
Story Claw 是一个开源的 AI 管线工具。输入小说章节的 .txt 文件,它自动完成编剧改编 → 结构化拆解 → 角色/场景图生成 → 合成参考帧 → 分镜渲染的全流程,最终输出一整套带镜头语言的分镜图。
我随手从番茄小说上拉了《规则怪谈》的前两章(大约八千字的网文),执行了一次 /solo 全自动模式。以下是全程无人工干预的原始输出——没有手动修图、没有挑选重跑、没有 Photoshop。
运行截图
先看结果:8 场戏,24 张分镜
管线跑完后,\story-claw\workspace\规则怪谈\ep01\storyboard_panels 目录下生成了 24 张分镜图,覆盖 8 个场景。同时输出了完整的改编剧本(Markdown)、结构化场景数据(JSON)、以及每一拍的镜头设计文件(panels_*.json)。
下面我按场景顺序拆解。
场景一 · 大学正门(1 张) —— 建置镜头
开篇是一个标准的建置镜头(Establishing Shot) :
这张图的作用是交代地理空间——后续所有校园戏的空间逻辑都锚定在这个入口上。从制片角度看,这张图完全可以直接拿去做视频的第一帧:构图稳、信息量足、基调准。
场景二 · 穿过校门(4 张) —— 景别递进 + 道具插入
| 全景:人物入画 | 中近景:面部表情 | 特写:石碑红字 | 全景:背影入校 |
这组分镜展现了一个教科书级的景别递进序列:
- 全景(Full Shot) —— 魏俊熙拖着行李箱站在校门前,笑容灿烂,建立人物与空间的关系。
- 中近景(Medium Close-Up) —— 推进到面部,捕捉兴奋表情,斜挎包、白T恤的造型与角色设定表完全一致。
- 特写插入(Insert Shot) —— 突然切到石碑上的"没有规矩,不成方圆"红字微距特写。这是一个经典的道具特写插入手法——在角色情绪高点突然切到冰冷的警示文字,制造不协调感。
- 全景背影(Wide Shot, Back) —— 人物转身走入校门,纵深构图,铁门框住画面两侧。
场景一致性判定:四张图中的校门、石碑、旗杆、绿化带完全一致——同一铁门、同一石碑、同一广场地面。这不是巧合,是因为管线在 Stage C 阶段生成了统一的场景底图,所有分镜在此基础上合成,从源头上保证了空间连续性。
人物一致性判定:魏俊熙在 4 张图中保持了白色T恤 + 深蓝牛仔裤 + 黑色斜挎包 + 黑色行李箱的完整造型。发型、体型、肤色在全景和中近景之间过渡自然。
场景三 · 新生报到处(3 张) —— 正反打与视线匹配
| 中景:双人同框 | 近景:学姐展示手机 | 近景:魏俊熙扫码 |
这组是整套分镜中正反打(Shot / Reverse Shot) 运用最标准的一组。
第一张中景建立了180度轴线:魏俊熙在画面左侧、学姐在右侧,两人之间的报到台是轴线的锚点。随后:
- 第二张切到学姐的近景——她面朝画面左侧(朝向魏俊熙的方向),手持手机展示二维码;
- 第三张反打到魏俊熙——他面朝画面右侧(朝向学姐的方向),低头扫码。
轴线:两个单人镜头的视线方向严格对称,没有越轴,符合经典180度规则。如果在剪辑时按 1→2→3 的顺序直接切,观众不会产生空间混乱。
场景一致性:走廊的蓝色信息展板、红色"热烈欢迎2023级新同学"横幅、报到桌上的蓝色二维码立牌,在三张图中完全吻合——甚至墙上展板的内容排版都是一致的。这个细节非常惊人,说明合成帧阶段对场景底图的还原度极高。
人物一致性:学姐的红色志愿者造型稳定。魏俊熙保持核心视觉标识。
场景四 · 宿舍楼下(2 张) —— 对峙构图
| 全景:学长拦路 | 中景:学长伸手搭话 |
这场戏引入了第三个角色——骗子学长(灰色连帽卫衣)。
全景镜头中,学长张开双臂挡在路中央,魏俊熙被迫停步——两人之间的身体语言形成了一组"拦截-被拦截"的动态张力。第二张推进到中景,采用了过肩镜头(Over-the-Shoulder Shot) 的变体:学长占据画面主体,魏俊熙以侧背影出现在画面右侧边缘,形成"压迫-被压迫"的构图关系。宿舍楼的灰色外墙、楼梯扶手、快递站、自行车停放区均与场景底图吻合。
场景五 · 宿舍室内(4 张) —— 景别阶梯 + 道具叙事
| 全景:宿舍环境 | 中近景:低头看手机 | 特写:紧皱眉头 | 道具特写:倒计时 |
这组是情绪营造最出色的一组,采用了景别阶梯式推进(Progressive Push-In) :
- 全景 —— 典型的大学四人宿舍:上下铺铁架床、蓝色条纹被褥、书架、行李箱。魏俊熙独自坐在床边看手机,空旷的宿舍强化了孤独感。
- 中近景 —— 推进到桌前,手机屏幕的光打在脸上,眉头紧锁。注意背景的书架、台灯位置与全景完全对应。
- 面部特写(Extreme Close-Up) —— 只有脸,焦虑和困惑写满整张脸。浅景深把背景虚化成暖色光斑,观众的注意力被完全锁定在表情上。
- 道具特写 —— 俯拍视角,手机屏幕上赫然显示红色倒计时 167:59:40,下方是密密麻麻的校规文字。
这个"全景→中近→特写→道具"的四级递进,是短剧中最常用的悬念揭示(Reveal)结构。前三张不断压缩观众的视野,最后一张用道具揭晓"他在看什么"——倒计时数字像一记重锤落下。
场景六 · 校园小路(4 张) —— 傍晚光照 + 双人对峙
| 全景:小路相遇 | 近景:魏俊熙张望 | 近景:杨涵登场 | 双人中景:对峙 |
这是杨涵(深色衬衫 + 学生会徽章)首次正面登场的场景。
第一张全景中,傍晚的路灯亮起,石板路纵深延伸,两人一左一右出现在画面中——这是一个经典的对称式双人建置。随后的正反打非常克制:
- 魏俊熙的近景中,他面朝画外右侧,表情不安;
- 杨涵的近景中,他面朝画外左侧,表情冷峻。
- 最后一张双人中景收束,两人隔着路灯相对而立。
视线方向全程对称。路灯杆作为轴线锚点起到了很好的"画面中缝"作用。
场景七 · 学校食堂(5 张) —— 对话场景的完整Coverage
| 全景:食堂角落 | 中近景:魏俊熙 | 近景:焦虑追问 | 反打:杨涵低语 | 特写:震惊 |
这是全集的高潮场景——杨涵告诉魏俊熙"倒计时归零你就死了"。
从分镜覆盖率(Coverage)的角度看,这组提供了一场对话戏所需的全部素材:
- Master Shot(主镜头) :第一张全景,两人在食堂角落靠窗而坐,建立空间关系。窗外的绿植、木质桌椅、远处的打菜窗口——环境信息完整。
- 正打(A角) :第二、三张是魏俊熙的两个情绪层次——先是带着勉强笑容的试探,再是笑容褪去后的焦虑。
- 反打(B角) :第四张切到杨涵,他身体前倾、低声说话,背景的打菜窗口和"特色窗口""热菜""主食"标识清晰可见。
- 反应镜头(Reaction Shot) :第五张是魏俊熙听到真相后的特写——瞳孔微放大,笑容凝固在脸上,恐惧从眼神中渗出。
场景八 · 黑屏结尾(1 张) —— 字幕卡
纯黑底 + 白色文字:"剩余时间:165小时"。干净利落。这是短剧最常见的悬念钩子(Cliffhanger Card) 处理方式——在情绪最高点突然切黑,让观众带着不安等待下一集。
角色设定表:管线的"一致性密码"
在深入分析分镜之前,有必要看一下管线在 Stage C 自动生成的角色设定表(Character Reference Sheet):
| 魏俊熙 | 学姐 | 学长(骗子) | 杨涵 |
|---|---|---|---|
每张设定表包含正面全身、侧面全身、背面全身、面部特写四个视角。这不是装饰——它是整条管线保证人物一致性的核心手段。在后续的 Stage E(合成帧)和 Stage F(分镜渲染)中,这些多角度参考图会作为 img2img 的输入条件,约束 Gemini 在不同景别、不同角度下保持同一人物的视觉特征。
需要客观指出的是,在极端景别切换(如从全景跳到面部特写)时,面部的五官细节仍然存在一定浮动——这是当前 AI 图像生成的通病,不是这个工具独有的问题。但在同一场景内的连续镜头中,一致性水平已经达到了可用于分镜预览(Pre-Visualization) 的标准。
场景底图:另一个"一致性密码"
与角色设定表类似,管线还为每个场景位置生成了独立的空场景底图:
| 大学正门 | 报到处走廊 | 宿舍楼下 |
|---|---|---|
| 宿舍室内 | 校园小路 | 学校食堂 |
|---|---|---|
这些空场景图在 Stage E 中会与角色图合成为"合成参考帧",再由 Stage F 基于这些参考帧渲染最终分镜。这种先建环境、再放人物的工作流,本质上模拟了影视制作中美术置景 → 演员走位 → 摄影拍摄的标准流程。使得同一场景内不同镜头的建筑细节、光照条件、空间纵深得以保持一致。
客观评价:能否直接作为生成视频的参考图?
可以胜任的场景
- Pre-Viz(预览)阶段 —— 完全够用。导演、摄影师、美术拿到这套图后,可以快速理解每场戏的空间关系、景别选择、人物调度。这是它最核心的价值。
- AI视频生成的参考帧 —— 非常适合。如果你要用 Kling、Runway、Pika 等工具生成短剧视频片段,这些分镜图可以直接作为 img2img / img2vid 的输入参考。场景的一致性保证了前后镜头之间的视觉连贯。
- 漫剧 / 有声漫画 —— 如果目标是推文视频或漫剧形式,这套图经过简单后期(统一调色、添加字幕和音效)即可直接使用。
- 投资/立项展示 —— 用于向出品方展示短剧的视觉风格和分镜规划,说服力远超纯文字分镜脚本。
仍需人工介入的环节
- 面部高精度一致性 —— 如果目标是真人短剧级的角色连续性(观众会盯着脸看),建议使用
/custom模式,在 Stage C 之后替换为固定的角色照片或 AI 固定种子生成的面部。 - 跨场景调色 —— 不同场景之间的色温和色调需要后期统一处理。
- 运镜标注 —— 如果需要精确的推拉摇移指令,建议在
panels_*.json的 prompt 中补充运镜描述,或在分镜图上手动标注箭头。
总结
Story Claw 给我的最大惊喜不是"图好看"——坦白说单张图的质量市面上有更强的模型能做到。它的真正价值在于系统性:
- 它不是生成一张图,而是生成一整套在空间、人物、叙事上自洽的分镜序列
- 它不是随机出图,而是由 AI 编剧 + AI 分镜师协同产出有镜头语言逻辑的画面组
- 它用角色设定表 + 场景底图 + 合成帧 + 验证循环的四层架构,在当前 AI 一致性瓶颈下做到了工程上的最优解
对于短剧创作者来说,它把"从小说到可执行分镜"这个原本需要编剧 + 分镜师 + 概念设计师协作的环节,压缩成了一条 npm install -g story-claw && story-claw 命令。
这不是取代人,是让一个人能干一个团队的活。
本文所有图片均由 Story Claw 全自动生成,内容素材来自番茄小说《规则怪谈》,仅用于开源项目效果展示。