分镜生成工具 Story Claw 实测

87 阅读11分钟

Story Claw 实测:把某茄小说《规则怪谈》扔进去,出来了一套专业级分镜

一个做短剧的朋友跟我说:"写分镜脚本不难,难的是让AI画出来的图前后能对得上。" 我深以为然——直到我试了 Story Claw。

一句话说清楚它是什么

Story Claw 是一个开源的 AI 管线工具。输入小说章节的 .txt 文件,它自动完成编剧改编 → 结构化拆解 → 角色/场景图生成 → 合成参考帧 → 分镜渲染的全流程,最终输出一整套带镜头语言的分镜图。

我随手从番茄小说上拉了《规则怪谈》的前两章(大约八千字的网文),执行了一次 /solo 全自动模式。以下是全程无人工干预的原始输出——没有手动修图、没有挑选重跑、没有 Photoshop

运行截图

运行截图


先看结果:8 场戏,24 张分镜

管线跑完后,\story-claw\workspace\规则怪谈\ep01\storyboard_panels 目录下生成了 24 张分镜图,覆盖 8 个场景。同时输出了完整的改编剧本(Markdown)、结构化场景数据(JSON)、以及每一拍的镜头设计文件(panels_*.json)。

下面我按场景顺序拆解。


场景一 · 大学正门(1 张) —— 建置镜头

大学正门

开篇是一个标准的建置镜头(Establishing Shot)

这张图的作用是交代地理空间——后续所有校园戏的空间逻辑都锚定在这个入口上。从制片角度看,这张图完全可以直接拿去做视频的第一帧:构图稳、信息量足、基调准。


场景二 · 穿过校门(4 张) —— 景别递进 + 道具插入

s2p1s2p2s2p3s2p4
全景:人物入画中近景:面部表情特写:石碑红字全景:背影入校

这组分镜展现了一个教科书级的景别递进序列:

  1. 全景(Full Shot) —— 魏俊熙拖着行李箱站在校门前,笑容灿烂,建立人物与空间的关系。
  2. 中近景(Medium Close-Up) —— 推进到面部,捕捉兴奋表情,斜挎包、白T恤的造型与角色设定表完全一致。
  3. 特写插入(Insert Shot) —— 突然切到石碑上的"没有规矩,不成方圆"红字微距特写。这是一个经典的道具特写插入手法——在角色情绪高点突然切到冰冷的警示文字,制造不协调感。
  4. 全景背影(Wide Shot, Back) —— 人物转身走入校门,纵深构图,铁门框住画面两侧。

场景一致性判定:四张图中的校门、石碑、旗杆、绿化带完全一致——同一铁门、同一石碑、同一广场地面。这不是巧合,是因为管线在 Stage C 阶段生成了统一的场景底图,所有分镜在此基础上合成,从源头上保证了空间连续性。

人物一致性判定:魏俊熙在 4 张图中保持了白色T恤 + 深蓝牛仔裤 + 黑色斜挎包 + 黑色行李箱的完整造型。发型、体型、肤色在全景和中近景之间过渡自然。


场景三 · 新生报到处(3 张) —— 正反打与视线匹配

s3p1s3p2s3p3
中景:双人同框近景:学姐展示手机近景:魏俊熙扫码

这组是整套分镜中正反打(Shot / Reverse Shot) 运用最标准的一组。

第一张中景建立了180度轴线:魏俊熙在画面左侧、学姐在右侧,两人之间的报到台是轴线的锚点。随后:

  • 第二张切到学姐的近景——她面朝画面左侧(朝向魏俊熙的方向),手持手机展示二维码;
  • 第三张反打到魏俊熙——他面朝画面右侧(朝向学姐的方向),低头扫码。

轴线:两个单人镜头的视线方向严格对称,没有越轴,符合经典180度规则。如果在剪辑时按 1→2→3 的顺序直接切,观众不会产生空间混乱。

场景一致性:走廊的蓝色信息展板、红色"热烈欢迎2023级新同学"横幅、报到桌上的蓝色二维码立牌,在三张图中完全吻合——甚至墙上展板的内容排版都是一致的。这个细节非常惊人,说明合成帧阶段对场景底图的还原度极高。

人物一致性:学姐的红色志愿者造型稳定。魏俊熙保持核心视觉标识。


场景四 · 宿舍楼下(2 张) —— 对峙构图

s4p1s4p2
全景:学长拦路中景:学长伸手搭话

这场戏引入了第三个角色——骗子学长(灰色连帽卫衣)。

全景镜头中,学长张开双臂挡在路中央,魏俊熙被迫停步——两人之间的身体语言形成了一组"拦截-被拦截"的动态张力。第二张推进到中景,采用了过肩镜头(Over-the-Shoulder Shot) 的变体:学长占据画面主体,魏俊熙以侧背影出现在画面右侧边缘,形成"压迫-被压迫"的构图关系。宿舍楼的灰色外墙、楼梯扶手、快递站、自行车停放区均与场景底图吻合。


场景五 · 宿舍室内(4 张) —— 景别阶梯 + 道具叙事

s5p1s5p2s5p3s5p4
全景:宿舍环境中近景:低头看手机特写:紧皱眉头道具特写:倒计时

这组是情绪营造最出色的一组,采用了景别阶梯式推进(Progressive Push-In)

  1. 全景 —— 典型的大学四人宿舍:上下铺铁架床、蓝色条纹被褥、书架、行李箱。魏俊熙独自坐在床边看手机,空旷的宿舍强化了孤独感。
  2. 中近景 —— 推进到桌前,手机屏幕的光打在脸上,眉头紧锁。注意背景的书架、台灯位置与全景完全对应。
  3. 面部特写(Extreme Close-Up) —— 只有脸,焦虑和困惑写满整张脸。浅景深把背景虚化成暖色光斑,观众的注意力被完全锁定在表情上。
  4. 道具特写 —— 俯拍视角,手机屏幕上赫然显示红色倒计时 167:59:40,下方是密密麻麻的校规文字。

这个"全景→中近→特写→道具"的四级递进,是短剧中最常用的悬念揭示(Reveal)结构。前三张不断压缩观众的视野,最后一张用道具揭晓"他在看什么"——倒计时数字像一记重锤落下。


场景六 · 校园小路(4 张) —— 傍晚光照 + 双人对峙

s6p1s6p2s6p3s6p4
全景:小路相遇近景:魏俊熙张望近景:杨涵登场双人中景:对峙

这是杨涵(深色衬衫 + 学生会徽章)首次正面登场的场景。

第一张全景中,傍晚的路灯亮起,石板路纵深延伸,两人一左一右出现在画面中——这是一个经典的对称式双人建置。随后的正反打非常克制:

  • 魏俊熙的近景中,他面朝画外右侧,表情不安;
  • 杨涵的近景中,他面朝画外左侧,表情冷峻。
  • 最后一张双人中景收束,两人隔着路灯相对而立。

视线方向全程对称。路灯杆作为轴线锚点起到了很好的"画面中缝"作用。


场景七 · 学校食堂(5 张) —— 对话场景的完整Coverage

s7p1s7p2s7p3s7p4s7p5
全景:食堂角落中近景:魏俊熙近景:焦虑追问反打:杨涵低语特写:震惊

这是全集的高潮场景——杨涵告诉魏俊熙"倒计时归零你就死了"。

从分镜覆盖率(Coverage)的角度看,这组提供了一场对话戏所需的全部素材:

  • Master Shot(主镜头) :第一张全景,两人在食堂角落靠窗而坐,建立空间关系。窗外的绿植、木质桌椅、远处的打菜窗口——环境信息完整。
  • 正打(A角) :第二、三张是魏俊熙的两个情绪层次——先是带着勉强笑容的试探,再是笑容褪去后的焦虑。
  • 反打(B角) :第四张切到杨涵,他身体前倾、低声说话,背景的打菜窗口和"特色窗口""热菜""主食"标识清晰可见。
  • 反应镜头(Reaction Shot) :第五张是魏俊熙听到真相后的特写——瞳孔微放大,笑容凝固在脸上,恐惧从眼神中渗出。

场景八 · 黑屏结尾(1 张) —— 字幕卡

结尾

纯黑底 + 白色文字:"剩余时间:165小时"。干净利落。这是短剧最常见的悬念钩子(Cliffhanger Card) 处理方式——在情绪最高点突然切黑,让观众带着不安等待下一集。


角色设定表:管线的"一致性密码"

在深入分析分镜之前,有必要看一下管线在 Stage C 自动生成的角色设定表(Character Reference Sheet):

魏俊熙学姐学长(骗子)杨涵
魏俊熙学姐学长杨涵

每张设定表包含正面全身、侧面全身、背面全身、面部特写四个视角。这不是装饰——它是整条管线保证人物一致性的核心手段。在后续的 Stage E(合成帧)和 Stage F(分镜渲染)中,这些多角度参考图会作为 img2img 的输入条件,约束 Gemini 在不同景别、不同角度下保持同一人物的视觉特征。

需要客观指出的是,在极端景别切换(如从全景跳到面部特写)时,面部的五官细节仍然存在一定浮动——这是当前 AI 图像生成的通病,不是这个工具独有的问题。但在同一场景内的连续镜头中,一致性水平已经达到了可用于分镜预览(Pre-Visualization) 的标准。


场景底图:另一个"一致性密码"

与角色设定表类似,管线还为每个场景位置生成了独立的空场景底图:

大学正门报到处走廊宿舍楼下
正门报到宿舍楼下
宿舍室内校园小路学校食堂
宿舍小路食堂

这些空场景图在 Stage E 中会与角色图合成为"合成参考帧",再由 Stage F 基于这些参考帧渲染最终分镜。这种先建环境、再放人物的工作流,本质上模拟了影视制作中美术置景 → 演员走位 → 摄影拍摄的标准流程。使得同一场景内不同镜头的建筑细节、光照条件、空间纵深得以保持一致。


客观评价:能否直接作为生成视频的参考图?

可以胜任的场景

  1. Pre-Viz(预览)阶段 —— 完全够用。导演、摄影师、美术拿到这套图后,可以快速理解每场戏的空间关系、景别选择、人物调度。这是它最核心的价值。
  2. AI视频生成的参考帧 —— 非常适合。如果你要用 Kling、Runway、Pika 等工具生成短剧视频片段,这些分镜图可以直接作为 img2img / img2vid 的输入参考。场景的一致性保证了前后镜头之间的视觉连贯。
  3. 漫剧 / 有声漫画 —— 如果目标是推文视频或漫剧形式,这套图经过简单后期(统一调色、添加字幕和音效)即可直接使用。
  4. 投资/立项展示 —— 用于向出品方展示短剧的视觉风格和分镜规划,说服力远超纯文字分镜脚本。

仍需人工介入的环节

  1. 面部高精度一致性 —— 如果目标是真人短剧级的角色连续性(观众会盯着脸看),建议使用 /custom 模式,在 Stage C 之后替换为固定的角色照片或 AI 固定种子生成的面部。
  2. 跨场景调色 —— 不同场景之间的色温和色调需要后期统一处理。
  3. 运镜标注 —— 如果需要精确的推拉摇移指令,建议在 panels_*.json 的 prompt 中补充运镜描述,或在分镜图上手动标注箭头。

总结

Story Claw 给我的最大惊喜不是"图好看"——坦白说单张图的质量市面上有更强的模型能做到。它的真正价值在于系统性

  • 它不是生成一张图,而是生成一整套在空间、人物、叙事上自洽的分镜序列
  • 它不是随机出图,而是由 AI 编剧 + AI 分镜师协同产出有镜头语言逻辑的画面组
  • 它用角色设定表 + 场景底图 + 合成帧 + 验证循环的四层架构,在当前 AI 一致性瓶颈下做到了工程上的最优解

对于短剧创作者来说,它把"从小说到可执行分镜"这个原本需要编剧 + 分镜师 + 概念设计师协作的环节,压缩成了一条 npm install -g story-claw && story-claw 命令。

这不是取代人,是让一个人能干一个团队的活。


本文所有图片均由 Story Claw 全自动生成,内容素材来自番茄小说《规则怪谈》,仅用于开源项目效果展示。

项目地址:github.com/ZC89757/sto…