分镜生成工具 Story Claw 实测Story Claw 实测，素材高度可定制，解放生产力，生成高一致性分镜，生成A

Story Claw 实测：把某茄小说《规则怪谈》扔进去，出来了一套专业级分镜

一个做短剧的朋友跟我说："写分镜脚本不难，难的是让AI画出来的图前后能对得上。" 我深以为然——直到我试了 Story Claw。

一句话说清楚它是什么

Story Claw 是一个开源的 AI 管线工具。输入小说章节的 .txt 文件，它自动完成编剧改编 → 结构化拆解 → 角色/场景图生成 → 合成参考帧 → 分镜渲染的全流程，最终输出一整套带镜头语言的分镜图。

我随手从番茄小说上拉了《规则怪谈》的前两章（大约八千字的网文），执行了一次 /solo 全自动模式。以下是全程无人工干预的原始输出——没有手动修图、没有挑选重跑、没有 Photoshop。

运行截图

先看结果：8 场戏，24 张分镜

管线跑完后，\story-claw\workspace\规则怪谈\ep01\storyboard_panels 目录下生成了 24 张分镜图，覆盖 8 个场景。同时输出了完整的改编剧本（Markdown）、结构化场景数据（JSON）、以及每一拍的镜头设计文件（panels_*.json）。

下面我按场景顺序拆解。

场景一 · 大学正门（1 张） —— 建置镜头

大学正门

开篇是一个标准的建置镜头（Establishing Shot） ：

这张图的作用是交代地理空间——后续所有校园戏的空间逻辑都锚定在这个入口上。从制片角度看，这张图完全可以直接拿去做视频的第一帧：构图稳、信息量足、基调准。

场景二 · 穿过校门（4 张） —— 景别递进 + 道具插入



全景：人物入画	中近景：面部表情	特写：石碑红字	全景：背影入校

这组分镜展现了一个教科书级的景别递进序列：

全景（Full Shot） —— 魏俊熙拖着行李箱站在校门前，笑容灿烂，建立人物与空间的关系。
中近景（Medium Close-Up） —— 推进到面部，捕捉兴奋表情，斜挎包、白T恤的造型与角色设定表完全一致。
特写插入（Insert Shot） —— 突然切到石碑上的"没有规矩，不成方圆"红字微距特写。这是一个经典的道具特写插入手法——在角色情绪高点突然切到冰冷的警示文字，制造不协调感。
全景背影（Wide Shot, Back） —— 人物转身走入校门，纵深构图，铁门框住画面两侧。

场景一致性判定：四张图中的校门、石碑、旗杆、绿化带完全一致——同一铁门、同一石碑、同一广场地面。这不是巧合，是因为管线在 Stage C 阶段生成了统一的场景底图，所有分镜在此基础上合成，从源头上保证了空间连续性。

人物一致性判定：魏俊熙在 4 张图中保持了白色T恤 + 深蓝牛仔裤 + 黑色斜挎包 + 黑色行李箱的完整造型。发型、体型、肤色在全景和中近景之间过渡自然。

场景三 · 新生报到处（3 张） —— 正反打与视线匹配



中景：双人同框	近景：学姐展示手机	近景：魏俊熙扫码

这组是整套分镜中正反打（Shot / Reverse Shot） 运用最标准的一组。

第一张中景建立了180度轴线：魏俊熙在画面左侧、学姐在右侧，两人之间的报到台是轴线的锚点。随后：

第二张切到学姐的近景——她面朝画面左侧（朝向魏俊熙的方向），手持手机展示二维码；
第三张反打到魏俊熙——他面朝画面右侧（朝向学姐的方向），低头扫码。

轴线：两个单人镜头的视线方向严格对称，没有越轴，符合经典180度规则。如果在剪辑时按 1→2→3 的顺序直接切，观众不会产生空间混乱。

场景一致性：走廊的蓝色信息展板、红色"热烈欢迎2023级新同学"横幅、报到桌上的蓝色二维码立牌，在三张图中完全吻合——甚至墙上展板的内容排版都是一致的。这个细节非常惊人，说明合成帧阶段对场景底图的还原度极高。

人物一致性：学姐的红色志愿者造型稳定。魏俊熙保持核心视觉标识。

场景四 · 宿舍楼下（2 张） —— 对峙构图



全景：学长拦路	中景：学长伸手搭话

这场戏引入了第三个角色——骗子学长（灰色连帽卫衣）。

全景镜头中，学长张开双臂挡在路中央，魏俊熙被迫停步——两人之间的身体语言形成了一组"拦截-被拦截"的动态张力。第二张推进到中景，采用了过肩镜头（Over-the-Shoulder Shot） 的变体：学长占据画面主体，魏俊熙以侧背影出现在画面右侧边缘，形成"压迫-被压迫"的构图关系。宿舍楼的灰色外墙、楼梯扶手、快递站、自行车停放区均与场景底图吻合。

场景五 · 宿舍室内（4 张） —— 景别阶梯 + 道具叙事



全景：宿舍环境	中近景：低头看手机	特写：紧皱眉头	道具特写：倒计时

这组是情绪营造最出色的一组，采用了景别阶梯式推进（Progressive Push-In） ：

全景 —— 典型的大学四人宿舍：上下铺铁架床、蓝色条纹被褥、书架、行李箱。魏俊熙独自坐在床边看手机，空旷的宿舍强化了孤独感。
中近景 —— 推进到桌前，手机屏幕的光打在脸上，眉头紧锁。注意背景的书架、台灯位置与全景完全对应。
面部特写（Extreme Close-Up） —— 只有脸，焦虑和困惑写满整张脸。浅景深把背景虚化成暖色光斑，观众的注意力被完全锁定在表情上。
道具特写 —— 俯拍视角，手机屏幕上赫然显示红色倒计时 167:59:40，下方是密密麻麻的校规文字。

这个"全景→中近→特写→道具"的四级递进，是短剧中最常用的悬念揭示（Reveal）结构。前三张不断压缩观众的视野，最后一张用道具揭晓"他在看什么"——倒计时数字像一记重锤落下。

场景六 · 校园小路（4 张） —— 傍晚光照 + 双人对峙



全景：小路相遇	近景：魏俊熙张望	近景：杨涵登场	双人中景：对峙

这是杨涵（深色衬衫 + 学生会徽章）首次正面登场的场景。

第一张全景中，傍晚的路灯亮起，石板路纵深延伸，两人一左一右出现在画面中——这是一个经典的对称式双人建置。随后的正反打非常克制：

魏俊熙的近景中，他面朝画外右侧，表情不安；
杨涵的近景中，他面朝画外左侧，表情冷峻。
最后一张双人中景收束，两人隔着路灯相对而立。

视线方向全程对称。路灯杆作为轴线锚点起到了很好的"画面中缝"作用。

场景七 · 学校食堂（5 张） —— 对话场景的完整Coverage



全景：食堂角落	中近景：魏俊熙	近景：焦虑追问	反打：杨涵低语	特写：震惊

这是全集的高潮场景——杨涵告诉魏俊熙"倒计时归零你就死了"。

从分镜覆盖率（Coverage）的角度看，这组提供了一场对话戏所需的全部素材：

Master Shot（主镜头） ：第一张全景，两人在食堂角落靠窗而坐，建立空间关系。窗外的绿植、木质桌椅、远处的打菜窗口——环境信息完整。
正打（A角） ：第二、三张是魏俊熙的两个情绪层次——先是带着勉强笑容的试探，再是笑容褪去后的焦虑。
反打（B角） ：第四张切到杨涵，他身体前倾、低声说话，背景的打菜窗口和"特色窗口""热菜""主食"标识清晰可见。
反应镜头（Reaction Shot） ：第五张是魏俊熙听到真相后的特写——瞳孔微放大，笑容凝固在脸上，恐惧从眼神中渗出。

场景八 · 黑屏结尾（1 张） —— 字幕卡

纯黑底 + 白色文字："剩余时间：165小时"。干净利落。这是短剧最常见的悬念钩子（Cliffhanger Card） 处理方式——在情绪最高点突然切黑，让观众带着不安等待下一集。

角色设定表：管线的"一致性密码"

在深入分析分镜之前，有必要看一下管线在 Stage C 自动生成的角色设定表（Character Reference Sheet）：

魏俊熙	学姐	学长（骗子）	杨涵

每张设定表包含正面全身、侧面全身、背面全身、面部特写四个视角。这不是装饰——它是整条管线保证人物一致性的核心手段。在后续的 Stage E（合成帧）和 Stage F（分镜渲染）中，这些多角度参考图会作为 img2img 的输入条件，约束 Gemini 在不同景别、不同角度下保持同一人物的视觉特征。

需要客观指出的是，在极端景别切换（如从全景跳到面部特写）时，面部的五官细节仍然存在一定浮动——这是当前 AI 图像生成的通病，不是这个工具独有的问题。但在同一场景内的连续镜头中，一致性水平已经达到了可用于分镜预览（Pre-Visualization） 的标准。

场景底图：另一个"一致性密码"

与角色设定表类似，管线还为每个场景位置生成了独立的空场景底图：

大学正门	报到处走廊	宿舍楼下

宿舍室内	校园小路	学校食堂

这些空场景图在 Stage E 中会与角色图合成为"合成参考帧"，再由 Stage F 基于这些参考帧渲染最终分镜。这种先建环境、再放人物的工作流，本质上模拟了影视制作中美术置景 → 演员走位 → 摄影拍摄的标准流程。使得同一场景内不同镜头的建筑细节、光照条件、空间纵深得以保持一致。

客观评价：能否直接作为生成视频的参考图？

可以胜任的场景

Pre-Viz（预览）阶段 —— 完全够用。导演、摄影师、美术拿到这套图后，可以快速理解每场戏的空间关系、景别选择、人物调度。这是它最核心的价值。
AI视频生成的参考帧 —— 非常适合。如果你要用 Kling、Runway、Pika 等工具生成短剧视频片段，这些分镜图可以直接作为 img2img / img2vid 的输入参考。场景的一致性保证了前后镜头之间的视觉连贯。
漫剧 / 有声漫画 —— 如果目标是推文视频或漫剧形式，这套图经过简单后期（统一调色、添加字幕和音效）即可直接使用。
投资/立项展示 —— 用于向出品方展示短剧的视觉风格和分镜规划，说服力远超纯文字分镜脚本。

仍需人工介入的环节

面部高精度一致性 —— 如果目标是真人短剧级的角色连续性（观众会盯着脸看），建议使用 /custom 模式，在 Stage C 之后替换为固定的角色照片或 AI 固定种子生成的面部。
跨场景调色 —— 不同场景之间的色温和色调需要后期统一处理。
运镜标注 —— 如果需要精确的推拉摇移指令，建议在 panels_*.json 的 prompt 中补充运镜描述，或在分镜图上手动标注箭头。

总结

Story Claw 给我的最大惊喜不是"图好看"——坦白说单张图的质量市面上有更强的模型能做到。它的真正价值在于系统性：

它不是生成一张图，而是生成一整套在空间、人物、叙事上自洽的分镜序列
它不是随机出图，而是由 AI 编剧 + AI 分镜师协同产出有镜头语言逻辑的画面组
它用角色设定表 + 场景底图 + 合成帧 + 验证循环的四层架构，在当前 AI 一致性瓶颈下做到了工程上的最优解

对于短剧创作者来说，它把"从小说到可执行分镜"这个原本需要编剧 + 分镜师 + 概念设计师协作的环节，压缩成了一条 npm install -g story-claw && story-claw 命令。

这不是取代人，是让一个人能干一个团队的活。

本文所有图片均由 Story Claw 全自动生成，内容素材来自番茄小说《规则怪谈》，仅用于开源项目效果展示。

项目地址：github.com/ZC89757/sto…