AI 生图做单张好看不难。难的是让它连续画十张,主角长得还是同一个人。
之前用 Midjourney 做过漫画分镜的人都知道,每换一张图角色就"整容"一次。Stable Diffusion 的解决方案是训练 LoRA,但学习成本不低,数据集准备也麻烦。
Nano Banana 2(Gemini 3.1 Flash Image)给出了一个不同的思路:在同一个对话上下文里,模型能保持最多 5 个角色和 14 个物体的外观一致性。不用训练任何东西,直接靠 Prompt 和上下文记忆。
我测试了一套完整的连载分镜工作流,把踩过的坑和能用的技巧整理在这里。
角色卡:先定义,再画图
直接开画是最常见的错误。如果第一张图里你只写了"一个穿红衣服的女孩",模型会随机生成一个形象。到第二张图的时候,它对"红衣服女孩"的理解可能完全不同。
更好的做法是先写一张"角色设定卡",在对话开头就把角色的外观锁死。
角色卡模板:
角色名:小林
性别:女
年龄:约 25 岁
发型:黑色齐肩短发,左侧别一个银色发卡
体型:中等偏瘦
服装:深蓝色牛仔夹克,白色 T 恤,黑色高腰裤
配饰:左手腕一条红色编织手绳
面部特征:圆脸,单眼皮,淡雀斑
表情基调:平静,略带好奇
把这段描述作为对话的第一条消息发给模型,然后再开始生成具体场景的图。模型会把这些特征"记住",后续生成中保持一致。
实测:6 张分镜的一致性
我用上面的角色卡,连续生成了 6 张分镜:
- "小林站在公交车站,手里拿着一杯咖啡,阴天,16:9"
2. "小林坐在咖啡馆窗边看书,暖色灯光,16:9"
3. "小林在雨中撑伞走过十字路口,远景,16:9"
4. "小林蹲在路边逗一只橘猫,侧面特写,16:9"
- "小林在便利店里挑选零食,冷色调荧光灯,16:9"
- "小林躺在沙发上刷手机,俯视角度,16:9"
结果:
- 发型和发卡:6 张全部保持了短发 + 左侧银色发卡
- 服装:牛仔夹克的颜色和版型基本一致(第三张因为撑伞,夹克被雨打湿后颜色偏深,但能认出)
- 面部特征:圆脸和单眼皮保持住了,雀斑在远景里看不到,但特写里有
- 红色手绳:6 张里都能看到,2 张红绳大小形状有些许差异
总体一致性大概 85-90%。不是 100%,但用来做漫画分镜或者短视频脚本的视觉参考已经足够了。
多角色的管理
5 个角色的上限意味着你需要规划。如果你的故事有 8 个角色,不要一次性全塞进去。
分组策略:
- 先确定每一幕里出场的角色
- 同一幕的角色放在同一个对话里
- 不同幕的角色可以开新的对话
比如一个故事有 A、B、C、D、E、F 六个角色:
- 第 1-3 幕:A、B、C 同场 → 对话 1
- 第 4-6 幕:A、D、E 同场 → 对话 2(带上 A 的参考图)
- 第 7-8 幕:C、D、F 同场 → 对话 3
跨对话时,给模型上一轮生成的角色图片作为参考图(用 reference image 功能),可以把一致性延续过去。
容易出问题的地方
-
服装颜色漂移:角色穿深蓝色,画了几张后可能变成深灰色。解决办法是在每个 Prompt 里重复提一次关键颜色词。
-
表情锁死:如果角色卡里写了"微笑",模型有时候在悲伤场景里也强行微笑。建议角色卡里只写"面部结构"特征,表情留给每张图的 Prompt 去控制。
-
角度变化导致识别困难:正面转侧面或者俯视角度,角色辨识度会下降。解决办法是给角色加上明显的视觉标记(比如红色手绳、银色发卡),这类配饰比面部特征更容易跨角度保持。
-
场景物品过多时崩坏:如果场景里的物品太多(比如一间堆满东西的房间),模型会丢失部分物体或者把它们画错。重要物品控制在 10 个以内。
工作流建议
- 先写角色卡(花 10 分钟把每个角色定义清楚)
- 第一张图定好"基准形象"(正面半身,光线均匀,背景简单)
- 后续图片在同一对话里生成
- 每张图的 Prompt 都带上角色名 + 1-2 个关键外观词(防止漂移)
- 生成完整组图后通览一遍,把不一致的那 1-2 张重新生成