图生图比例总翻车?先把 AI 的「空间盲区」讲透

0 阅读5分钟

文生图能画出「一个人站在远处」,但把人物素材硬贴进风景里,比例仍是最容易崩的那一环。这篇不讲玄学操作,作为找到AI的讲师我只讲底层逻辑 + 两套可复用技法,覆盖单人卡位、多人协同、局部换脸。

先别急着学「怎么画框」——你若不懂 AI 为什么听不懂「远一点」,框也会画错。

图片


一、为什么图生图更容易比例翻车?

1.1 两种思维模式:从零造世界 vs 缝合两张图

| 维度 | 文生图 | 图生图合成 | | --- | --- | --- | | 输入 | 统一文本 | 多张独立图 + 文本 | | 空间怎么来 | 全局注意力自洽 | 缺跨图的统一坐标系 | | 比例何时定 | 生成中持续算 | 生成前主要靠你约束 | | 典型翻车 | 比例问题相对少 | 人太大/太小/位置飘 |

讲师直说:文生图像在同一张画布上构思;图生图像把两张剪报拼贴——缝口就是比例崩掉的根源。

1.2 语义孤岛:AI 看到的不是「人在景里」

你脑中是「中景偏右、约占画面高度五分之一」。模型收到的是:两坨像素矩阵 + 一句模糊话。缺的是空间锚点:离镜头多远、和景里参照物谁高谁矮、落点在哪一格。

于是模型退向训练集里的统计平均:要么把人放大保细节,要么缩小保背景。

1.3 两种经典失败(外加一种更阴间的)

1. 人太大:云海变「身后两米幕布」,纵深被吃光。

2. 人太小:主角变「找不同」里的黑点。

3. 差一点:不大不小,但透视「假」——观者说不清哪不对。

原理清楚了,答案只剩一个方向——在生成前,替模型把空间算死。下一章给你两把刀:一把写进字,一把画进图。


二、单人精准卡位:语义锚定 + 视觉围栏

2.1 语义锚定:用文字塞一根「刻度尺」

逻辑:模型缺锚点,你就用可量化、可参照的描述补上。

对比:

  • 模糊:「把剑客放进仙山背景」

  • 可用:「图 2 剑客融入图 1;中景偏右突出崖壁;身高约占画面垂直高度约 1/6;显渺小;光影与环境统一重构」

拆句要点:谁进谁(图序)→ 位置层(中景/偏右)→ 占比(最关键) → 情绪辅助(渺小/压迫)→ 融合指令(光影统一、去贴图感)。

三种占比表达(可叠加)

1. 环境参照:「约为背景瀑布落差的十分之一高」

2. 透视层级:「远景层,与远处树木同量级」

3. 面积占比:「人物整体面积不超过画面约 3%」

局限:「六分之一」和「七分之一」模型未必抠得准;要像素级,看 2.2。

文字能救八成,但最硬的物理答案在鼠标下面——下一节是全文核心。

2.2 视觉围栏(区域框选):框 = 你替 AI 做的空间决策

铁律:框的大小 = 人的大小;框的位置 = 人的位置。

四步(2026 主流工具通用思路)

1. 在背景目标位画醒目矩形(红/蓝均可)。

2. 上传带框背景 + 人物素材。

3. 提示词写明:人物落框内、大小与框一致、姿态与光影统一、输出去除标记框。

4. 生成后检查纵深与接触阴影是否合理。

框高与观感(经验)

  • < 1/10 屏高:人极渺小,景主导史诗感

  • 1/8~1/5:远景可辨,开放世界概念图常用

  • 1/4~1/3:人景并重

  • > 1/2:人为主角,近景海报感

单人站稳了,多人就会暴露第二个盲区——默认「同一深度排排站」。第三章用「框阵」解决。


三、多人协同:用框的大小骗出 Z 轴

3.1 典型翻车

一句「把三个人放进客栈」→ 三人同平面、同尺码、无互动,像三张纸贴一面墙。根因:无约束时,模型不替你分层。

3.2 差异化框选 = 近大远小

掌柜(近):左下大框;游侠(中):中部中框;说书人(远):右上小框。提示词按色块指派:谁进哪个框,最后去除所有彩色框。

框一大一小、一高一低,模型常会顺带推断景深与虚化强度(不保证每次完美,但比纯文字稳得多)。

3.3 互动:框要「碰一下」

  • 框完全分开 → 各干各的。

  • 框重叠约 20%~30%(递物、握手类)→ 共享像素区域,模型更愿意「接上线」:伸手、递碗、对视连线。

经验:轻互动 10%~15%,紧互动可到 40%~60%;重叠过多易糊成一团。

全身比例你赢了,换脸却可能一夜回到「大头娃娃」——第四章只讲一个被忽略的元凶。


四、局部换脸:大头不是参数,是「构图比例抄错了」

根因:选框只盖住头(约占全身约 1/8),参考图却是脸占画面 90% 的大头照——模型会努力把选框也填成「脸占 90%」,脖子肩领被吃掉。

根治:对齐参考图里「脸的画面占比」与选框内的头颈肩构图。用胸像/头肩替代极致大头,让脸在参考图里大约 ≤50% 区域;提示里强调:替换五官特征、保持头身比与发型外轮廓、颈与衣领不变、光影方向一致。

比例问题表面在画布,其实在你给模型的几何契约是否一致。


五、总结与行动清单

口诀(只记一句)

提示词管内容,选框管比例。

四条即刻法则

1. 单人入景:背景画框;纵深感强 → 框小;压迫感 → 框大;写明「与框一致、去框」。

2. 多人编排:一人一框;前景大框、远景小框模拟纵深。

3. 角色互动:需要肢体接触 → 两框部分重叠(常从约 20%~30% 试起)。

4. 局部换脸:忌极致大头参考;用头肩构图,脸占比与选框区域匹配。

举一反三:产品进场景、建筑进天际线、宠物进微缩景、多 SKU 摆拍——同一逻辑:先给几何契约,再谈风格与叙事。