图生图比例总翻车？先把 AI 的「空间盲区」讲透文生图能画出「一个人站在远处」，但把人物素材硬贴进风景里，比例仍是最容易

文生图能画出「一个人站在远处」，但把人物素材硬贴进风景里，比例仍是最容易崩的那一环。这篇不讲玄学操作，作为找到AI的讲师我只讲底层逻辑 + 两套可复用技法，覆盖单人卡位、多人协同、局部换脸。

先别急着学「怎么画框」——你若不懂 AI 为什么听不懂「远一点」，框也会画错。

一、为什么图生图更容易比例翻车？

1.1 两种思维模式：从零造世界 vs 缝合两张图

| 维度 | 文生图 | 图生图合成 | | --- | --- | --- | | 输入 | 统一文本 | 多张独立图 + 文本 | | 空间怎么来 | 全局注意力自洽 | 缺跨图的统一坐标系 | | 比例何时定 | 生成中持续算 | 生成前主要靠你约束 | | 典型翻车 | 比例问题相对少 | 人太大/太小/位置飘 |

讲师直说：文生图像在同一张画布上构思；图生图像把两张剪报拼贴——缝口就是比例崩掉的根源。

1.2 语义孤岛：AI 看到的不是「人在景里」

你脑中是「中景偏右、约占画面高度五分之一」。模型收到的是：两坨像素矩阵 + 一句模糊话。缺的是空间锚点：离镜头多远、和景里参照物谁高谁矮、落点在哪一格。

于是模型退向训练集里的统计平均：要么把人放大保细节，要么缩小保背景。

1.3 两种经典失败（外加一种更阴间的）

1. 人太大：云海变「身后两米幕布」，纵深被吃光。

2. 人太小：主角变「找不同」里的黑点。

3. 差一点：不大不小，但透视「假」——观者说不清哪不对。

原理清楚了，答案只剩一个方向——在生成前，替模型把空间算死。下一章给你两把刀：一把写进字，一把画进图。

二、单人精准卡位：语义锚定 + 视觉围栏

2.1 语义锚定：用文字塞一根「刻度尺」

逻辑：模型缺锚点，你就用可量化、可参照的描述补上。

对比：

模糊：「把剑客放进仙山背景」
可用：「图 2 剑客融入图 1；中景偏右突出崖壁；身高约占画面垂直高度约 1/6；显渺小；光影与环境统一重构」

拆句要点：谁进谁（图序）→ 位置层（中景/偏右）→ 占比（最关键） → 情绪辅助（渺小/压迫）→ 融合指令（光影统一、去贴图感）。

三种占比表达（可叠加）

1. 环境参照：「约为背景瀑布落差的十分之一高」

2. 透视层级：「远景层，与远处树木同量级」

3. 面积占比：「人物整体面积不超过画面约 3%」

局限：「六分之一」和「七分之一」模型未必抠得准；要像素级，看 2.2。

文字能救八成，但最硬的物理答案在鼠标下面——下一节是全文核心。

2.2 视觉围栏（区域框选）：框 = 你替 AI 做的空间决策

铁律：框的大小 = 人的大小；框的位置 = 人的位置。

四步（2026 主流工具通用思路）

1. 在背景目标位画醒目矩形（红/蓝均可）。

2. 上传带框背景 + 人物素材。

3. 提示词写明：人物落框内、大小与框一致、姿态与光影统一、输出去除标记框。

4. 生成后检查纵深与接触阴影是否合理。

框高与观感（经验）

< 1/10 屏高：人极渺小，景主导史诗感
1/8～1/5：远景可辨，开放世界概念图常用
1/4～1/3：人景并重
> 1/2：人为主角，近景海报感

单人站稳了，多人就会暴露第二个盲区——默认「同一深度排排站」。第三章用「框阵」解决。

三、多人协同：用框的大小骗出 Z 轴

3.1 典型翻车

一句「把三个人放进客栈」→ 三人同平面、同尺码、无互动，像三张纸贴一面墙。根因：无约束时，模型不替你分层。

3.2 差异化框选 = 近大远小

掌柜（近）：左下大框；游侠（中）：中部中框；说书人（远）：右上小框。提示词按色块指派：谁进哪个框，最后去除所有彩色框。

框一大一小、一高一低，模型常会顺带推断景深与虚化强度（不保证每次完美，但比纯文字稳得多）。

3.3 互动：框要「碰一下」

框完全分开 → 各干各的。
框重叠约 20%～30%（递物、握手类）→ 共享像素区域，模型更愿意「接上线」：伸手、递碗、对视连线。

经验：轻互动 10%～15%，紧互动可到 40%～60%；重叠过多易糊成一团。

全身比例你赢了，换脸却可能一夜回到「大头娃娃」——第四章只讲一个被忽略的元凶。

四、局部换脸：大头不是参数，是「构图比例抄错了」

根因：选框只盖住头（约占全身约 1/8），参考图却是脸占画面 90% 的大头照——模型会努力把选框也填成「脸占 90%」，脖子肩领被吃掉。

根治：对齐参考图里「脸的画面占比」与选框内的头颈肩构图。用胸像/头肩替代极致大头，让脸在参考图里大约 ≤50% 区域；提示里强调：替换五官特征、保持头身比与发型外轮廓、颈与衣领不变、光影方向一致。

比例问题表面在画布，其实在你给模型的几何契约是否一致。

五、总结与行动清单

口诀（只记一句）

提示词管内容，选框管比例。

四条即刻法则

1. 单人入景：背景画框；纵深感强 → 框小；压迫感 → 框大；写明「与框一致、去框」。

2. 多人编排：一人一框；前景大框、远景小框模拟纵深。

3. 角色互动：需要肢体接触 → 两框部分重叠（常从约 20%～30% 试起）。

4. 局部换脸：忌极致大头参考；用头肩构图，脸占比与选框区域匹配。

举一反三：产品进场景、建筑进天际线、宠物进微缩景、多 SKU 摆拍——同一逻辑：先给几何契约，再谈风格与叙事。