用 AI 生图最让人崩溃的不是出图丑,而是出图不稳定。同样一句提示词,跑十次出来十张不同的脸,风格飘忽不定,有时候甚至连构图都差很远。我在库拉KULAAI(t.kulaai.cn)上反复测试 GPT-Image-2 之后,摸索出一套结构化的 Prompt 写法,能把出图一致性从"开盲盒"拉到"可控生产线"的水平。
这篇文章不讲玄学,只讲方法。
为什么你的 Prompt 会"飘"?
先理解问题根源。GPT-Image-2 的生成过程本质上是一个概率采样过程——模型根据你的文字描述,在一个巨大的可能性空间里"选"一张图。你的 Prompt 越模糊,可能性空间就越大,出来的结果自然就越随机。
打个比方:你说"画一只猫",模型面对的是一个银河系;你说"画一只坐在红色沙发上、侧脸望向窗外、午后阳光照射的橘色英短猫",模型面对的就只是一间客厅。空间越小,一致性越高。
所以核心问题就是:怎么把 Prompt 写得足够精确,同时又不至于把模型"写死"让它失去创意?
结构化模板:五层洋葱模型
我总结了一个五层结构,从内到外逐层收窄可能性空间:
第一层:主体(Subject)。 这是最核心的一层,必须清晰、具体。用"一个穿黑色皮夹克的亚洲年轻女性"而不是"一个女孩"。主体描述越精确,人物一致性越高。如果要保持多张图的连贯性,主体描述必须固定不变。
第二层:动作与姿态(Action & Pose)。 "站立""坐姿""回头""伸手触摸花朵"。这层决定了画面的动态感。同一主体,换一个动作就是一张新图,但因为主体不变,人物特征是连续的。
第三层:环境与场景(Environment)。 "在东京涩谷的十字路口""在北欧风格的书房里""在雨后的石板路上"。场景提供叙事语境,也影响光影和色调。一个常见错误是场景描述太泛——"户外"和"秋天的银杏大道"出来的东西完全不同。
第四层:光影与氛围(Lighting & Mood)。 "金色侧逆光""阴天漫射光""霓虹灯光源""烛光暖调"。这层直接决定画面的情绪质感。很多人忽略光影描述,但其实光影对出图一致性的影响巨大——同一场景、同一主体,光影不同可以像两个世界。
第五层:风格与技术参数(Style & Technical)。 "油画风格""赛博朋克""水彩插画""电影色调,35mm胶片颗粒感"。这是最外层,负责整体视觉语言。技术参数可以更细:"8K""超写实""浅景深""广角畸变"——但一般场景下不需要这么精确。
实际操作:固定 vs 可变
结构化的真正威力不在于单张图的质量,而在于批量出图的一致性。
具体做法是:把五层 Prompt 拆成"固定部分"和"可变部分"。固定部分在整个系列中保持不变,可变部分逐张调整。
比如你要做一个"四季少女"系列:
固定部分:一个穿白色连衣裙的亚洲长发少女,水彩画风格,柔和的漫射光,中景构图
可变部分:
- 春:
站在樱花树下,花瓣飘落,粉色和嫩绿色调 - 夏:
站在向日葵花田中,阳光强烈,金黄色调 - 秋:
走在铺满落叶的小路上,暖橙色调,逆光 - 冬:
站在雪地里,围巾飘动,冷蓝色调,黄昏
四张图,主体一致,风格一致,场景和氛围按季节切换。出来的效果是同一个人在不同季节的连续叙事,而不是四张毫无关联的随机图片。
两个容易踩的坑
坑一:描述自相矛盾。 我见过有人写"极简风格,画面丰富细节,大量装饰元素"——这不是丰富,这是打架。模型不知道该听谁的,结果就是哪边都没做好。每个层面的描述必须内部自洽。想要极简,就精简场景和道具;想要丰富,就大胆堆叠细节。但别在同一层里自相矛盾。
坑二:提示词过长。 GPT-Image-2 对长提示词的处理比 Image-1 好很多,但依然有临界点。我测试下来,中文提示词控制在 150 字以内效果最稳定。超过 200 字,模型开始"选择性忽略"部分描述,你不知道它忽略了哪部分,出图就又不可控了。
如果确实需要大量细节,用分层策略:把核心描述放在提示词前半段(权重更高),次要细节放在后半段。模型对前面内容的遵循度明显更高。
和 Midjourney 的参数化思路对比
Midjourney 的控制方式是"提示词 + 参数"——你用自然语言描述画面,然后用 --ar 16:9 --style raw --chaos 20 这类参数来精确控制。这套系统成熟、可控,但学习成本高,而且参数之间有复杂的交互关系。
GPT-Image-2 目前没有这么丰富的参数系统,控制几乎全靠自然语言。这是劣势,但也意味着门槛更低——你不需要记一堆参数,只需要把话说清楚。
我的判断是:GPT-Image-2 未来大概率也会走向参数化,但在那之前,结构化 Prompt 就是你手边最好的"穷人参数系统"。
趋势:从"写 Prompt"到"设计 Prompt 系统"
行业里一个明显的趋势是,Prompt Engineering 正在从"写一句好描述"变成"设计一套可复用的描述系统"。
早期大家玩 AI 生图,追求的是"这张图真好看"。现在越来越多的商业场景——电商、品牌、自媒体——需要的是"这一批图风格统一、质量稳定、可批量生产"。这不是单次灵感的问题,而是工程化流程的问题。
能做好单张图的人很多,能做好一百张一致性图的人很少。差距就在结构化思维上。
最后说一句
结构化 Prompt 不是为了消灭创意,而是为了让创意可控。当你不用再担心"这次出来会是什么鬼"的时候,你才能把精力真正放在"我想表达什么"上面。这才是工具应该做的事情——退到幕后,让创作者走到台前。