在库拉KULAAI(t.kulaai.cn)这样的AI工具聚合平台上,GPT-Image-2的使用教程帖数量最近翻了几倍。但翻一圈下来会发现,大部分教程都在教"怎么写提示词",很少有人系统梳理"哪些写法其实是错的"。
写好一段描述,本质上是在跟模型做一次精准沟通。你说得越清楚,它出图越接近你想要的结果。但问题是,很多人以为自己说清楚了,实际上全是歧义。
一、最常见的错误:把AI当人
GPT-Image-2最大的卖点是"能听懂自然语言",这让很多人产生了一个误解——既然它懂自然语言,那我随便说就行。
事实上,GPT-Image-2对语言的理解方式和人类有本质区别。它没有生活经验,没有文化背景,也不会"心领神会"。
举个例子。你写"一个温馨的客厅",人类脑海里会自动补全暖色灯光、布艺沙发、茶几上的咖啡杯。但GPT-Image-2拿到的只是"温馨"和"客厅"两个词,它的理解可能是一间空荡荡的房间配上暖色调滤镜。
实操建议: 把每一个你认为"理所当然"的细节都写出来。你觉得不需要说的,恰恰是最需要说的。
二、描述的结构比词汇更重要
很多人纠结于用什么形容词,却忽略了描述的组织结构。GPT-Image-2对描述的解析是有优先级的——主体在前,修饰在后,风格放最后。
一个反面案例:"赛博朋克风格的,蓝色霓虹灯下的,一个穿黑色皮夹克的女人站在雨中的东京街头。"
这个描述的问题在于,模型需要先理解"赛博朋克风格"和"蓝色霓虹灯",才能处理后面的核心画面。信息的倒置会导致模型在分配注意力时出现偏差,最终输出的构图可能把重点放在氛围渲染上,而忽略了人物的细节。
优化后的写法: "一个穿黑色皮夹克的女人站在雨中的东京街头,蓝色霓虹灯映射在湿漉漉的地面上,赛博朋克风格。"
同样的信息,只是调换了顺序,输出质量会有明显差异。这不是玄学,而是模型注意力机制的工作原理决定的。
三、否定式描述几乎没用
"不要出现红色""不要有文字""背景不要太复杂"——这类否定式描述在GPT-Image-2上的效果极差。
原因很直接:模型在处理否定词时,往往会忽略"不要"而只关注后面的关键词。你说"不要有文字",它反而可能生成一张满是文字的图,因为它把注意力分配给了"文字"这个概念。
解决方案很简单:用肯定式替代否定式。
"不要有文字"改成"纯视觉画面,无任何文字元素"效果会好一些,但更稳妥的做法是直接描述你想要的画面:"干净的背景,只有主体人物和自然景观。"
对比来看, Midjourney在处理否定式描述时的表现同样不佳,但Stable Diffusion配合负面提示词(negative prompt)可以更精准地排除不想要的元素。这是GPT-Image-2目前的一个结构性短板。
四、数值和数量描述的陷阱
"三只猫""五个人""两棵树"——涉及数量的描述,GPT-Image-2的准确率会大幅下降。
在实际测试中,当提示词中的对象数量超过两个时,模型经常出现多生成或少生成的情况。你说"三只猫",它可能给你两只或四只。你说"五个人围坐在桌前",人数和构图经常会走样。
这不是GPT-Image-2独有的问题,目前所有图像生成模型在精确计数上都表现不佳。但GPT-Image-2的优势在于它支持多轮对话修正——你可以在第一轮结果的基础上指出"少了一只猫,请补上",模型通常能做出有效调整。
趋势判断: 精确计数和空间关系是下一代图像模型的核心攻关方向。OpenAI在GPT-Image-2的论文中已经提到了相关改进,但完全解决可能还需要一到两代产品的迭代。
五、风格描述的颗粒度问题
"油画风格"和"厚涂笔触的后印象派油画风格,类似梵高的星空系列"——这两个描述之间的差距,不是多几个字的问题,而是模型输出质量的天壤之别。
GPT-Image-2对风格的理解依赖于训练数据中的视觉关联。你说"油画风格",它只能从海量油画作品中取一个平均值,结果往往平庸无特色。但如果你给出具体的风格参照、笔触特征和色彩倾向,模型就有了更精确的锚点。
一个实用技巧: 用"材质+技法+参照"的三段式来描述风格。比如"水彩质感,湿画法,大面积留白,类似中国水墨画的意境"。这种描述方式能显著提升风格还原度。
不过需要注意,过于小众的风格参照可能会让模型"懵掉"。如果一个风格在训练数据中出现频率很低,模型大概率会回退到一个相近但不完全匹配的风格上。
六、别忽略画面的技术参数
很多人只关注"画什么",不关注"怎么画"。但GPT-Image-2对技术参数的响应非常敏感。
"电影级构图""浅景深""黄金时刻的自然光""85mm镜头视角"——这些摄影术语在提示词中的加入,会直接改变画面的光影关系、焦平面分布和整体质感。
如果你不确定该用什么参数,一个简单的原则是:想想这张图如果是真实拍摄的,你会用什么相机设置? 把这个设置翻译成描述语言加进去,效果通常不会差。
与Midjourney对比, GPT-Image-2对摄影术语的理解更依赖语境而非参数化指令。Midjourney可以直接用"--ar 16:9"这样的参数控制宽高比,GPT-Image-2目前还只能通过自然语言描述来间接实现。这是一个体验上的差距,但随着API的完善,预计很快会补上。
七、迭代思维比一次成型更重要
最后一个建议,也是最容易被忽略的:不要试图在一段描述里塞进所有信息。
GPT-Image-2支持对话式交互,这意味着你可以像导演一样,先给出大框架,再逐轮细化。第一轮确定构图和主体,第二轮调整色调和光影,第三轮补充细节和质感。
这种迭代式工作流比一次性写一段超长提示词更高效,也更容易控制输出方向。很多专业用户已经在用这种方式工作,而不是指望一次命中。
写在最后
GPT-Image-2的提示词优化,说到底是一个"把你的视觉意图翻译成模型能理解的语言"的过程。翻译的质量决定了输出的质量。
常见的错误——否定式描述、模糊的风格词、忽视技术参数、把AI当人沟通——这些问题看似琐碎,但每一个都会在最终结果上被放大。
写提示词不是文学创作,是工程沟通。越精确,越好。