AI模型聚合平台推荐|库拉 ly.kulaai.cn
GPT-Image-2上线一周,评论区最多的反馈是:"我知道它很强,但Prompt到底怎么写才能出好图?"今天不聊架构不聊趋势,就聊实操——五个我跑了三百多张图之后总结出来的Prompt技巧,直接拿去用。
先纠正一个误区:Prompt越长越好
很多人写Prompt有一种"堆砌焦虑",觉得关键词越多效果越好。一个Prompt写三四百字,恨不得把每个像素都描述清楚。
GPT-Image-2恰恰相反。它的文本理解能力比上一代强太多,你用自然语言说清楚想要什么就行,不需要像写代码一样精确。
我的实测结论:50到120字的Prompt是最佳区间。 太短信息不够,太长模型反而容易抓不住重点,把注意力分散到次要细节上。
技巧一:先说主体,再说环境
Prompt的结构很重要。我发现最有效的顺序是:主体→动作→环境→风格→细节。
反面案例:
一张暖色调的、有自然光的、日系风格的、构图居中的、背景虚化的,一个女孩在喝咖啡的照片
正面案例:
一个穿米色毛衣的女孩,双手捧着一杯拿铁,坐在靠窗的位置。日系胶片风格,暖色调自然光从左侧照入,背景轻微虚化
区别在哪?反面案例把风格描述堆在前面,模型先处理了一堆抽象概念,最后才看到主体。正面案例先让模型建立"谁在哪做什么"的基本画面,再逐步叠加风格信息。结果就是正面案例的构图更稳定,主体更突出。
技巧二:用"视角"替代"参数"
很多人喜欢在Prompt里写技术参数:f/1.8、85mm镜头、ISO 200。这些词对传统摄影Prompt有用,但GPT-Image-2对自然语言的响应更好。
与其写"85mm镜头,f/1.8光圈",不如写"特写人像,背景有奶油般的虚化效果"。
与其写"广角镜头,24mm焦距",不如写"从低角度仰拍,画面有很强的纵深感,近处的物体大远处的物体小"。
模型理解的是视觉概念,不是摄影术语。你用描述画面效果的方式告诉它想要什么,比用技术参数精确控制更有效。
技巧三:中文Prompt不一定比英文差
这是GPT-Image-2最大的变化之一。之前的模型,中文Prompt出图质量普遍不如英文,大家习惯了先写中文再翻译成英文。
GPT-Image-2的多语言能力大幅提升,中文Prompt的出图质量已经很接近英文了。尤其是涉及中文文字渲染的场景——做海报、Banner、公众号封面——直接用中文写Prompt反而更好,因为模型对中文语境的理解更准确。
实测对比:同一组Prompt分别用中英文写,出图的整体质量差距在5%以内,但涉及文字排版的场景,中文Prompt的准确率高出20%以上。
技巧四:负面描述比正面描述更有效
"不要出现文字"比"画面干净"更有效。 "人物不要看镜头"比"自然的表情"更有效。 "背景不要太复杂"比"简洁的背景"更有效。
这是一个反直觉的发现。通常我们觉得正面描述更清晰,但GPT-Image-2对否定指令的遵循度非常高。当你想排除某个元素时,直接说"不要什么"比绕着弯描述"要什么"更精准。
当然,不是说所有描述都要用否定句。关键细节用正面描述,排除干扰用负面描述,两者结合效果最好。
技巧五:善用"风格锚定"
如果你对某张图的整体感觉满意,想在这个基础上做变化,可以用风格锚定的写法:
保持上一张图的整体色调和构图,把主体换成一辆复古摩托车
参考这张图的光影风格,重新画一个海边日落的场景
GPT-Image-2的上下文记忆能力很强,在同一个对话里引用之前的图片风格,模型能很好地保持一致性。这对于需要批量出图的场景特别有用——先确定一个满意的基调,然后在这个基调上做变体。
一个完整的Prompt模板
最后分享一个我常用的模板,覆盖大多数场景:
[主体描述] + [动作/状态] + [环境/场景] + [光影/色调] + [风格定义] + [特殊要求]
实际例子:
一只橘色的猫蜷缩在书架上,旁边放着一副眼镜。书房环境,下午的阳光从百叶窗缝隙照进来形成条纹光影。水彩插画风格,整体偏暖色调,画面右下角留白放文字
这种结构的好处是信息层次清晰,模型处理起来不容易遗漏。你可以根据实际需求增减模块,但主体和环境永远是必填项。
Prompt工程不是玄学,是有规律可循的。GPT-Image-2降低了对Prompt精确度的要求,但并没有消除Prompt质量对结果的影响。掌握这几个技巧,至少能让你的出图效率翻倍。
有自己总结的Prompt技巧,评论区分享一下。