拆解 awesome-gpt-image-2-prompts:一份 GPT-Image-2 的社区实战提示词样本

0 阅读12分钟

项目是什么

EvoLinkAI/awesome-gpt-image-2-prompts 是一个 GitHub 上的 awesome-list 类型仓库,收录了 GPT-Image-2(OpenAI 新一代图像生成模型,社区中也曾以代号 "duct-tape-1"、"duct-tape-2" 出现在 LMArena 上)的高质量提示词与对应输出案例。仓库目前约 360+ Star,主语言标记为 Python(实际内容是 Markdown 文档加 JSON 索引),采用 CC BY 4.0 许可证。

它的定位很明确——不是教程,不是 SDK,不是封装层,而是一份样本集:把 X/Twitter 上创作者们公开分享的提示词整理归档,按场景分类,配上原始链接和作者署名,方便后来者直接复用或拆解学习。

仓库目录主要分为五个大类:

  • 人像与摄影案例(8 个)

  • 海报与插画案例(9 个)

  • 角色设计案例(6 个)

  • UI 与社交媒体截图案例(8 个)

  • 模型对比与社区案例(21 个)

总计约 50 个案例,所有提示词都附带原始 X 链接和作者 ID,可以追溯来源。仓库还提供 gpt_image_2_prompt.json 作为结构化索引,方便程序化抓取。多语言 README 覆盖英语、简中、繁中、日、韩、德、法、西、葡、俄、土耳其语共 11 种语言。

这个仓库的技术价值在哪里

直接说——awesome-list 类项目本身没什么"代码"可读。这个仓库的价值不在工程结构,而在它作为提示词样本数据集所暴露出来的几个技术规律。把里面的提示词放在一起对比,能看出 GPT-Image-2 这一代模型相较于 DALL·E 3 / GPT-Image-1 的几个能力跃迁,以及对应的提示词写法变化。

下面挑几个有代表性的案例展开讲。

案例一:长描述符堆叠的真实摄影风格

人像分类下 @BubbleBrain 的"35mm 闪光灯时尚人像"提示词是个典型样本。完整提示词大约 350 个英文单词,结构是单一长句,靠逗号串联属性短语:

35mm color film photography with harsh direct on-camera flash, 
specular highlights on skin and clothing, strong catchlights in eyes, 
high contrast flash illumination, authentic film grain and color shift, 
high fashion fresh innocent basketball court editorial style, 
intimate first-person low-angle POV shot from below, 
early 20s sexy Chinese female idol with ultra-realistic delicate refined Chinese features,
...(中略)...
no plastic skin, no digital over-sharpening, no airbrushing, 
no blemishes, no moles, no oily skin, no watermark, no text, 
authentic 35mm direct flash film basketball court look --ar 9:16

值得注意的几个技术点:

摄影器材作为风格锚点。提示词开头不写"realistic photo",而是直接写 35mm color film photography with harsh direct on-camera flash。这是借具体胶片规格和闪光灯类型来约束渲染方向,比抽象形容词更稳定。仓库里多个真实人像案例都遵循这个模式——Kodak Portra 400 film simulationCCD hard flash stylesubtle film grainvisible flash fall-off,都是把摄影术语当 token 用。

否定词集中在末尾no plastic skin, no digital over-sharpening, no airbrushing 这种 negative 列表放在 prompt 末尾。GPT-Image-2 不像 SD 那样有独立的 negative prompt 字段,因此社区做法是把否定项作为常规 token 写入主 prompt,靠模型对 "no X" 短语的语义理解去抑制。从输出效果看是有效的。

--ar 9:16 参数化尾缀。这是 Midjourney 风格的写法。在 OpenAI 官方接口里实际生效的是 size 参数(比如 1024x1792),但社区习惯把 --ar 9:16 直接写进 prompt——模型会把它当作语义提示去靠拢比例,配合 API 的 size 字段协同生效。 output.jpg

案例二:单提示词出 UI 设计

@austinit 那条案例的提示词极其短——核心就一句话主张:用一个 prompt 直出 UI 设计图,不满意再继续编辑或以同样风格渲染其他页面。

这背后体现的是 GPT-Image-2 的两个新能力:

精确文字渲染。前代 DALL·E 3 在 UI 截图里渲染按钮文字、菜单、标签时经常出错,字符变形、错位、拼写错乱是常态。GPT-Image-2 在文字层面有显著提升,能在一张 UI mockup 里同时渲染 20+ 个清晰的英文字符串。仓库的 duct-tape-1 文字渲染展示 案例(@kawai_design)就是专门测这一点。

风格一致性@austinit 提到"以同样风格渲染其他页面",对应的是 OpenAI 在 GPT-Image-2 里强化的 multi-image consistency 能力。同一会话里的后续生成会延续前一张图的色彩、布局、组件库风格。这对于做 UI 提案、图标集、漫画分镜这类需要同款多张的场景很关键。

仓库另一条 @chetaslua 的"木制书架"测试题就更直接:

A wooden bookshelf consisting of three shelves: 
On the top shelf, there should be one book, 
on the second shelf, there should be three books, 
on the bottom shelf, there should be seven books.

这个 prompt 的考点是数量约束——1/3/7 三层书架。作者在原帖里提到 Nano Banana Pro、Nano Banana 2、GPT-Image-1.5 三次尝试都没解决,GPT-Image-2 一次过。这是个很干净的能力测试样本:模型要正确理解层级关系 + 离散计数 + 空间位置三个约束的组合。 output (1).jpg

案例三:中文提示词的复合结构

@liyue_ai 的"2026 广州春季城市海报"是中文长 prompt 的代表,结构上比英文案例更模块化:

一张充满新春喜庆氛围但不失高雅格调的 2026 城市宣传海报。
双重曝光,构图延续了S型的流动感;
在纯白的纹理背景右下角,一个身穿中国传统服饰的微缩人物正在挥舞着
一条长长的红色丝绸舞带,这条红绸在空中舞动,不仅展现出丝绸的柔顺质感,
更在向左上方飘动的过程中,奇幻地变形成了一条壮丽的山脉河流。
在这条"河流"中,叠加了一个有山有海河的广州城市手绘图,国潮,
景色尽在眼底,壮阔雄伟,令人震撼。
广州的地标建筑(广州塔,珠江新城建筑群,珠江, 广州城里古建筑,游轮,白云山)。
云雾环绕,仙气缥缈,色彩丰富,结构复杂,细节丰富,但因为大面积的留白,
画面依然显得清新脱俗,左下角排版着"SPRING 2026"和竖排的宣传语,
整体寓意"千年商都,魅力广州"文字排版优美,大方,字迹清晰完整,尺寸9:16。

中文提示词的结构特征:

分号断句、段落组织。和英文案例的"逗号长句"不同,中文 prompt 倾向于用分号和换行把不同维度的描述切开——氛围、构图技法、主体元素、地标列表、色彩与留白、文字内容、画幅,每段一个主题。这种写法对模型的中文理解有帮助,也方便人类调试时局部替换。

指定文字内容用引号左下角排版着"SPRING 2026"整体寓意"千年商都,魅力广州"——把希望出现在画面里的具体字符用引号括起来,这是一个稳定的提示词约定。GPT-Image-2 对这种"引号即字面量"的处理较为可靠。

模糊修饰词的密度控制。"国潮"、"仙气缥缈"、"清新脱俗"这类高度文化语境的词,模型理解依赖训练数据。社区经验是:单独用没问题,但密度过高会失控,需要配合具体名词锚定(比如这里就用"广州塔、珠江新城、白云山"做了实体锚点)。 output (2).jpg

案例四:角色设定卡——结构化输出在图像里

@iamrednightS 的 Persona5 角色设定卡 prompt 给了一个有意思的范式:

基于此角色和背景,请制作一份类似官方设定资料的角色资料卡。
・包含三视图:正面、侧面和背面
・添加角色面部表情的变化
・分解并展示服装和装备的详细部分
・添加色板
・包含世界观设定的简要说明
・总体上,使用有组织的布局(白色背景,插画风格)
高分辨率、专业概念艺术风格

这个 prompt 实际上是在让模型在单张画面里完成多区域的版面布局——三视图、表情差分、装备拆解、色板、文字说明,相当于把一张设定卡 PDF 的多个 section 全塞到一张图上。

DALL·E 3 时代这种 prompt 几乎必然失败,会被简化成单一角色立绘。GPT-Image-2 能接住这种结构化指令,是因为它在版面理解上有了实质性的进步。仓库里 @yyu_hase 做了一个四模型横评——GPT-Image-2、Nano Banana Pro、Seedream 5.0 light、Grok(byHiggs)——同样的角色设定卡需求下,作者结论是"GPT-Image-2 完整度最高,小物和材质感都有解说"。

这件事的工程意义在于:带版面结构的图像生成正在成为可能,UI mockup、信息图、产品介绍页、漫画分镜这类原本必须用 Figma + Canvas 拼出来的内容,现在可以从一句自然语言开始迭代。 output (3).jpg

案例五:以参考图为画布的"导演式"提示词

@samifox_ai@HuliJason 提到一种新用法:

Mark actions and camera moves right on a reference frame → 10x more context and near-total control in one shot

意思是不再用纯文字 prompt 描述,而是直接在参考图上画箭头、写标注,把这张被涂改过的图作为输入交给 GPT-Image-2。模型会读懂图上的箭头、文字标记、相机运动符号,按这些标注去生成。

这种交互模式在 ControlNet/IPAdapter 里早有类似思路(用涂鸦或 pose skeleton 做条件),但对自然语言图像模型来说是个新形态:把"涂鸦标注"当作多模态 prompt 的一部分。这条目录条目本身没贴具体提示词文本,但展示的工作流是值得记录的——它意味着提示词工程的边界正在从"写好文字"扩展到"画好控制图"。

案例六:模型对比里暴露的局限

仓库不全是吹捧。@desds1678 的对比案例里就提到:

本身 GPT Image 都有主体同背景光线强度不一嘅问题,而家仲要整到个主体嘅头、身、脚嘅比例好奇怪😮,我会用灾难级嚟形容 GPT Image 2 嘅表现

这条案例放在仓库的"模型对比"分类里,没有被过滤掉。这是 awesome-list 类项目里相对少见的诚实——保留了负面对比样本。从这条以及 @old_pgmrs_will 的多次横评来看,GPT-Image-2 当前的稳定问题包括:

  • 复杂场景下的人体比例失真(头身比、手脚位置)

  • 主体与背景的光照不一致

  • 一致性参考时偶发的细节漂移

这些问题对应到工程实践里就是:生产环境用 GPT-Image-2 必须配合多次采样和人工筛选,不能指望单次出图直接交付。

仓库的几个使用建议

把这个仓库当资料库用,有几个实际操作思路。

按 case 类型反向搜原帖。每个案例都附 X 原链接,原帖里通常有更多变体输出和作者的调试备注。仓库给的是"成品 prompt",原帖给的是"调试过程",后者信息密度更高。

关注 gpt_image_2_prompt.json。仓库专门维护这个文件作为 prompt-only 索引,结构化字段方便程序读取。如果想做自己的 prompt 数据集或者做 RAG 检索,从这里入手比解析 Markdown 简单得多。

注意 README 顶部的链接性质。仓库 README 顶部的几个 badge 链接("Try it on Evolink"、"Website"、"Docs"、"Dataset")都指向 Evolink 自己的产品页,带有 utm 跟踪参数。这是仓库维护方 EvoLinkAI 的产品入口——客观说这是项目的商业落点,使用者知道这一点就好,不影响仓库本身作为提示词样本集的参考价值。OpenAI 官方 API 的文档和定价应该直接查 OpenAI 自己的 platform 文档,不要从这里跳。

留意时间戳。GPT-Image-2 仍在持续迭代,仓库里有些案例标注的是 "duct-tape-1"、"duct-tape-2" 这类内部代号时期的输出。同样的 prompt 在不同版本的模型上行为可能不一样,对照测试时要把这点考虑进去。

小结

awesome-gpt-image-2-prompts 不是一个"用了就能变强"的工具仓库,而是一份社区一线创作者的提示词样本。它的真实用法是:

  1. 拆解高完成度提示词的结构,理解 GPT-Image-2 在长描述符、否定词、文字渲染、版面控制上的边界

  2. 通过模型对比案例(GPT-Image-2 vs Nano Banana 2 / Seedream / MAI-Image / Grok)建立对当前生图模型生态的横向认知

  3. 把里面的 prompt 当作 baseline,针对自己的场景做迭代修改

对正在做图像生成相关产品、做 prompt engineering 研究、或者只是想看看别人怎么写 prompt 的开发者来说,这是一份值得 clone 下来翻一翻的资料。提示词工程仍处在"靠样本积累"的阶段,多看几百条优质 prompt 比读十篇方法论更有用——这个仓库提供的就是这样一批样本。


项目地址github.com/EvoLinkAI/a… 许可证:CC BY 4.0 主要内容:约 50 个分类整理的 GPT-Image-2 提示词案例,附原始作者署名与 X 链接