Hello,我是Niko。16年程序员老兵,专注分享 AI编程实战经验、宝藏工具资源、前沿技术动态。不玩套路,多讲干货。
最近 GPT-Image-2 爆火出圈,朋友圈和技术群里全是各种生成图。吉卜力风格头像、中文海报、游戏截图,什么都有人试。
火成这样是有原因的。之前 AI 生图有个公认的硬伤:不能带字。DALL-E 3 写英文标题都能拼错,碰上中文直接乱码。大家默认"AI 生图就别想带字"。
4 月 21 日 OpenAI 发布 GPT-Image-2,说这个问题解决了。
我第一反应:真的假的?试了之后发现,这次是真的。
发生了什么
4 月 21 日,GPT-Image-2 上线,OpenAI 管它叫"图像生成新纪元"。几个硬指标:
- 文字渲染精度 99%,字符级准确率,拉丁字母、中日韩、印地语、孟加拉语都覆盖了
- 第一个带推理能力的图像模型,集成了 O 系列推理管线,生成前会先琢磨构图
- 最高 4K(4096x4096),出图速度比前代快一倍
- 支持多轮编辑,改来改去上下文不丢
- API 已开放,模型名
gpt-image-2,单张 0.19
它替掉的是 DALL-E 3 和去年 12 月那个过渡版 GPT Image 1.5。
中文处理能力:这次是真的强
"99% 文字精度"这个数字我一开始不太信。AI 生图工具碰上中文,以前基本就是乱码制造机。
但社区实测出来的东西超出预期。
有人让它生成中文试卷。不是写两个字那种,是完整的卷头、选择题、填空题下划线、几何图形标注,宋体排版清清楚楚,乍一看以为是真卷子。还有人试书法,笔锋结构都过得去,不是之前那种鬼画符了。
更实用的方向:中文海报、产品图、社交媒体配图。以前你得开 Canva 或 PS 手动加字,现在一句提示词搞定。中文不变形、不缺笔画、不会莫名其妙冒出来几个偏旁部首。
我觉得这才是 GPT-Image-2 对中文用户最大的意义。不在画质提升多少,在于"能带字"这件事终于跑通了。做公众号的、做自媒体的、做产品的,之前有一整条工作流是断的,现在接上了。
提示词简化:不用再当"咒语工程师"了
用过 DALL-E 3 或 Midjourney 的人都知道,以前想出好图,提示词得写得像论文摘要。什么"cinematic lighting, 8K, ultra detailed, trending on ArtStation",一堆修饰词堆上去,少一个效果就差一截。
GPT-Image-2 这块变化很大。你给一句简单的描述,它自己会联想扩展。比如你说"一只猫坐在窗台上看雨",它会自动补上光影、景深、氛围这些细节,不需要你手动指定。
背后的原因是推理管线的加入。模型在生成图片之前会先"想"一遍:这个场景应该是什么光线?什么构图?什么风格?然后再动笔。相当于内置了一个懂美学的助手帮你把提示词补全了。
这对普通用户来说是个大利好。以前 AI 生图的门槛不在工具本身,在提示词。现在这个门槛基本被抹平了。你用大白话描述需求就行,不用研究什么"提示词工程"。
GPT-Image-2 vs Nano Banana 2:两条路线
说 GPT-Image-2 绕不开 Google 的 Nano Banana 2。今年 2 月发布的,也主打文字渲染和高质量输出。
两个放一起看,走的是不同路线:
GPT-Image-2 赢在文字和推理,尤其中文这块没对手。Nano Banana 2 赢在速度和角色一致性。
你要是做带大量中文的图——海报、信息图、产品截图——GPT-Image-2 目前最强。要快速批量出图,或者同一角色跨多张图保持统一,Nano Banana 2 更稳。
字节的 SeedDream 5.0 也值得留意,做中英双语优化的。但开放程度和社区生态跟前两家差一截,暂时还构不成正面竞争。
我的判断
GPT-Image-2 让 AI 生图从"能看"跨到了"能用"。
之前的瓶颈不在画质。Midjourney V8 的美感早就够商用了。卡住大家的是:生成的图不能带文字。一带就翻车。所以 AI 生图只能当"配图工具",做不了"成品图"。生成风景照没问题,做活动海报不行,标题铁定是乱的。
这个瓶颈现在破了。99% 文字精度加中文支持,几个直接能用的场景:
- 自媒体人一句话生成带标题的封面图
- 产品经理快速出高保真 UI 截图拿去汇报
- 独立开发者不找设计师也能做产品宣传物料
- PPT 配图直接连文字一起生成
推理能力的集成我特别在意。GPT-Image-2 出图前会先"想"怎么排版。你给一个复杂需求,比如"一张有 5 个指标的信息图",它先规划布局再画,不是硬往上堆。这对信息图、流程图、数据卡片这类结构化内容的质量提升很大。
速度方面还是比 Nano Banana 2 慢,复杂提示词可能等两分钟。纯粹比美感,Midjourney 还是领先。但如果只选一个"什么都能干"的生图工具,GPT-Image-2 现在是最全面的。
上手资源:提示词和仓库推荐
光说不练没意思。想体验的话,推荐一个提示词和一个仓库。 提示词 1 — 感受中文渲染精度:
帮我生成一份毛笔手写的出师表
这个提示词直接考验中文长文本渲染。出师表全文三百多字,笔画复杂,还要求毛笔书法风格。以前的 AI 生图工具碰到这种需求基本就是乱码。看看现在的 GPT-Image-2 能写到什么程度。
提示词 2 — 感受复杂场景 + 中文界面:
帮我生成一个以《黑神话:林冲》为主题的古代 ARPG MMO 开放世界游戏的截图。
这个提示词考验的不只是文字,还有复杂 UI 界面的生成能力:游戏标题、技能栏、地图标注、NPC 对话框,全都可能带中文。一句话能同时测试中文渲染、场景构图和风格理解。
提示词仓库:
awesome-gpt-image-2-prompts — 目前收录最全的 GPT-Image-2 提示词集合,56+ 案例,涵盖人像摄影、城市海报、角色设计、UI 模拟、对比测试。每个案例带成品图和完整提示词,拿来就用。
一句话总结
AI 生图终于能带中文了,而且带得很好。这不是画质升级,是使用场景的质变。 文中所有图片都是GPT-Image-2生成,怎么样?
参考资料: