ChatGPT 的新模型中文能力,太牛了!
刚吃完晚饭,突然看到猹友晒图,说自己被 GPT-imagev2 灰度到了,效果特别强。
特别是中文文字能力。
生成的图里中文一个字都没有糊,字体、版式都是正确。
要知道OpenAI 上一代图片模型 GPT Image 1.5 发布的时候。
中文是公认的不行。
我自己实测下来也非常拉胯,中文生成效果非常糟糕。
要么缺笔画,要么字体鬼畜,要么干脆画成了"类汉字"符号。
所以这次 GPT-imagev2 灰度的消息一出来,我第一反应就是去试试运气。
想不到,我真有资格(确定不羡慕我?🐶)。
先说结论:中文,这次是真的没短板了。
案例一:论文转教授板书
提示词:arxiv.org/abs/2602.16… 把这篇论文转换成教授板书照片的样子:包含图表、箭头、方框和说明文字,从视觉上阐释核心思想。同时笔迹使用多种颜色。文字使用中文。
可以看到这张图信息量非常大,整块白板上全是中文手写笔记,密密麻麻!
关键是中文手写字一个都没错,连"模型参数"这些很不起眼的文字都写对了,看了两遍,没有一个错别字。
案例二:牛肉面分解图
提示词:一份牛肉面的分解图,以垂直展开视图呈现。采用超详细的商业食品摄影风格。顶部显示漂浮的红辣椒油在空中飞溅,油滴和辣椒片在运动中被定格,鲜红色,光泽质感,戏剧性的灯光效果。下面,香菜叶和新鲜大蒜芽悬浮着,鲜绿色,脆嫩,充满生机。下一层是红烧牛肉片,质地嫩滑,表面多汁,呈丰富的棕色,略有光泽,悬浮在空中。再下面是手工拉制的面条,以动态的飞行动作卷曲,表面光滑,呈现出真实的小麦质感。面条下面是一碗透明的牛肉清汤,汤色金黄,里面有小块牛肉和香草,蒸汽缓缓上升。所有食材以优雅的垂直堆叠方式悬浮,每层分开。最底部显示完成的牛肉面碗,浓郁的汤底,面条浸没其中,上面有辣椒油、牛肉片、香菜和大蒜芽。黑色背景,边缘照明,产品海报风格,高清晰度,高对比度,戏剧性的工作室灯光。标签和数字整齐地排列在每层旁边,用中文和英文标注。整体美学:高端食品广告,干净,光泽,高端,3D般的真实感。
"红辣椒油""手工拉面""牛肉清汤",中英双语标签在每一层食材旁边规规矩矩排列,中文字号和英文字号的层级关系都处理得很到位。
食品摄影的质感也拉满了,妥妥商业海报的水准。
案例三:中药材科普图解(山药)
请为我生成一张极度复杂的"中药材全景科普图解"。核心要求:信息密度要极高,模仿《DK百科全书》的视觉风格,不要留大面积空白。题材:山药。画面布局:中央C位:极高精度的药材饮片(如切片或干果),质感要像照片一样真实。四周填满:不要留白!用各种分镜图填满画面。左侧:画出原植物的整株素描,以及显微镜下的局部纹理放大图(圆圈视窗)。右侧:画出炮制过程(如:采摘->清洗->晾晒的流程图),以及对应的功效图标(五味、归经)。底部:画出现代应用形态,包括药粉堆、胶囊瓶、密封袋、煎煮好的药汤。连接元素:使用大量的引线、箭头、括号将所有元素串联起来,形成一个严谨的知识网络。文字与标注:画面中要有大量的中文注释。主标题用书法字体写药名枸杞。每一个小部件都要有引线标注(模拟解剖图),让画面看起来非常硬核、专业。风格:复古米色纸张背景,科学插画风格,线条细腻。
信息密度是真的顶。
"山药"两个毛笔字大标题,旁边的小注"薯蓣科薯蓣属",加上"植物形态""饮片特征""炮制""微观结构""性味归经""主要成分""药理作用""现代应用""使用注意""古籍记载"十几个分区,引线标注密密麻麻。
真就像百科全书上撕下来的一页。
同样的提示词换成"陈皮",质感依然稳定。
案例四:世界读书日海报
提示词:清新春日为主题,采用 3D卡通渲染风格。画面中心是一本打开的书,书页上长出嫩绿的叶子,书放置在一个类似小岛的平台上。小岛上有书店元素(如书架、书本陈列)、绿植(小树、花、小建筑(带有喜马拉雅标识)朵),周围环绕着湖水和荷叶,背景是蓝天白云和起伏的绿色山丘。文字内容:海报顶部有"微信读书"小标识;主标题为"世界读书日",副标题为"遇见更好的自己",底部左侧有手写体"每本好书都是一条长河,带我们游历世间美好文案,右侧"上微信读书423,4/10-4/30开启春日读书计划"信息。底部信息呈现在一个有曲线的绿色渐变色块上面:整体色彩以清新的蓝绿色系为主色调,搭配明亮的橙色、黄色等,营造出活泼、充满生机的春日氛围。
再来看生成海报的效果,确实很美。
依旧是所有中文字全部正确,而且字体调性和主题也很搭!
案例五:游戏IP联名海报
提示词:制作一个原神,黑神话悟空,王者荣耀的联名活动海报
这段的提示词非常简单,但它还是给我做成非常大气的海报的样子。
案例六:手写情书
提示词:生成图片,扩写成一篇给发小的情书,保持本子大小不变
这个文字确实还可以,唯一的缺点就是它没有按照图一的格式走,而是直接在最顶格开始写的。
比较有意思的是后面的落款:"永远喜欢你的发小",日期"2024年9月17日",末尾还认真补了一个"P.S."。
之前聊 GPT Image 1.5 的时候我吐槽过一句:中文生成效果非常糟糕。
现在这句话可以划掉了。
GPT-imagev2 这次把中文这块短板补得很狠,几乎是从「不好用」直接跳到了「能当生产力工具用」的程度。
尤其是在海报、图解、手写模拟这几个场景,基本和 Nano Banana Pro没有区别了,甚至给我一种错觉,它的中文能力比NanoBanana Pro还有顶!
最后说个八卦。
就在昨晚,网上已经有消息说 GPT-6 和 Claude Opus 4.7 会在明天凌晨同时发布。
那看来这波灰度的 GPT-imagev2,大概率会和 GPT-6 同时发布
一晚上掏出一个顶配语言模型 + 一个中文能力封神的生图模型,OpenAI 这次是真憋了个大的。
今晚不睡了,一起蹲一手!