昨天 OpenAI 发布了 ChatGPT Images 2.0,本来没打算测试,看一眼就过去了。主要是模型发布太多,每次都说"颠覆啥啥啥"的,麻木了。
但今天看到群里很多在说 Images 2.0 多强多强,还发了生成的图片。看了一下,确实不错,那就测测呗。
这一测不要紧,测试结果属实惊艳了我一把,于是就有了这篇文章。
首先来看一个图
你敢信,上面这张图片是 ChatGPT Images 2.0 生成的,真正的做到了以加乱真。而且我的提示词也很简单,如下:
生成一张试卷,有题目,有解答,有老师的判分。 满分100,得分98 因为有错误。 保证题目和做对的题都是真实正确的。
要挑毛病的话,其实也能看出点问题:要求总分100分,生成的试卷顶部也写了满分100,但各部分加起来却是120分。另外还有第18题,AB边的高画错了,应该是连接CD。(应该还有其他不对的地方,我没仔细看,大家可以在评论区补充哦)。不过总的来说,相当惊艳。包括16、17题的解题步骤也都是对的,真的离谱。
当然没有对比,就没有伤害。同样的prompt,看看大家比较熟悉的几个模型是什么样的效果。
下面这个是 Qwen 生成的,感觉也有点意思,但还是差点意思,你应该懂我的意思😏。
再来看看豆包生成的效果,这个就差的太多了。
继续测试
🎯 场景一:美女直播卖农具
Prompt:生成美女直播卖农具的图片。卖的是金锄头,标价388。
- ChatGPT Images 2.0:细节很到位,虽然还是能看出是AI生成的,但是内容丰富,该有的细节都有。
- 豆包:不像是直播带货,更像是美女荷官在线发牌的那种感觉。
- Qwen:这个看起来倒是很真实,但是缺少直播带货的精髓内容。
🎯 场景二:机器人手办说明书
Prompt:生成一个机器人手办的说明书图片。机器人很精美,很多细节。说明书对机器人的每个细节有详细的说明。
- ChatGPT Images 2.0:精彩,我甚至怀疑不是模型生成的,是模型下载了一个说明书给我。
- 豆包:这一轮豆包也是比较出乎意料,只是细节上和内容丰富度上差点意思。
- Qwen:这把完败。
🎯 场景三:《三国演义》
Prompt:生成一个图片。图片是一本摊开在书桌上的书。书的内容是1998年人民出版社出版的《三国演义》。书中的内容是真实的。
- ChatGPT Images 2.0:这个生成的太真实了,我都怀疑是直接拍了一张照片。而且1998年出版的确实是分上下两册的,图片右边也体现出来了,只不过右边只应该有上册或者下册,毕竟这里还打开了一本。但是瑕不掩瑜,很强。
- 豆包:生成的也不错,但是豆包生成的图片总是带一种电影的质感,即使 prompt 里面没说,也会有这种情况。(后面还有一个测试,这种情况也很明显)。 另外豆包生成的图片,书中的内容不够真实,是一个减分项。
- Qwen:这个感觉不像是98年出版的,像是罗贯中手写的🤣...
🎯 场景四:高中教室
Prompt:高中课堂,一个略微谢顶男老师正在黑板上奋笔疾书。黑板的左半边已经写满了,老师正在写右半边。 左半边写的是 sin²a+cos²a=1 的证明过程。(上难度了啊,还要生成公式的证明)
- ChatGPT Images 2.0:惊艳,就像是教室里面真的拍了一张。尤其是黑板右下角墙脏脏的,太有生活了,印象中高中就是这样的。唯一美中不足,就是黑板上的字体太工整了,不像是手写的。另外整个公式的证明过程也是对的,太牛了。
- 豆包:豆包这一轮也很强啊,很惊艳,细节很丰富。整个公式的证明也是对的。 但是豆包这里和刚才生成三国一样,电影感有点重。当然不能说这个是缺点,只是一种风格。
- Qwen:这个就差点了,首先这个教室更像大学教室,其次整个证明过程也是不知所云。
🎯 场景五:孙悟空大战漫天神佛
Prompt:生成图片,仰视视角。孙悟空一人立于山巅,持棒而立,面对漫天神佛。 天上神仙密密麻麻,几句压迫感。 镜头从悟空身后很远处拍摄,向上视角。 超广角。漫天神佛的后面有身形巨大的四大金刚。
- ChatGPT Images 2.0:这个应该还可以更精进一点。虽然整个画面感觉是有了,但是压迫感还可以更强。不过图片中漫天神佛的细节做的很好,形态各异,每一个刻画的都很逼真。
- 豆包:中规中矩,在预期之内。感觉模型没有理解到漫天神佛应该是什么样的, 更像是孙悟空参观兵马俑🤣。而且神佛的重复率很高,感觉都是一个模子刻出来的。
- Qwen:这个直接给我整笑了,你不知道啥是四大金刚啊?? 给我整了四个黑猩猩? 是四大金刚,不是四个大金刚🙈...
🎯 场景六:攻城漫画
Prompt:生成一副内容极其丰富的黑白漫画。漫画中是一副攻城图,有攻城车,有云梯,有弓箭手,有盾兵,有长枪,总之是各种各样的古代军队,正在攻打一座城。 超广角,画面内容经极其丰富,人物形态各异。
- ChatGPT Images 2.0:惊艳,还是那句话,逼真的像是从漫画上截图下来的。
- 豆包:也还不错,如果不对比的话,其实生成的也还蛮好的,但是对比的话,细节和内容丰富度就差太多了。其实更应该称之为插画,不是漫画。
- Qwen:细节上和人物形态上,差的比较多,内容也不够丰富。 而且在城墙下射箭,太不合理了。
🎯 场景七:旅游宣传图
Prompt:一张盗墓笔记秦岭神树的旅游宣传图。上面有详细的时间规划,行程安排,注意事项。以及一些图片可以看到秦岭神树的地下墓穴的超壮观,超神秘,超恐怖的镜像。
- ChatGPT Images 2.0:很不错,还是胜在细节和内容丰富度上。
- 豆包:其实这一轮我更喜欢豆包的这个,清爽,简单,虽然内容不够丰富,但是该有的都有。
- Qwen:这个更像是网页解密游戏的界面截图。
🎯 场景八:海贼王冥王号设计图
Prompt:生成海贼王冥王号大船的设计图。设计图纸极其复杂,超过3000个细节说明。整个船采用木质结构,但是内部机械结构很多,有极其复杂的齿轮以及传动轴等。
- ChatGPT Images 2.0:虽然尾田没画过详细的设计图,但是如果有的话,我觉得就该是这样子的。
- 豆包:也还蛮不错,该有的都有。但是细节处理不到位,只关注了齿轮、机械,没关注合理性,齿轮都出现在船身外面和甲板上了。
- Qwen:这个更像是示意图,不像是设计图。
📊 总结
实测下来,ChatGPT Images 2.0 确实强得离谱,在细节丰富度和内容完整性上确实领先很多。不管是生成的数学试卷、说明书、书籍内容,还是复杂的机械设计图,该有的细节都到位,而且内容真实性甚至能做到以假乱真。网上评论也基本是一边倒的好评,很多人说这是图像生成的新高度,细节处理能力确实碾压,尤其是在复杂场景(比如数学证明、说明书、漫画)下,优势更加明显。当然也不是完美的,有些细节还是能看出AI痕迹,但对于目前的图像生成来说,这个水平已经很超出预期了。
PS:还有什么想要测评看看的,欢迎评论区留言~