作为AI模型**聚合平台库拉KULAAI(c.kulaai.cn)**的长期用户,最近把GPT-Image-2和Midjourney V7放在一起跑了横向对比。前者4月21日刚发布,后者去年4月进入alpha测试后持续迭代至今。两个模型几乎代表了当前图像生成的两条技术主线,值得认真拆一拆。
架构层面:单次推理 vs 扩散去噪
GPT-Image-2不再基于GPT-4o的图像pipeline,研究负责人Boyuan Chen将其定义为"GPT for images"——一个从头设计的独立系统。核心变化是从两阶段生成转向单次推理。过去的模型是"先听懂你说什么,再动手画",中间有一次信息压缩;GPT-Image-2是"边理解边画",语言理解和图像生成在同一过程中完成。
这带来一个直接的技术后果:生成每个像素时,模型仍然"知道"自己在写什么字。加上Thinking模式——落笔前先规划构图,生成后检查输出,发现错误还会迭代修正——anti gamble创始人@damianplayer的拆解是"reasoning mid-generation——plans the composition, checks its own output"。
Midjourney V7走的还是扩散模型路线,核心升级集中在语义理解力和细节一致性上。V7支持更复杂的长提示词,甚至开始支持中文输入。在手部、手指、身体部位和各类物体的连贯性上做了显著改善。
简单说:GPT-Image-2的优势在信息密度和结构化输出,Midjourney V7的优势在视觉美学和纹理细节。
文字渲染:差距最大的维度
这是两者拉开身位的地方。
GPT-Image-2把文字渲染准确率从90-95%拉到约99%。VentureBeat的Carl Franzen让模型生成三大帝国历史地图,附完整图例,评价是"seemingly flawlessly"。TechCrunch的Amanda Silberling让模型生成一份墨西哥餐厅菜单——两年前DALL-E 3拼不对"enchilada",这次的输出"可以直接放进餐厅使用,客人不会察觉任何异样"。
中文表现更让人意外。实测生成一张广州小学数学试卷,卷头标题、填空题下划线、几何图形标注,宋体楷体排版全被精准还原。甚至传统书法真迹、泛黄报纸这类高难度排版,也能做到严丝合缝。
Midjourney V7在文字渲染上依然没有根本性突破。社区实测中,V7的文字生成功能被评价为"完全失败"。V6时代把招牌写成乱码是常态,V7在短文本场景下有所改善,但面对复杂中文排版仍然力不从心。
对商业场景来说,这个差距意味着:需要精确文字的海报、菜单、UI截图、品牌物料,GPT-Image-2可以直接交付;Midjourney V7仍然需要人工修正文字部分。
视觉美学:Midjourney V7的传统强项
Midjourney被设计师公认为"审美标杆",这个优势在V7上依然稳固。
V7在人物肤色和面部细节上表现更为清晰,材质纹理的呈现也更为精细。场景理解能力增强,能更好地理解空间关系。内测阶段网友反馈:画面细腻感、解析力大幅提升,伪影大幅减少。就连时尚杂志VOGUE的封面,V7都可以一键生成,气场十足。
50组多风格提示词的实测中,V7展现了从印象派到日系动漫、从木刻版画到Art Nouveau的广泛风格覆盖。网友@IterIntellectus用V7生成的"五条悟"与原作几乎无异。Alain Astruc在长文中将Midjourney比作"一只具有独特魅力的猫,带着几分任性、优雅,甚至是不可预测的灵动"。
GPT-Image-2在纯视觉创意上也不差,但训练数据明显偏向真实世界的视觉素材——UI截图、店面招牌、界面布局。当你要求还原英雄联盟团战画面,它不只画了峡谷地形,还连血条、技能特效、小地图UI框一并到位。这种偏向让它在商业生产场景中更强,但在纯艺术创作的"味道"上,Midjourney V7仍然更胜一筹。
用社区里一个比喻:Midjourney是单反,GPT-Image-2是智能手机。两者定位不同,但未来融合或成关键。
交互体验:V7的草稿模式是个杀手锏
Midjourney V7最重磅的新功能是草稿模式(Draft Mode)。4-5秒生成4张图,成本只有标准模式的一半。更关键的是支持语音对话生成图像——你可以边说边改,实时调整画面内容。
比如你先说"生成一张猫咪吃草莓的图",几秒后图片自动生成。再告诉它"把猫换成猫头鹰",它立刻理解并生成新图。整个过程无需手打字,配合十倍生成速度,真的是"想什么来什么"。
GPT-Image-2的多轮编辑功能同样支持对话式调整,但侧重点不同——它更擅长在精确度上迭代,比如"把标题字号调大""把配色换成蓝色系"这种生产级调整。V7的草稿模式更偏向创意探索阶段的快速试错。
个性化与风格控制:各有所长
Midjourney V7首次默认启用模型个性化功能,用户需花费约5分钟完成200组图片的偏好选择,模型据此学习你的审美。这个功能让生成结果更贴合个人风格,告别"抽签式出图"。
GPT-Image-2的个性化更多体现在对上下文的理解上。多轮编辑中,模型会记住你之前的调整偏好,角色一致性被反复验证——从一张自拍生成三页漫画,角色在多页间保持一致。美妆博主@jameygannon用一条prompt生成了完整的品牌kit——logo、配色、排版、多页应用。它的控制力不靠参数,靠对话。
一个绕不开的问题
GPT-Image-2越强,一个现实越刺眼。Jake Handy在发布日指出:让GPT-Image-2成为最好生产力工具的那组能力——精确的文字渲染、可信的UI布局、真实世界的视觉词汇——恰好也是制造虚假信息的完美工具集。假UI截图、假终端画面、假聊天记录,"every one of those is dense text laid over a known visual vocabulary, which is the exact workload OpenAI optimized for"。
过去的模型因为文字太烂,反而天然带有一层"防伪标记"。GPT-Image-2把这层屏障拆掉了。OpenAI的C2PA元数据水印被产品负责人Adele Li自己承认"is not a silver bullet"。
Midjourney V7在这方面相对安全。它的输出带有明显的艺术风格痕迹,天然不容易被当成真实素材。
趋势判断
从产业视角看,GPT-Image-2标志着AI图像生成从"creative novelty"进入"production infrastructure"阶段。Midjourney V7代表了"创意表达"路线。短期内两者不会互相取代。
但StartupFortune也提醒了一句:"benchmark performance and production performance often diverge"。99%是实验室数字,真实世界的多语言、多字体、多排版场景能不能扛住,5月API开放后才会有定论。
对开发者来说,模型迭代速度太快,今天的王者明天未必还是。能同时接入多个模型、方便横向对比的工具链,比押注单点选择更务实。工具会越来越强,但方向永远由人把控。