【本台报道】 近日,OpenAI推出的GPT Image 2在AI圈掀起了一场不小的风波。不少业内人士发现,这款看似简单的生图工具,背后可能藏着让人意想不到的"秘密武器"——疑似直接"吞"下了GPT-4o大模型。
一张图片,暴露关键信息
事情的起因源于一条看似不起眼的元数据。有技术人员对GPT Image 2生成的图片进行溯源分析时发现,在C2PA内容溯源标准记录的"actions_software_agent_name"一栏中,赫然写着"GPT-4o"。这一发现,让外界开始猜测:OpenAI是不是把GPT-4o直接塞进了生图模型里?
不是"美术课",而是"语文课"
传统AI生图模型,好比是让AI参加"美术课"——直接学怎么画像素、怎么调色。但GPT Image 2的做法完全不同。据相关技术分析,它更像是让AI上了"语文课"——先用GPT-4o这种能读会写的语言模型,把画面"理解"成一段语义描述,再由扩散模型负责"翻译"成像素。
也就是说,当你说"把第三行公司名改成团伙名"时,GPT Image 2不是在修图软件里改图层,而是在改写一段描述画面的"密文",解码后再输出成图。文字不再是画面的装饰,而是构成画面的一部分。
自学习,不用人教
更让人惊讶的是,OpenAI似乎已经不再需要人工标注数据了。GPT-4o本身就是全球顶尖的图像理解模型,它可以用自己的标注能力生成高质量数据,再喂给生图模型训练。这就形成了一个"数据飞轮":GPT-4o生成图→自己打分→合格的进训练集→模型变强→生成更好的图。
速度不降反升,效果却暴涨
按照常理,生图质量提升一级,速度通常会变慢。但GPT Image 2偏偏反其道而行——质量飞跃,速度却保持平稳。业内人士推测,这可能是"投机解码"等工程优化技术起了作用,把最耗时的语义规划工作从扩散模型手里"抢"了过来,交给了擅长快速推理的GPT-4o。
对话即创作,交互更自然
GPT Image 2还能与对话系统深度整合。用户可以在多轮聊天中逐步细化需求,比如先说"画只猫",再说"把猫变橙色",模型能结合上下文理解你的意图。这种交互方式,让AI生图不再是"一次性赌博",而是可以边聊边改的"共创过程"。
总结
OpenAI这次没有选择在扩散模型上"卷"技术,而是把图像生成就当语言问题来处理,把最擅长的地方用到极致。这或许预示着,AI领域的竞争,已经从"谁参数多"转向了"谁更懂世界"。
下一步,GPT Image 2会不会继续进化,成为真正理解世界的"世界模型",让我们拭目以待。