新版GPT-4o多模态生图上线!从文本到图像更新(文末附使用方式)

366 阅读9分钟

2025年3月26日凌晨两点,OpenAI再次掀起人工智能领域的热潮,正式发布了GPT-4o的多模态生图功能!

这一功能的推出,不仅标志着GPT-4o在多模态能力上的全面升级,也为用户带来了前所未有的创意自由和交互体验。从文本生成到图像创作,GPT-4o以其卓越的性能和创新的技术原理,开启了AI创作的新时代。

简单来说,就是一句话或者一张图,就能让GPT-4o帮你生成超逼真图片!

实际用例

来看看实际效果。

1、提示词要求:

在俯瞰海湾大桥的房间里,用手机拍摄了一张玻璃白板的大幅照片。视野中,一位女性正在写字,她穿着一件印有大型OpenAI标志的T恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。白板上有一些具体文字要求(此处省略)

对于Pro用户,用GPT-4o模型图片生成的效果有点惊艳,有点高级,尤其是白板中摄影师的倒影:

试用了一下,对于免费用户来说,目前还是DALL.E生成模型,如下,提示词中摄影师还无法显示出来,人物轮廓呈现效果略模糊,玻璃白板直接是用玻璃替代了:

2、提示词要求:

摄影师转过身来向他击掌时的自拍照

对于Pro用户,用GPT-4o模型图片生成的图片可以清晰看见白板中两人击掌的倒影。

对于免费用户,用DALL.E模型生成的图片视角会比较远角,自拍人的手臂处理的还有待提高,人物的一致性比较差,白板在这个视角下倒是可以清晰显示出来了。

模型改进的功能

GPT-4o的图像输出“思考”时间比其有效替代的图像生成模型DALL-E 3稍长一些,这使得OpenAI能够生成更准确、更详细的图像。GPT-4o不仅可以编辑现有的图像,包括有人物的图像,还能对其进行转换或“修复”前景和背景中的对象等细节。

OpenAI在在线图像和文本的联合分布上训练了GPT-4o模型,使其不仅学习了图像与语言的关系,还学习了它们之间的相互关系。结合积极的后训练,最终得到的模型具有令人惊讶的视觉流畅性,能够生成有用、一致且具有上下文感知能力的图像。

1、文本渲染

“一张图片胜过千言万语”,但有时在恰当的位置添加几个文字,就能进一步提升图像的意义。GPT-4o将精确的符号与图像融合的能力,使图像生成成为一种强有力的视觉交流工具。以下是使用模型生成的路标、菜单、邀请函:

一句话老照片上色,只要你提出需求,就可以生成。

一句话修改图片

一句话做成鸟瞰图

2、多轮生成

由于图像生成已成为GPT-4o的原生功能,用户可以通过自然对话来逐步优化图像。GPT-4o能够在聊天环境中同步构建图像和文本,确保二者始终保持一致性。例如,如果用户正在设计一个视频游戏角色,那么可以在不断改进和尝试的过程中,角色的外观会在多次迭代中保持连贯性。

在这个功能中,Openai举了一个例子,第一轮对话中要求模型生成“在精美的信纸上写一首诗”(左下图),第二轮对话要求“在设计师的房间里展示这张卡片,并且卡片靠近相机“(右下图),可以看出前后信纸在迭代中保持了一致性。

3、精准把控细节

GPT-4o会严格按照用户给出的详细提示来生成图像,并且很注重细节。相比其他系统,GPT-4o能处理更多的对象。其他系统在生成图像时,一般只能同时处理大约5到8个对象(比如一个场景里有5到8个不同的东西),而GPT-4o可以处理多达10到20个不同的对象,这意味着它能生成更复杂、元素更多的图像。

GPT-4o对对象的特征和关系有更紧密的绑定,它能更好地理解每个对象的特性(比如颜色、形状、大小等)以及这些对象之间的关系(比如位置、相互作用等)。因为这种紧密绑定,用户在使用GPT-4o生成图像时,能够更精确地控制图像的内容,让生成的图像更符合自己的要求。

4、情境学习

GPT-4o能够分析并学习用户上传的图像,并将其细节无缝融入上下文中,从而为图像生成提供参考。

看下面的列子,第一轮用户给出了几张参考图,要求模型画一个三角形轮子的车,第二轮提示词要求以纽约市为背景,两次输出保持了一贯性。

现阶段,GPT-4o取得了许多进步,但它仍然存在一些问题,其中包括:

  • 裁剪问题:像海报这样的较大图像可能会被过度裁剪;
  • 非拉丁字符的文本准确性:某些非英语字符可能无法正确呈现;
  • 小字体中的细节保留:小字号文本的细节可能会丢失或不够清晰;
  • 编辑精确度:修改图像的特定部分时,可能会意外影响其他元素。

OpenAI表示,正在通过持续的模型改进积极解决这些问题。

怎么才能用上最新版 GPT-4o?

目前,可以确定的渠道是付费的 OpenAI 的 Plus、Pro 和 Team 用户。

但是海外使用有点困难,所以整理了一些其他的方式,小伙伴们可以尝试使用,接触一下4o生图的功能。

千言万语其实不如你自己实际体验一下,快来领会一下科技的魅力。

一些使用4o的方式

1、OpenAI官网

没错,如果有能力还是直接去官网使用,体验相当nice。

就是价格稍微贵,需要20美刀,不过这个价格打包市面上OpenAI对话模型、视频、图片、语音给你使用。我觉得也合理。毕竟免费才是最贵的。

使用地址:chatgpt.com/

2、爱发电

国内大佬主要做解决GPT4o和Claude使用的公益服务网站,但是最近因为项目经常被攻击,目前采用订阅方式使用,感兴趣的可以自己去了解。本来是公益的,现在限制了一下防止攻击,需要订阅了。

公益网址我这边没去赞助,没拿到喔,想了解自己去看看吧!

使用地址:afdian.com/a/warmo

3、工作区-Salck

大佬通过OpenAI官网的API在Slack配置的一个应用。 加入他的Slack工作区就能直接使用GPT-4o、Gemini模型。而且工作区里面还有Claude3.7系列模型可以使用。目前Slack可以在电脑、手机、网页使用,可以说是很方便了。

注意,加入工作区一般需要使用国际邮箱,用微软的outlook邮箱就好了。首次加入需特殊环境(需自行准备) 。加入完进入工作区在频道@GPT4应用即可。 工作区加入链接:h5ma.cn/jxn

4、模型竞技场

进入竞技场后点击DIRCTChat,然后选择4o模型就好。

需要注意的是,模型竞技场有些时候会因为没有次数额度下架4o模型使用。你可以去试试看,如果没有的该模型选项的话,晚会再进去试试。

注:首次进入稍微卡,需要等待一会。

使用地址:h5ma.cn/lpi

5、chatshare

国内最大的镜像站之一,主要提供OpenAI和Claude的镜像服务。目前账号充足,采用自购账号和API方式接入官网服务。运行时间长,可靠稳定。

注册后需使用激活码订阅,订阅完成即可使用。具体不多说,需要的可自行了解。

使用地址:chatshare.biz

激活码获取:h5ma.cn/chatjhm

6、Poe

一个海外AI模型聚合平台,提供各种各样的模型体验。市面上热门的Claude3.5、Claude3 Opus、GPT4o、Gemini基本都涵盖了。

但是限制次数,免费用户每天有3000积分,每日重置一次,对于4o模型来说,每次对话消耗200积分,也就是每天可以免费对话15次。尝个鲜还是不错的。当然次数用量大,可以换号薅~ 使用地址:poe.com/

7、Sider插件

Sider是一款浏览器插件,你可以在Edge浏览器和Chrome浏览器中安装它。

接入ChatGPT官方提供的付费稳定版API,为用户提供无需科学上网、稳定快速的服务。目前支持GPT4、Claude3、Claude3.5-16k等等,可在国内使用。

可以帮助我们进行更正语法、改写内容、扩充内容和生成广告脚本。它支持在任何网站上使用,并提供摘要文章、解释代码等功能。

使用地址:sider.ai/invited?c=c…

8、Aichatru

俄罗斯的一个网站,可以使用4o和o1模型,但是模型应该是有次数限制的,具体多少忘记了,各位小伙伴可以自己测试。如果次数受限,可以配合大神开发的油猴脚本突破这个使用限制。

使用地址:aichatru.ru

脚本地址:greasyfork.org/zh-CN/scrip…

注意安装脚本前必须浏览器有油猴插件

没有可前往油猴插件官网安装:首页 | Tampermonkey

如果可以,希望小伙伴们点赞和收藏,这是我的更新动力!

如果可以,希望小伙伴们点赞和收藏,这是我的更新动力!