科技春晚--OpenAI春季发布会

759 阅读5分钟

前言

2024年北京时间5月14号凌晨1点,OpenAI在美国加州旧金山举办了他们的春季更新发布会。让我们看看都发生了什么?

新模型GPT-4O

OpenAI发布了他们的新模型GPT-4o,o是omni的意思,代表“全能”。GPT-4o提供GPT4同样的智能水平,但是在文本、视频和音频方面提高了能力,GPT-4o能跨越语音、文本和视觉进行推理,GPT-4o的API比GPT-Turbo快2倍,便宜一半,最高输入量提高5倍。

image.png

这里OpenAI演示了与GPT进行对话时的情感变化和GPT的反应,我们可以看到的是GPT现在已经可以实时对话了,不用再像之前一样,有短暂的2-3秒的延迟,这里的延迟官方描述是可以在最短的 232 毫秒内响应音频输入,平均 320 毫秒,这类似于对话中的人类响应时间。这意味着你可以与 GPT-4o 直接进行语音视频交流。而另一方面GPT的语音现在是有情感变化的,她会变得兴奋变得惊讶,变成电影《her》里面的那个她,不再是没有感情的语调。 image.png

这里是通过镜头对一个线性方程进行求解的演示,主要展现的就是实时推理的功能。

image.png

这里是OpenAI发布的桌面版的GPT应用,所以现在你可以在手机,网页,也可以在你的电脑里装一个GPT的应用软件。图中演示的是我们将电脑桌面共享给GPT然后对代码进行提问的情况。

image.png

这里是对我们电脑中的图片共享给GPT后他可以对这个图像进行数据分析,比如说问他这个曲线的最大值在哪里?在演示中GPT都给出了令人满意的答案。

image.png

这里演示的是通过GPT-4o进行实时翻译的过程,图中的男嘉宾用英语与女嘉宾用意大利语进行沟通,GPT在中间做实时翻译,整个过程还是相当流畅。以后你将不再需要翻译机,而且是手机中的GPT。

image.png

最后一个演示是嘉宾实时视频与GPT分享自己的心情,要求GPT通过自己的表情对他的情绪进行判断,男嘉宾打开视频并对着镜头微笑,GPT也做出了自己的判断,说他看起来很开心。

image.png

奥特曼对GPT-4O看法

GPT-4o

在我们今天的公告中,我想强调两件事。

首先,我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。 

当我们创办 OpenAI 时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。 

我们是一家企业,会发现很多东西需要收费,这将有助于我们向(希望如此)数十亿人提供免费、出色的人工智能服务。 

其次,新的语音(和视频)模式是我用过的最好的计算机界面。感觉就像电影里的人工智能一样;我仍然有点惊讶它是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化。

最初的 ChatGPT 暗示了语言界面的可能性;这个新事物感觉本质上是不同的。它快速、智能、有趣、自然且有帮助。

对我来说,与电脑交谈从来都不是很自然的事。现在确实如此。当我们添加(可选)个性化、访问您的信息、代表您采取行动的能力等等时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。

最后,非常感谢团队为实现这一目标付出了巨大的努力!

总结

昨天看完发布会的感觉就是意犹未尽,我不禁惊讶于发布会的戛然而止,也遗憾于为什么不是奥特曼来主持发布,我以为还有更多的惊喜在后面,当然GPT-4o有一定的惊喜,我喜欢他的反应速度,我喜欢他的多模态能力,说实话,看完发布会我打破了我的一个观点,我以前以为多模态是生文,生图,生成视频三位一体的形态,而今天OpenAI告诉我们真正的多模态是将GPT这样的人工智能真正融入到我们生活中,他可以在文字,音频,实时摄像头的视频中真正的理解我们的世界,真正去解决我们的实践问题,而且实时响应反应的就像一个没有肉体的智能人,像水一样流动在这个世界中,成为像电一样的公共设施。而不是只是一个生成东西的工具。

期待不久之后的“big thing”,AI的道路你我同行,共勉!Heterocat