知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸,狠狠打脸。
谷歌Gemini发布会上,需要靠剪辑视频和切换提示词才能达成的“伪实时”对话效果,OpenAI现场全都直播演示了。
比如让ChatGPT在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。
01:24
或者在对话的同时通过摄像头感知周围环境。
01:11
正如奥特曼在发布会前所说,GPT-4o让人感觉像魔法一样,那么它是如何做到的呢?
非常抱歉,这次非但没有论文,连技术报告也不发了,只在官网Blog里有一段简短的说明。
在GPT-4o之前,ChatGPT语音模式由三个独立模型组成,语音转文本→GPT3.5/GPT-4→文本转语音。
我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。
这样一来,整个系统的延迟足足有2.8秒(GPT-3.5)和5.4秒(GPT-4),而且丢失了大量的信息,它无法直接感受音调、多个说话者或背景噪音,也无法输出笑声、唱歌声,或表达情感。
GPT-4o则是跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理。
在语音翻译任务上,强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。
在视觉理解上,也再次反超Gemini 1.0 Ultra与对家Claude Opus
在直播现场,CTO Murati穆姐说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。
在场外,研究员William Fedus揭秘,GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一,im-also-a-good-gpt2-chatbot。
无论从网友上手体验还是竞技场排位来看,都是高于GPT-4-Turbo级别的模型了,ELO分数一骑绝尘。
而这样的超强模型也将提供API,价格打5折,速度提高一倍,单位时间调用次数足足三原来的5倍!
虽然技术方面这次透露的消息就这么多了,不过也有学者评价。
一个成功的演示相当于1000篇论文。
One More Thing
除了OpenAI带来的精彩内容之外,也别忘了北京时间5月15日凌晨,谷歌将召开I/O大会。
到时量子位将继续第一时间带来最新消息。
另外根据网友推测,GPT-4o这么强,全都免费开放了,这是劝大家不续订ChatGPT Plus了的意思吗?
那肯定不是啊~
鉴于OpenAI春节期间在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把,明天OpenAI还有新活也说不定呢?