1、OpenAI推出GPT-4o,最强大模型再次易主,GPT4将免费开放使用
O代表OmniModel,就是全能模型的意思。我们看到官网上对于这个O的解释,这一次发布的GPT-4o是一个兼备实时音频、视频、图像、文本处理功能的全能助手。
添加图片注释,不超过 140 字(可选)
2、实时语音。GPT-4o可以在232毫秒的时间内响应音频输入,和人接近。
语音还加入了人性化交互,让沟通更加真实。
在现场,OpenAI的工程师拿出一个iPhone,他对手机说:“我第一次来直播的发布会,有点紧张。”ChatGPT说:“要不你深呼吸一下。”然后他深呼吸了一下,AI马上说:“你这不行,喘得声音也太大了。”
3、超级老师。
现场演示给GPT看一些代码和图表,都能对答如流,解释的头头是道。
这样一来,以后就不用结对编程了,GPT就是你的编程老师,有问题随时给你指点。
以后也不用盯着做作业了,有问题问AI,马上能够得到解答,最重要的是问什么样的问题,AI都会无比耐心,而且24小时全程待命,可以预见这个对于后续职场培训和学校教育的场景会产生巨大的影响
4、复杂场景应用。
现在的很多工具要么侧重于音频,要么侧重于视频,要么侧重于文本,但是GPT-4o这次真正做到了综合复杂场景的输入输出。
你可以跟一张图片进行对话。怎么说呢,例如你打开冰箱,拍张照片,直接跟AI说:“这顿饭可以做什么?”然后它就可以给你输出一个按照冰箱里的菜而出的菜谱,整个交互非常丝滑。但是你想啊,在刚才这个简单的流程中,有语音输入、图片输入,还有菜谱的文本输出。
5、桌面端发布
这个更加方便了经常使用电脑的上班族,会让使用体验更加友好。