糟了,OpenAI再推旗舰GPT-4o,又有行业即将被颠覆

161 阅读4分钟

OpenAI 推出全新旗舰 AI 模型 GPT-4o:免费且功能强大

2024年5月14日凌晨:OpenAI 发布了其最新的旗舰生成式 AI 模型 GPT-4o。这一模型不仅将在未来几周内逐步集成至 OpenAI 的各个产品之中,而且将免费提供给所有用户使用。

功能提升,体验升级

OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 在公司总部举行的主题演讲中宣布,GPT-4o 将提供与 GPT-4 同等水平的智能,同时在文本、图像以及语音处理方面取得了显著提升。GPT-4o 能够综合利用语音、文本和视觉信息进行推理,这标志着 AI 技术在多模态交互方面迈出了重要一步。

语音交互,流畅自然

GPT-4o 的最大亮点在于其语音交互模式的革新。OpenAI 一直致力于提升用户通过语音与 ChatGPT 交流的体验。GPT-4o 采用了全新的技术,显著提升了聊天机器人的响应速度,使得语音对话更加流畅自然。在发布会上的演示中,GPT-4o 展示了其即时回应问题的能力,并通过文本转语音功能朗读,让对话感觉更加逼真。

语气调整,声音可塑

GPT-4o 还展示了其根据要求调整说话语气的能力。它可以根据指令改变声音,从夸张戏剧到冰冷机械,展现了出色的可塑性。这一功能不仅增强了 AI 的交互性,也为用户提供了更加个性化的体验。

唱歌功能,娱乐性增强

此外,GPT-4o 还具备了唱歌功能,这进一步丰富了 AI 的娱乐性和互动性。

GPT-4o 测试数据成绩

GPT-4o 具备在一个神经网络中处理文本、视频和音频三种数据格式的先进能力。

  • 语音响应速度:根据 OpenAI 官网的评测数据,GPT-4o 的语音响应时间极短,最短可达 232 毫秒,平均响应时间为 320 毫秒。

  • 文本和代码能力:GPT-4o 在英语文本和代码处理方面的能力与 GPT-4 Turbo 相当。

  • MMLU 评测:GPT-4o 在 MMLU 的评测中取得了 88.7% 的高分,刷新了记录,超越了包括 Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0 在内的其他著名大型模型。

  • 音频 ASR 性能:GPT-4o 的音频自动语音识别(ASR)性能相较于 Whisper-v3 显著提升,尤其是在对小语种的语音识别方面,同时在音频翻译能力上也超越了谷歌的 Gemini。

  • 文本和图像功能:GPT-4o 的文本和图像功能已经在 ChatGPT 中开放使用,即使是免费注册的用户也能体验到这些功能。

免费开放,付费用户福利

与以往不同,GPT-4o 将免费提供给所有用户,而付费用户则可以享受更多的调用额度。这一策略无疑将吸引更多的用户尝试并使用这一先进的 AI 模型。(免费用户达到数量之后,会自动跳回GPT-3.5)

新界面,新体验

为了配合 GPT-4o 的发布,OpenAI 还发布了桌面版的 GPT 和新的用户界面。穆拉蒂表示,他们希望用户与人工智能模型的交互体验能够更加自然、轻松,让用户可以将注意力完全集中在与模型的协作上。

结语

GPT-4o 的发布,不仅是 OpenAI 技术进步的体现,也是 AI 领域多模态交互发展的重要里程碑。随着 GPT-4o 的免费开放,我们有理由期待它将为用户带来更加丰富和便捷的智能体验。

未来几周内,OpenAI会在ChatGPT Plus中推出新版语音模式GPT-4o的alpha版。让我们期待一下更强的Her出现吧。

最后

如果你也对RPA机器人开发和AI感兴趣的话,千万记得要加我 alu666128,发送RPA学习,我会拉你进 RPA+AI交流群,一起交流。

我是阿陆,前大厂在线教育后端高级开发,3年全栈开发经验。

聚焦RPA + AI落地应用,让重复变得简单