OpenAI 推出全新旗舰 AI 模型 GPT-4o：免费且功能强大

2024年5月14日凌晨：OpenAI 发布了其最新的旗舰生成式 AI 模型 GPT-4o。这一模型不仅将在未来几周内逐步集成至 OpenAI 的各个产品之中，而且将免费提供给所有用户使用。

功能提升，体验升级

OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 在公司总部举行的主题演讲中宣布，GPT-4o 将提供与 GPT-4 同等水平的智能，同时在文本、图像以及语音处理方面取得了显著提升。GPT-4o 能够综合利用语音、文本和视觉信息进行推理，这标志着 AI 技术在多模态交互方面迈出了重要一步。

语音交互，流畅自然

GPT-4o 的最大亮点在于其语音交互模式的革新。OpenAI 一直致力于提升用户通过语音与 ChatGPT 交流的体验。GPT-4o 采用了全新的技术，显著提升了聊天机器人的响应速度，使得语音对话更加流畅自然。在发布会上的演示中，GPT-4o 展示了其即时回应问题的能力，并通过文本转语音功能朗读，让对话感觉更加逼真。

语气调整，声音可塑

GPT-4o 还展示了其根据要求调整说话语气的能力。它可以根据指令改变声音，从夸张戏剧到冰冷机械，展现了出色的可塑性。这一功能不仅增强了 AI 的交互性，也为用户提供了更加个性化的体验。

唱歌功能，娱乐性增强

此外，GPT-4o 还具备了唱歌功能，这进一步丰富了 AI 的娱乐性和互动性。

GPT-4o 测试数据成绩

GPT-4o 具备在一个神经网络中处理文本、视频和音频三种数据格式的先进能力。

语音响应速度：根据 OpenAI 官网的评测数据，GPT-4o 的语音响应时间极短，最短可达 232 毫秒，平均响应时间为 320 毫秒。
文本和代码能力：GPT-4o 在英语文本和代码处理方面的能力与 GPT-4 Turbo 相当。
MMLU 评测：GPT-4o 在 MMLU 的评测中取得了 88.7% 的高分，刷新了记录，超越了包括 Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0 在内的其他著名大型模型。
音频 ASR 性能：GPT-4o 的音频自动语音识别（ASR）性能相较于 Whisper-v3 显著提升，尤其是在对小语种的语音识别方面，同时在音频翻译能力上也超越了谷歌的 Gemini。
文本和图像功能：GPT-4o 的文本和图像功能已经在 ChatGPT 中开放使用，即使是免费注册的用户也能体验到这些功能。

免费开放，付费用户福利

与以往不同，GPT-4o 将免费提供给所有用户，而付费用户则可以享受更多的调用额度。这一策略无疑将吸引更多的用户尝试并使用这一先进的 AI 模型。（免费用户达到数量之后，会自动跳回GPT-3.5）

新界面，新体验

为了配合 GPT-4o 的发布，OpenAI 还发布了桌面版的 GPT 和新的用户界面。穆拉蒂表示，他们希望用户与人工智能模型的交互体验能够更加自然、轻松，让用户可以将注意力完全集中在与模型的协作上。

结语

GPT-4o 的发布，不仅是 OpenAI 技术进步的体现，也是 AI 领域多模态交互发展的重要里程碑。随着 GPT-4o 的免费开放，我们有理由期待它将为用户带来更加丰富和便捷的智能体验。

未来几周内，OpenAI会在ChatGPT Plus中推出新版语音模式GPT-4o的alpha版。让我们期待一下更强的Her出现吧。

最后

如果你也对RPA机器人开发和AI感兴趣的话，千万记得要加我 alu666128,发送RPA学习，我会拉你进 RPA+AI交流群，一起交流。

我是阿陆，前大厂在线教育后端高级开发，3年全栈开发经验。

聚焦RPA + AI落地应用，让重复变得简单

糟了，OpenAI再推旗舰GPT-4o，又有行业即将被颠覆