前言

北京时间 5 月 14 日凌晨 1:00，OpenAI 开启网络直播产品发布会，介绍一些关于 ChatGPT 的升级内容，主要分为两部分内容，第一部分为发布全新旗舰模型 GPT-4o，第二部分为推出 桌面端 ChatGPT 应用。

GPT-4o

OpenAI 宣布推出 GPT-4o，这是 OpenAI 的新旗舰型号，可以实时跨音频、视觉和文本推理。

该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中，值得我们惊喜的是，GPT-4o 将免费提供给所有用户使用。

OpenAI 官网表示 GPT-4o（"o"代表"omni"，全能的意思，凸显其多功能的特性）是朝着更自然的人机交互迈出的一步，它接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像输出的任何组合。

OpenAI 一直致力于让用户通过语音与 ChatGPT 进行交流，GPT-4o 则采用了全新的技术，让聊天机器人对话的响应速度大幅提升。

GPT-4o 可以综合利用语音、文本和视觉信息进行推理，可以在最短的 232 毫秒内响应音频输入，平均 320 毫秒，这类似于对话中的人类响应时间。这意味着你可以与 GPT-4o 直接进行语音视频交流。

GPT-4 是 OpenAI 之前的旗舰模型，它可以处理由图像和文本混合而成的信息，并能完成诸如从图像中提取文字或描述图像内容等任务，而 GPT-4o 则在此基础上新增了语音处理能力。

它与 GPT-4 Turbo 在英语和代码文本上的性能相匹配，在非英语语言文本上有显著改进，同时在 API 方面也快得多，价格方面便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

Sam Altman 也在他的博客中表述了他对于 GPT-4o 的一些想法。

OpenAI 还发布了桌面版的 ChatGPT 和新的用户界面，首先向 Plus 用户推出 Mac 版 ChatGPT 应用，并在未来几周内向更广泛的用户开放，在今年晚些时候将会推出 Windows 版。

OpenAI 表示，用户可以将处于最小化窗口的 ChatGPT 桌面应用与其他程序并排打开。用户可以通过输入或语音的方式向 ChatGPT 提问屏幕上显示的内容，ChatGPT 则能根据其所见进行回答。

OpenAI 还表示，用户可以通过 Option + 空格键向 ChatGPT 提问，并且可以在应用内截取和讨论屏幕截图。

值得注意的是，新应用将同时向免费用户和付费用户开放，不过从即日起开始的测试阶段仅限于 ChatGPT Plus 用户，将在未来几周内向更广泛的用户开放。

关于 GPT-4o 更多的内容，大家可以去 OpenAI 官网去了解更多的详细信息。

值得我们深思的是，之前 OpenAI 发布新版 ChatGPT 模型时，我们都需要付费才能使用，这次 GPT-4o 将免费提供给所有用户使用，当然也可以选择付费来享受五倍的调用额度。