OpenAI 发布 GPT-4o！如何访问OpenAI GPT-4o？GPT-4o比GPT 是否更好？OpenAI 在春

OpenAI 在春季更新中刚刚宣布了一个名为 GPT-4o（“o”代表“omni”）的新模型。该模型适用于所有类别的用户，包括免费用户和付费用户。这是 OpenAI 朝着可自由访问和可用的人工智能迈出的一大步。

GPT 4o 提供 GPT 级别的智能，但音频、图像和文本输入的速度要快得多

该模型侧重于理解语气并提供实时音频和视觉体验。与 GPT-4 Turbo 相比， 它的速度提高了 2 倍，成本降低了 50% ，速率限制提高了5 倍。

他们的新语音助手证明了这种体验。该演示进行了现场直播，供用户观看和了解所有新进展。

如何访问OpenAI GPT-4o？

GPT-4o 已向所有 ChatGPT 用户开放，包括免费计划的用户。此前，GPT-4 类模型的访问权限仅限于每月付费订阅的个人。

GPT-4o 到底比之前的 GPT 迭代更好在哪里？

在 GPT-4o 之前，语音模式可用于与 ChatGPT 对话，平均延迟为2.8 秒 (GPT-3.5) 和5.4 秒 (GPT-4) 。三个独立模型的管道：将音频转录为文本、接受文本输入并提供文本输出的中央 GPT 模型，以及最后将文本转换回音频的模型。

这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

GPT-4o 是一个单一的端到端模型，通过文本、视觉和音频数据进行训练。即所有输入都由单个神经网络处理。这是他们开发的第一个包罗万象的模型，因此 GPT-4o 的功能仅仅触及了表面。

评估和能力

该模型根据传统行业基准进行评估。 GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

该模型还实现了一个新的分词器，可以跨语言系列提供更好的压缩。

OpenAI 在其发布博客中通过许多不同的示例详细解释了模型功能。

研究人员还讨论了该模型的局限性以及模型的安全性。

我们认识到 GPT-4o 的音频模式带来了各种新的风险。今天，我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里，我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如，在发布时，音频输出将仅限于选择预设的声音，并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。

开放人工智能

人工智能公司不断寻求增强的计算能力。之前的语音交互模型，是转录、智能、文本转语音三种模型结合在一起提供语音模式。然而，这带来了高延迟，破坏了沉浸式体验。但使用 GPT 4o，这一切都可以通过语音调制和最小延迟无缝地、本机地进行。对于所有用户来说，这确实是一个令人难以置信的工具！

点击获取虚拟卡，可开通ChatGPTPLSU支持微信支付宝支付充值，即开即用

了解更多AI与跨境知识可点击博客查看