OpenAI 发布 GPT-4o!如何访问OpenAI GPT-4o?GPT-4o比GPT 是否更好?

179 阅读3分钟

OpenAI 在春季更新中刚刚宣布了一个名为 GPT-4o(“o”代表“o​​mni”)的新模型。该模型适用于所有类别的用户,包括免费用户和付费用户。这是 OpenAI 朝着可自由访问和可用的人工智能迈出的一大步。

image.png GPT 4o 提供 GPT 级别的智能,但音频、图像和文本输入的速度要快得多

该模型侧重于理解语气并提供实时音频和视觉体验。与 GPT-4 Turbo 相比, 它的速度提高了 2 倍,成本降低了 50% ,速率限制提高了5 倍。

他们的新语音助手证明了这种体验。该演示进行了现场直播,供用户观看和了解所有新进展。

如何访问OpenAI GPT-4o?

GPT-4o 已向所有 ChatGPT 用户开放,包括免费计划的用户。此前,GPT-4 类模型的访问权限仅限于每月付费订阅的个人。

点击获取虚拟卡,可开通ChatGPTPLSU支持微信支付宝支付充值,即开即用

image.png

GPT-4o 到底比之前的 GPT 迭代更好在哪里?

在 GPT-4o 之前,语音模式可用于与 ChatGPT 对话,平均延迟为2.8 秒 (GPT-3.5)5.4 秒 (GPT-4) 。三个独立模型的管道:将音频转录为文本、接受文本输入并提供文本输出的中央 GPT 模型,以及最后将文本转换回音频的模型。

这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

GPT-4o 是一个单一的端到端模型,通过文本、视觉和音频数据进行训练。即所有输入都由单个神经网络处理。这是他们开发的第一个包罗万象的模型,因此 GPT-4o 的功能仅仅触及了表面。

评估和能力

该模型根据传统行业基准进行评估。 GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。

image.png 该模型还实现了一个新的分词器,可以跨语言系列提供更好的压缩。

image.png

OpenAI 在其发布博客中通过许多不同的示例详细解释了模型功能。

image.png

 研究人员还讨论了该模型的局限性以及模型的安全性。

我们认识到 GPT-4o 的音频模式带来了各种新的风险。今天,我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。

开放人工智能

人工智能公司不断寻求增强的计算能力。之前的语音交互模型,是转录、智能、文本转语音三种模型结合在一起提供语音模式。然而,这带来了高延迟,破坏了沉浸式体验。但使用 GPT 4o,这一切都可以通过语音调制和最小延迟无缝地、本机地进行。对于所有用户来说,这确实是一个令人难以置信的工具!

点击获取虚拟卡,可开通ChatGPTPLSU支持微信支付宝支付充值,即开即用

了解更多AI与跨境知识可点击博客查看