OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代,还没学会使用？OpenAI 出人意料地推出了 OpenA

OpenAI 出人意料地推出了 OpenAI o1 系列模型，没有提前的预告。根据官方技术博客的描述，o1 在推理方面达到了人工智能的顶尖水平。

OpenAI 的首席执行官 Sam Altman 指出：「OpenAI o1 标志着一个新的里程碑：AI 现在能够进行通用的复杂推理。」

这款新模型在处理复杂推理任务上取得了重大进展，展现了 AI 新的能力高度。因此，OpenAI 决定重新命名此系列为 OpenAI o1，并从新起点开始计数。

目前还不清楚这是否意味着 GPT-5 这个名称将不会使用。

新模型的特点概括如下：

OpenAI o1：具备强大的性能，适合处理多个领域的复杂推理任务。 OpenAI o1 mini：成本效益高，适合需要推理能力但不需要大量世界知识的应用场景。

目前，该模型已经全面发布，用户可以通过 ChatGPT 网页端或 API 来使用。

o1-preview 仍处于预览阶段，OpenAI 将继续开发更新的版本。当前使用时有一定的次数限制，o1-preview 每周限制为 30 条消息，o1-mini 每周限制为 50 条。

正如传闻中的「草莓」一样，这些新 AI 模型能够处理复杂的推理任务，并在科学、编程和数学等领域解决比以前更困难的问题。官方表示，如果你需要处理科学、编程、数学等领域的复杂问题，这些增强的推理功能将特别有用。

例如，医疗研究人员可以用它来注释细胞测序数据，物理学家可以用它来生成复杂的量子光学公式，开发人员可以用它来构建和执行多步骤的工作流程。

此外，OpenAI o1 系列在生成和调试复杂代码方面也很出色。

为了给开发人员提供更高效的解决方案，OpenAI 还推出了一款速度更快、成本更低的推理模型 OpenAI o1-mini，特别擅长编码。

作为更小的版本，o1-mini 的成本比 o1-preview 低 80%，是一个功能强大且高效的模型，适合需要推理但不需要广泛世界知识的应用场景。

在训练过程中，OpenAI 训练这些模型在回答问题前进行深入思考。o1 在回答问题前会形成一个内部的思维链，这使它能够进行更深入的推理。

通过训练，OpenAI o1 模型学会了完善自己的思考方式，并且随着更多的强化学习（训练时间计算）和更多的思考时间（测试时间计算），其性能持续提升。

OpenAI 研究员 @yubai01 也强调了 01 训练路线的重要性：

我们使用 RL 训练了一个更强大的推理模型。很高兴能参与这个过程，而且我们还有很长的路要走！

据测试，这款模型在物理、化学和生物等任务中表现得像博士生，特别是在数学和编程领域表现出色。

在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o 只解决了 13% 的问题，而新的推理模型得分高达 83%。在 Codeforces 编程竞赛中，它的表现进入了前 89% 的队列。

然而，与传闻中一样，作为一个早期版本，该模型还不具备一些 ChatGPT 的常用功能，如网页浏览和上传文件或图像等多模态能力。

相比之下，GPT-4o 在许多常见应用场景中可能更有优势。

为了确保新模型的安全，OpenAI 引入了一种新的安全训练方法。

在最严格的「越狱」测试中，GPT-4o 得分为 22（满分 100），而 o1-preview 模型得分为 84，在安全性方面遥遥领先。

从下周开始，ChatGPT Enterprise 和 Edu 用户也将能够访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型，但使用频率有所限制。

OpenAI 强调，未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限，尽管可能会有使用次数的限制。

关于新模型 o1 的更多细节，我们将在进一步体验后与大家分享。如果你有任何感兴趣的问题，请在评论区告诉我们。

尽管推理能力领先，但 OpenAI o1 仍然无法区分「9.11 和 9.8 哪个大」这样的问题。

官方还发布了更多 OpenAI o1 的演示视频。

例如，使用 OpenAI o1 编写一个寻找松鼠的网页游戏。游戏的目标是控制一只考拉躲避不断增加的草莓，并在 3 秒后找到出现的松鼠。

与传统的贪吃蛇游戏不同，这类游戏的逻辑更复杂，更考验 OpenAI o1 的逻辑推理能力。

或者，OpenAI o1 已经开始能够通过推理解决一些简单的物理问题。

演示中举了一个例子，一颗小草莓被放在一个普通的杯子里，杯子倒扣在桌子上，然后杯子被拿起，询问草莓会在哪里，并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

在实际应用中，OpenAI o1 还可以成为医生的得力助手，例如帮助医生整理和总结病例信息，甚至辅助诊断一些复杂的疾病。

量子物理学家马里奥•克莱恩（Mario Krenn）也向 OpenAI 的 o1 模型提出了一个关于特定量子算符应用的问题，结果，OpenAI o1 轻松应对。

「Strawberry」里有多少个「r」，GPT-4o 可能会回答错误，但 OpenAI o1 却能正确回答，这一点值得称赞。

然而，经过测试，OpenAI o1 仍然无法解决「9.11 和 9.8 哪个大」的经典问题，这是一个严重的缺点。

英伟达具身智能负责人 Jim Fan 对 OpenAI o1 的到来表示：

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿（强化学习教父）在《苦涩的教训》中所说，只有两种技术可以无限制地与计算规模化：学习和搜索。现在，是时候将重点转向后者了。

他认为，大模型中的许多参数用于记忆事实，这确实有助于在问答基准测试中获得高分，但如果将逻辑推理能力与知识（事实记忆）分开，使用一个小的「推理核心」来调用工具，如浏览器和代码验证器，这样可以减少预训练的计算量。

Jim Fan 也指出了 OpenAI o1 最强大的优势，即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说，如果模型给出了正确的答案，那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本，并且随着生成的训练数据越来越精细，模型的表现也会不断改善。这是一个通过自我博弈实现自我训练的内循环。

不过，网友的测试中也发现了一些问题，比如回复的时间变长了，尽管花了更长时间思考，但在一些问题上也会出现答非所问或输出不完整的情况。

赛博禅心猜测，这次的 o1 可能是 GPT-4o 进行了一些微调/对齐后的 agent，整体表现远低于预期。

Sam Altman 也承认 o1 仍然有缺陷，存在局限，在初次使用时可能给人留下深刻印象，但随着使用时间的增加，这种印象可能会减弱。

尽管如此，OpenAI o1 模型的整体表现仍然是值得肯定的。

现在，OpenAI o1 模型的发布可能是下半年 AI 模型竞争的催化剂，如果没有意外，接下来其他 AI 公司也将展示他们的新模型。

没错，我指的是 Anthropic、Meta AI、xAI 等老对手，以及一些潜在的 AI 黑马。

从 GPT-4 发布至今，OpenAI 每次模型更新的深层意义不仅仅在于性能的提升，而是提供了一种技术发展的标杆，引领人们探索未知的领域。

GPT-4 如此，OpenAI o1 也希望如此。

还不知道怎么订阅chatgpt4.0和最新的大模型，可以看这里：WildCard官方平台订阅chatgpt