OpenAI发布o1大模型,o1相比GPT-4o再次有了巨大提升

150 阅读2分钟

在官方的测试中,下一个模型更新在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。他们的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。

image.png 适合对象如果您正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。例如,医疗研究人员可以使用o1来注释细胞测序数据,物理学家可以使用o1来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用o1来构建和执行多步骤工作流程。

安全

在开发这些新模型的过程中,官方提出了一种新的安全训练方法,利用它们的推理能力,使它们遵守安全和协调准则。通过能够在上下文中推理我们的安全规则,它可以更有效地应用它们。 

官方衡量安全性的一种方法是测试当用户试图绕过安全规则(称为“越狱”)时,官方的模型如何继续遵循安全规则。在官方最严格的越狱测试之一中,GPT-4o 得分为 22(0-100 分制),而官方的 o1 预览模型得分为 84。

OpenAIo1-mini

o1系列擅长准确生成和调试复杂代码。为了给开发人员提供更高效的解决方案,我们还发布了OpenAIo1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤其有效。作为一款较小的模型,o1-mini比o1-preview便宜80%,使其成为一款功能强大、经济高效的模型,适用于需要推理但不需要广泛世界知识的应用程序。

如何使用OpenAIo1

图片

从今天开始,ChatGPTPlus和Team用户将能够在ChatGPT中访问o1模型。o1-preview和o1-mini都可以在模型选择器中手动选择,在发布时,每周发送消息次数限制为o1-preview30条消息和o1-mini50条消息。我们正在努力提高这些发送次数,并使ChatGPT能够根据给定的提示自动选择正确的模型。