OpenAI 新 o1 思维链模型简介

125 阅读3分钟

OpenAI 最近发布了两款备受瞩目的新预览模型:o1-preview 和 o1-mini,这两个模型在成本和性能之间引入了一些新的权衡,以提升其“推理”能力。本文将带你深入了解这些新模型的特点以及它们可能带来的变革。

图片

思维链训练

o1 系列模型经过专门的思维链训练,旨在让模型在做出反应之前能够进行更加深入的思考。这种训练方法使得模型能够更好地处理那些需要回溯和“思考”的复杂提示,而不仅仅是简单的标记预测。OpenAI 使用大规模强化学习算法教会模型如何有效地利用其思维过程来解决问题,从而显著提升了模型的推理能力。

API 文档中的低级细节

OpenAI 提供的 API 文档揭示了新模型的一些关键特征:

  • 目前,o1-preview 和 o1-mini 只对第 5 级账户开放,这意味着用户需要至少花费 1,000 美元购买 API 信用才能使用。

  • 这些模型不支持系统提示,也不能进行流媒体传输、工具使用、批量调用或图像输入。

  • 根据模型解决问题所需的推理量,请求可能需要几秒到几分钟的时间。

  • 引入了“推理令牌”,这些令牌在 API 响应中不可见,但仍会被计费。

  • 为了适应更长的推理过程,输出令牌限额大幅增加,o1-preview 达到 65,536 个,而 o1-mini 为 32,768 个。

隐藏的推理标记

推理令牌的存在意味着模型在执行复杂任务时,内部会经历一系列推理步骤。然而,这些步骤对用户是隐藏的。OpenAI 表示,这样做是为了确保模型能够自由地表达其思维过程,以便研究人员能够监测和理解其决策逻辑,同时避免暴露潜在的政策违规行为。

示例

OpenAI 在其公告中提供了一些示例,展示了模型如何生成 Bash 脚本、解决填字游戏以及计算化学溶液的 pH 值。这些示例显示了模型在处理复杂任务时的推理步骤。尽管这些步骤并未直接显示给用户,但它们被简化成更易于理解的形式呈现出来。地址:openai.com/o1/

OpenAI 的新 o1 系列模型通过思维链训练显著增强了模型的推理能力,但同时也带来了更高的成本和使用限制。对于需要深度推理的应用场景,这些新模型提供了新的可能性,但对于实时响应和多媒体处理的需求,则可能依然需要依赖现有的 GPT-4o 系列模型。

【智答专家您身边免费的GPT4.0人工智能Ai助手,文本生成,问答,多语言支持, 性化建议,图片生成,代码纠正等等。