OpenAI发布了针对编码优化的GPT-5.1-Codex-Max模型。该模型在SWE-Bench Verified和TerminalBench基准测试中表现优异,处理长任务能力强,支持跨上下文窗口工作。Codex-Max能以更少token和代码行实现相似或更好结果,实际编码任务速度提升27%-42%。模型现已在Codex的CLI、IDE扩展、云和代码审查中可用,并面向ChatGPT付费用户。
译自:OpenAI Says Its New Codex-Max Model Is Better, Faster and Cheaper
作者:Frederic Lardinois
OpenAI 今日发布了 GPT-5.1-Codex-Max,这是其 GPT-5.1-Codex 基础模型的全新变体,专门针对编码任务进行了优化,并为 OpenAI 的 Codex 代理提供支持。
最初的 Codex 模型 于大约两个月前推出,当时在大多数基准测试中极具竞争力,并常常领先。但在这个领域,没有人原地踏步。OpenAI 自己在几天前推出了其 GPT 模型(包括 Codex)的 5.1 版本,而本周早些时候推出的 Google 的 Gemini 3 也推动了前沿模型在编码方面的进步。
OpenAI 表示,Codex-Max 专门针对软件工程、数学、研究等领域的代理任务进行了训练。它旨在处理长时间运行的任务;OpenAI 强调,这也是该公司训练的第一个能够跨越多个上下文窗口工作的模型。通过使用压缩技术将上下文压缩成更易于管理的单元,OpenAI 声称 Codex 代理现在可以在“单个任务中处理数百万个 token”。
来源:OpenAI。
Codex-Max 的基准测试表现如何?
这很可能是 Codex-Max 在标准编码基准测试中表现出色的部分原因。例如,在最高设置下,Codex-Max 在 SWE-Bench Verified 基准测试中得分 77.9%,该测试旨在评估代理处理多个流行 Python 项目的实际 pull request 的能力。
GPT-5.1-Codex 模型在高设置下得分 73.1%,Anthropic 的 Sonnet 4.5 得分为 77.2%(尽管加上测试时计算量,得分为 82%),而 Google 的新 Gemini 3 得分为 76.2%。
在 TerminalBench 上,Codex-Max 得分 58.1%,而 GPT-5.1-Codex 达到 52.8%,Sonnet 4.5 为 50%,Gemini 3 为 54.2%。
GPT-5.1-Codex-Max 基准测试(来源:OpenAI)。
Codex-Max 是否更好且更便宜?
与大多数现代模型一样,Codex-Max 将具有不同的推理模式,这些模式决定了模型可以为给定任务使用的推理 token 数量。对于 Codex-Max,OpenAI 增加了一个新的“超高”(xhigh)模式,允许开发者进一步推动模型的重写能力。这显然会增加延迟,并且可能不适用于所有用例,但确实能将准确性提高几个百分点。
然而,基准测试并非万能。模型在实际任务中的表现如何仍有待观察。
但对于开发者来说(尤其是那些使用 API 的开发者)可能更重要的是,在 OpenAI 的测试中,Codex-Max 经常能够用更少的 token 和工具调用产生相似或更好的结果——并且它产生的代码行数更少就能达到相同的结果。因此,OpenAI 认为 Codex-Max 在实际编码任务上比其前代产品快 27% 到 42%。
不过,它肯定会在 Windows 机器上表现出色。OpenAI 指出,这是该公司训练的第一个能在 Windows 环境下运行的模型。
Codex-Max 的可用性如何?
新模型现在可在 Codex 的 CLI、IDE 扩展、云和代码审查中使用,并且将提供给所有拥有 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划的用户。希望通过 API 密钥在 Codex 中使用它的用户即将获得访问权限。

