OpenAI 正在不断提升 ChatGPT 对开发者的实用性。
几天前,他们新增了连接 GitHub 仓库 Connecting GitHub to ChatGPT deep research | OpenAI Help Center的功能,用户可以基于自己的代码进行深入研究和提问。
而今天,该公司发布了 Codex 的研究预览版Introducing Codex | OpenAI——这是 ChatGPT 中功能最强大的 AI 编程智能体。它能够编写代码、修复 Bug、运行测试,并可同时处理多个编程任务——这一切都在安全的云端环境中完成。
让我们详细了解 Codex 的最新情况。
什么是 Codex?
Codex 是一个运行在云端的软件工程智能体,能为你完成任务,例如开发新功能或修复 Bug。
你可以并行运行多个任务。
Codex 构建于 codex-1 模型之上,这是 OpenAI 的 o3 模型的一个变体,专门针对软件工程进行了优化。它通过强化学习训练,涵盖多个开发环境中的真实编程任务,因此能够生成符合人类编码风格和 Pull Request 规范的代码,准确遵循指令,并反复运行测试直到通过。
目前 Codex 是研究预览版,其功能和特性可能随时发生变化。
Codex 如何工作?
Codex 集成在 ChatGPT 的侧边栏中。启用后,你可以直接给它分配任务。只需输入你想做的事情并点击“Code”按钮。如果你对代码库有疑问,可以点击“Ask”按钮获取上下文相关的回答。
Codex 可以读取和编辑文件,并能执行命令,如测试框架、代码规范检查(linter)和类型检查器。任务完成时间通常在 1 至 30 分钟之间,取决于任务复杂度,你可以实时查看其进度。
任务完成后,Codex 会在其环境中提交修改。这些更新会自动被跟踪和保存。
为确保透明性,Codex 会提供其操作的可验证证据,包括终端日志、测试输出等执行细节,方便用户追踪每一个步骤。
用户可以查看结果后决定下一步操作,比如请求进一步修改、在 GitHub 上创建 Pull Request,或将修改集成到本地环境中。
此外,你还可以配置 Codex 的运行环境,使其尽可能贴近你的实际开发环境,以提高任务执行的可行性和准确性。
示例提示词
请修复 astropy/astropy 仓库中的以下问题。在当前的代码执行会话中,通过编辑并测试代码文件来解决此问题。仓库已克隆至 /testbed
文件夹。只有完全解决问题,答案才被视为正确。
问题描述: Modeling
模块中的 separability_matrix
无法正确计算嵌套的 CompoundModels 的可分性。
考虑以下模型:
from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5)
你可能期望其可分性矩阵为对角矩阵:
>>> separability_matrix(cm) array([[ True, False], [False, True]])
若模型更复杂:
>>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]])
这也是符合预期的:线性模型的输入输出彼此独立、可分。
但若将模型嵌套起来:
>>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]])
此时输入和输出就不再可分了?
这看起来像是一个 Bug,也可能是我理解有误?
Codex 与 o3 模型的代码生成对比
与 OpenAI 的 o3 模型相比,codex-1 生成的代码通常更简洁,便于人类评审,并可直接集成到标准开发流程中。
例如,某位 X 用户要求 Codex 构建一个“涂鸦跳跃”游戏并在 GitHub 上创建 Pull Request,Codex 也顺利完成了这一任务。
Codex 的性能基准测试
OpenAI 使用内部和外部的代码任务对 codex-1 模型进行了评估。
在 SWE-Bench Verified 基准测试中,OpenAI 排除了 23 个无法在其内部基础设施上运行的样本,以确保所有评估任务均可真实执行和测量。评估时使用的最大上下文长度为 192,000 个 Token,推理强度设定为中等。
“推理强度”决定了模型完成任务时允许的思考步骤数量,中等设置在速度与推理深度之间取得平衡。
此外,OpenAI 还使用了一套内部的 SWE(软件工程)任务基准,包括公司内真实项目中的任务,用以测试 Codex 在实际开发工作中的表现。
Codex 不是“Vibe Coding”的工具
如果你习惯使用 Cursor、Lovable 或 Bolt 等工具,通过一句提示词就生成一个完整 App,Codex 可能不符合你的期待。
Codex 并不是“Vibe Coding”的工具。
这个智能体面向专业开发者,专为生产环境中的高效开发而设计。Codex 帮你处理那些琐碎的事情——比如修 Bug、跑测试、调整环境、重写函数等——让你可以专注于更高层次的工作。
这不是在追求“vibes”,而是为了更快完成真正的工程工作。
Codex 无法访问互联网
Codex 在一个安全、隔离的云容器中运行。任务执行期间无法访问互联网,仅限使用用户通过 GitHub 提供的代码和预安装依赖。
该智能体无法访问外部网站、API 或其他服务。
一些用户对此并不满意。
比如,X 用户 Yoko 表示失望,因为 Codex 无法访问互联网,导致无法正确设置环境,比如无法安装 npm 包或更新项目依赖。
对此,OpenAI 工程师 Dominik Kundel 回应说,用户需要手动添加自定义脚本来配置环境。
“出于安全原因,环境在设置完成后将被隔离。你可以通过高级配置选项添加自定义设置脚本来安装依赖。”
尽管这是一个解决方案,但对每月支付 $200 Pro 订阅费的用户来说,这种方式仍显得不够友好。
希望未来这个限制可以改善或获得更好的支持。
如何访问 Codex?
Codex 目前已向 ChatGPT Pro、Enterprise 和 Team 用户开放,未来将扩展至 Plus 和 Edu 用户。
目前 Pro 订阅费用为每月 $200,是 Plus 套餐的 10 倍。
作为一名 Plus 用户,我正在等待 Codex 能够对我们这类用户开放。非常希望亲自试一试它在日常开发中的表现。
我也希望 OpenAI 能最终开放 Codex 的 API。若能将其集成至 CI 流水线、开发工具或 GitHub 工作流中,其价值将大幅提升。
结语
我认为 Codex 潜力巨大。我们正在接近一个新阶段——开发者可以将最无聊、重复的任务交给 AI 助手处理。
这不是要取代工程师,而是像拥有一个永远不会疲倦、始终遵守指令的“虚拟初级开发者”。
不过目前每月 $200 的价格我还无法接受。我非常期待 Codex 向 Plus 用户开放的那一天。
如果未来 Codex 支持无头模式或 API 接入,那将可能开启软件开发的新纪元。
2025 会成为 AI 编程智能体元年吗?
OpenAI 总裁兼联合创始人 Greg Brockman 表示:“2025 将是 AI 编程智能体的一年。”
如果这一预测成真,那我们将迎来工程团队工作方式的重大变革。
截至目前,今年已有超过 22,000 名科技从业者遭遇裁员,仅 2 月就有高达 16,084 人受影响。
如果你已经使用过 Codex,欢迎告诉我你的使用体验,我非常想知道它是否真的达到了你的预期。