OpenAI推出Codex Security:上下文感知的代码漏洞检测与修复

3 阅读5分钟

OpenAI 推出了 Codex Security,这是一款应用安全智能体,能够分析代码库、验证潜在漏洞,并提出可供开发者在打补丁前审查的修复方案。该产品目前正通过 Codex 网页向 ChatGPT Enterprise、Business 和 Edu 客户推出研究预览版。

为什么构建 Codex Security?

该产品针对的是大多数工程团队都非常熟悉的问题:安全工具通常会产生过多微弱的发现,而软件团队正借助 AI 辅助开发以更快的速度交付代码。OpenAI 团队在其公告中认为,主要问题不仅在于检测质量,还在于缺乏系统上下文。在通用扫描中看起来很严重的漏洞,在实际应用中可能影响很小,而与架构或信任边界相关的微妙问题则可能完全被遗漏。Codex Security 被定位为一个上下文感知系统,试图缩小这一差距。

Codex Security 如何工作?

Codex Security 分 3 个阶段工作:

第 1 步:构建项目特定的威胁模型 第一步是分析代码仓库并生成一个项目特定的威胁模型。系统检查代码库中与安全相关的结构,以建模应用程序的功能、它信任什么以及可能在哪些地方暴露。这个威胁模型是可编辑的,这在实际应用中很重要,因为真实系统通常包含自动化工具本身无法可靠推断的组织特定假设。允许团队完善模型有助于使分析与实际架构保持一致,而不是遵循通用的安全模板。

第 2 步:发现并验证漏洞 第二步是漏洞发现和验证。Codex Security 使用威胁模型作为上下文来搜索问题,并根据这些问题在该系统中可能的实际影响对发现进行分类。在可能的情况下,它会在沙盒验证环境中对发现进行压力测试。如果用户配置了为项目量身定制的环境,系统可以在运行中的应用程序上下文中验证潜在问题。这种更深入的验证可以进一步减少误报,并可能允许系统生成有效的概念验证。对工程团队来说,这种区别很重要:证明某个缺陷在实际系统中是可利用的,比原始的静态警告更有用,因为它为确定优先级和修复提供了更清晰的证据。

第 3 步:利用系统上下文提出修复建议 第三步是修复。Codex Security 利用完整的周围系统上下文提出修复建议,目标是生成既提高安全性又最小化回归问题的补丁。用户可以过滤发现结果,专注于对其团队影响最大的问题。此外,Codex Security 可以随着时间的推移从反馈中学习。当用户更改某个发现的关键性时,该反馈可用于完善威胁模型并提高后续扫描的精确度。

从模式匹配到上下文感知审查的转变

此工作流程反映了应用安全工具的更广泛转变。传统扫描器能有效发现已知类别的非安全模式,但它们通常难以区分理论上存在风险的代码和在特定部署中实际可利用的代码。OpenAI 团队实际上是将安全审查视为一个基于仓库结构、运行时假设和信任边界的推理问题,而不是纯粹的模式匹配任务。这并不能消除人工审查的需要,但如果验证步骤如描述的那样工作,它可以使审查过程更聚焦、更基于证据。这种框架是基于产品设计的推断,而非经过基准测试的独立结论。

OpenAI 报告的测试版指标

OpenAI 还分享了测试版的结果。随着时间的推移,对相同仓库的扫描显示出精度不断提高,在一个案例中,自首次推出以来,噪音减少了 84%。严重性被高估的发现率下降了 90% 以上,而所有仓库的检测误报率下降了 50% 以上。在过去 30 天里,据报道 Codex Security 在其测试组中扫描了超过 120 万个外部仓库的提交,识别出 792 个关键发现和 10,561 个高危发现。OpenAI 团队补充说,关键问题出现在不到 0.1% 的扫描提交中。这些是供应商报告的指标,但它们表明 OpenAI 正在优化以获得更高置信度的发现,而不是最大告警量。

开源安全工作与 CVE 报告

此次发布还包括一个开源组件 Codex for OSS。OpenAI 团队一直在其依赖的开源仓库上使用 Codex Security,并与维护者分享高影响力的发现。他们还列出了报告了关键漏洞的项目,包括 OpenSSH、GnuTLS、GOGS、Thorium、libssh、PHP 和 Chromium。据称已有 14 个 CVE(公共漏洞披露)被分配,其中 2 个是双重复核。

关键要点

  • OpenAI 通过 Codex 网页向 ChatGPT Enterprise、Business 和 Edu 客户推出了 Codex Security 的研究预览版,下个月可免费使用。
  • Codex Security 是一个应用安全智能体,而不仅仅是一个扫描器。OpenAI 表示,它会分析项目上下文以识别漏洞、进行验证,并提出供开发者审查的补丁。
  • 该系统分 3 个阶段工作:首先构建一个可编辑的威胁模型,然后在沙盒环境中(如果可能)对问题进行优先级排序和验证,最后在完整的系统上下文中提出修复建议。
  • 该产品旨在减少安全分类噪音。在测试版中,它报告在一个案例中噪音减少了 84%,严重性被高估的情况减少了 90% 以上,并且所有仓库的误报率降低了 50% 以上。
  • OpenAI 还通过 Codex for OSS 将该产品扩展到开源领域,为符合条件的维护者提供 6 个月的 ChatGPT Pro(包含 Codex)、Codex Security 的条件访问权限以及 API 额度。FINISHED