Anthropic 为 Claude Code 推出多智能体代码审查工具

6 阅读5分钟

Anthropic 为 Claude Code 推出多智能体代码审查工具,旨在通过自动化在人工审查前发现逻辑错误,提高代码审查效率。该工具已在企业内部取得显著效果,未来可能支持本地运行。

译自:Anthropic launches a multi-agent code review tool for Claude Code

作者:Frederic Lardinois

感谢像 Claude Code、Codex、Cursor 等智能编码工具,开发者们正在提交比以往更多的代码。但这同时也意味着更多的代码需要被审查。这已成为许多团队的主要瓶颈。为了帮助他们,Anthropic 周一 在 Claude Code 中推出了代码审查 功能,这是一个新的多智能体系统,旨在在人工审查员看到代码之前就捕获错误。

代码审查功能现已在 Claude Code 网页界面中面向 Claude Teams 和企业用户推出,管理员可以为每个仓库开启此功能。此后,每当为启用的仓库打开拉取请求时,它都会在云端运行。

Anthropic 已经通过 Claude Code 在 GitHub Actions 中 提供了代码审查功能。但正如该公司所指出的,“与我们现有的代码审查 GitHub Action 相比,它是一个更全面(也更昂贵)的选择,而后者仍是开源并可用的。”

Anthropic Claude Code 产品负责人 Cat Wu 指出,代码审查的某种程度的自动化已变得多么重要。她在接受 The New Stack 采访时表示:“随着人们采用 Claude Code,我们注意到人们编写的 PR 比以前多得多。”“这通常意味着负担现在转移到了代码审查员身上,因为一名工程师只需一个提示就可以提交一个看起来合理的 PR。然后代码审查员需要花费大量时间验证所有边缘情况。”

一群并行工作的代码审查智能体

实际上,代码审查将派出一组并行工作的智能体,每个智能体都会寻找不同类型的错误。完成后,它们会留下带有结论的评论,如果发现任何问题,还会提出解决方案。然而,这些智能体不会批准任何拉取请求。这仍然由人类工程师决定。

这些智能体的重点是逻辑错误,这是一个有意的选择。Cat Wu 告诉 The New Stack,这样做的原因是减少误报。

她说:“很多时候,当人工进行代码审查时,你会发现逻辑错误,但也会发现很多样式错误。”“我们发现,在 AI 生成的审查中,人们最初真正想要的只是逻辑错误——所以这是这里关注的核心。[...] 人们对误报非常敏感,所以如果我们只关注逻辑错误,只关注代码中的实际 bug,那么误报率就会很低,因为任何时候你知道一个 bug,你几乎肯定会修复它。”

Anthropic 如何使用代码审查

Anthropic 内部一直在使用类似的系统,Cat Wu 表示,现在 Anthropic 的开发人员期望在他们的拉取请求上看到代码审查的评论,如果看不到,他们会“有点紧张”。

在 Anthropic 内部,该公司现在几乎对每个拉取请求都运行代码审查。该公司表示,在使用之前,有 16% 的拉取请求获得了实质性的审查评论。现在这个数字是 54%。对于更改超过 1000 行的大型拉取请求,该系统在 84% 的情况下会发现 bug,平均有 7.5 个问题。

误报的数量,至少对于在 Anthropic 代码库上运行的智能体来说,仍然很低,开发人员标记为不正确的不到 1%。

慢而稳健

不过,这些智能体确实需要时间。Anthropic 表示,平均审查大约需要 20 分钟,但时间会随着拉取请求的复杂性而变化。简单的拉取请求会得到该公司所称的“轻量级通过”,而更复杂的则会调动更多的智能体进行更深入的阅读。

正如 Cat Wu 所指出的,这些智能体通常会考虑整个代码库,以确保一个文件的更改不会因为几个文件以意想不到的方式相互作用而产生新的 bug。

她说:“我们为用户做出的权衡是,我们希望它非常智能、非常彻底,但目前实现这一目标的方法是比其他代码审查工具运行时间更长一些。”“但你得到的是更健壮的输出。此外,每个智能体不仅查看你更改的代码。它可以灵活地遍历整个代码库。”

代码审查按 token 使用量计费,鉴于这些智能体深入挖掘代码的程度,费用可能会累积。Anthropic 表示,平均每次审查的费用通常在 15 美元到 25 美元之间。管理员可以设置每月上限,并获得一个分析仪表板来跟踪有多少拉取请求正在被审查和接受——以及所有这些的成本。

本地审查?

目前,这个工具只在创建拉取请求时运行,但 Cat Wu 指出,“有大量的需求希望在本地运行它”,即在开发者的内部循环中。她说:“我认为这是 PMF [产品市场契合度] 最有力的标志,因为它意味着人们正在积极寻求这个功能。它不像某种强加给他们的自动化。他们看到了它的价值,并希望它能复核他们的工作。”

如果 Anthropic 很快也允许开发者在本地运行此功能,请不要感到惊讶。

安全漏洞呢?

就在几周前,Anthropic 还推出了 Claude Code Security,它扫描整个代码库以查找安全漏洞。代码审查侧重于逻辑错误,而 Claude Code Security 则完全专注于提供持续运行的深度安全扫描。Cat Wu 表示,如果代码审查检测到安全问题,它会将其标记出来,“但它不像 Claude Code Security 那样彻底。”

可用性

代码审查现已面向 Teams 和企业用户推出,管理员可以开启此功能。Cat Wu 表示,如果需求旺盛,Anthropic 也可能将其扩展到其他用户级别。