上周Anthropic悄悄发布了一个新功能,说悄悄,是因为他们那天同时还在打官司,还官宣了跟微软的合作,热度全被抢走了。
但我觉得,这个功能,才是这波更新里,最值得认真聊一聊的。
它就是这个:Code Review。
它的作用很简单,就是帮助大家审查代码,看有没有BUG(继前端程序员失业后,测试也要睡不着了🐶)
大家都知道,Claude Code这玩意自从出来之后,工程师的代码产出速度,那是真的飞起来了。
Anthropic自己说,他们内部工程师的代码产出量,过去一年涨了200%。
但问题来了。
代码写得快,不等于审得过来。
你写代码,一分钟能写几百行。
但你审代码,那得是另外一个脑子在转,得真的看懂每一行逻辑,想清楚每一个边界情况,找出藏在里面的那些坑。
你不可能指望产出速度翻了3倍,审核速度同步翻3倍吧?
那不可能的。
Anthropic自己也直接承认了这个问题:code review已经成了瓶颈,很多PR根本没有被认真看,就是扫一眼就过了。扫一眼,跟认真看,差别大了去了。
然后,就出了Code Review这个功能。
它的工作原理很简单——
就是每次你开一个PR,它会自动派出一组Agent,去把你这个PR里的代码,从头到尾认认真真看一遍。
这些Agent是并行工作的,同时在找bug,找完之后还会互相验证,然后按照严重程度排个序,最后给你一个高信噪比的汇总评论,加上针对具体问题的行内评论。
一个PR的评审,平均20分钟出结果。
光说功能,可能感受不到有多牛。
一个外部的案例。
TrueNAS的开源项目里有一个ZFS加密重构的PR,Code Review翻这个PR的时候,顺手发现了一个之前就已经存在的老bug,一个类型不匹配的问题,每次同步都在悄悄把加密密钥缓存清空。
这个bug藏在那里不知道多久了,是Code Review碰到这个PR才顺带给翻出来的。
Anthropic自己也实际测试了一波。 数据显示最初只有 16% 的 PR 能收到有实质内容的审查评论,上线后,54%。
虽然这个功能好用,但是它比想象中的贵多了。
这也是目前社区里争议最大的一块。
次Code Review的费用,按token用量计费,平均15到25美元一次,复杂的大PR会更贵。
有人实测了一下,3个PR,两个各改了约750行,一个改了约100行,平均下来每次18.39美元。
可能单看没什么,但你一旦放到真实的工程规模里,这笔账就有点吓人了。
一个50人的工程团队,按"每人每天1到2个PR"估算,一天可能有100个PR。
按平均20美元一次算,一天就是2000美元,一年大约70多万美元。要是更大的工程组织,直接就是百万级别。
然后你再看看市面上做AI代码审查的竞品,CodeRabbit,月费24美元。
就是说,你用Claude Code多跑两三次PR,花的钱可能就已经超过别人一个月的订阅费了。
除了贵,社区里还有个吐槽。
大概意思就是既然Claude能审代码,为什么不一开始就把代码写对?
虽然这话有点牵强,但是逻辑上真的不是没道理。
像极了测试的随口吐槽:你明明会写代码,为什么要写出Bug呢?
现在的状态是,Claude Code先帮你写代码,然后再用Code Review帮你审代码,然后发现了一堆Claude Code自己写出来的bug。
有人管这叫"既当运动员,又当裁判"。
当然,你也可以反过来理解:没有任何一个写代码的工具,能保证零bug,不管是人还是AI。
但这个争议本身还是值得正视的,它反映出一个更根本的问题:AI写代码的速度,已经开始远超人类能验证的速度了。
这才是真正的矛盾。
而Code Review,是这个矛盾的一个解法,但不是唯一的解法,也不是最便宜的解法。
现在Code Review还是research preview阶段,只对Team和Enterprise用户开放,有账号的用户可以去试试。