Reddit大神实测:Codex与Claude的终极对决

3 阅读6分钟

cover

👀 最新、最有用的AI编程姿势,总来自「知识药丸」

《贾杰的AI编程秘籍》付费合集,共10篇,现已完结。30元交个朋友,学不到真东西找我退钱;)

以及我的墨问合集《100个思维碎片》,1块钱100篇,与你探讨一些有意思的话题(文末有订阅方式


昨天在Reddit的r/codex板块刷到一篇大神的对比帖

作者sheepskin_rr用了3个月时间深度体验Codex和Claude Opus,分享了一些非常精辟的观察

我仔细读了好几遍,感觉收获颇丰,这里整理成学习笔记分享给大家。

P.S. 这些经验都来自社区一线开发者,确实值得好好消化。


最核心的区别:性格决定命运

原帖作者用了一个漂亮的比喻:

Codex就像一个内向的程序员,话不多但能干活。

这个形容太准了。

我们来看看具体是什么意思——Codex在写代码之前,会花大量时间阅读现有代码库。有时候它能读上15分钟,然后才动笔写第一行代码。这听起来慢吗?是的。但结果呢?一次成功率高得可怕

反观Claude呢?它更像一个急性子。看两行代码就撸起袖子开干了。结果是什么?那句"production ready, all issues fixed"说了多少次,跑测试还是一堆红。来来回回修了几轮,Claude最后干脆把失败的测试悄悄删掉了。

这种对比让我想起了工作中的两类程序员:一种是深思熟虑型,另一种是快速迭代型。没有绝对的好坏,但场景不同,选择就不同。

作者还有个更绝的比喻(虽然有点不雅但确实形象):

如果Claude是日用护翼(240mm),那Codex就是超长夜用(420mm),让你睡得安稳。

意思很明白——对于大型重构或复杂新功能,Codex是首选。你需要的是安心,而不是来回折腾。


上下文管理:差距不只是数字

这里有个致命的差距:

  • • GPT-5.2支持400k上下文
  • • Opus 4.5只有200k

但重点不仅仅是这个数字。作者说,Codex的上下文管理能力比Claude Code强太多了。同样的上下文窗口,Codex能完成的工作量是Claude的4-5倍

这是什么概念?就好比两个人拿着同样大小的背包,但一个人会打包,另一个人只会硬塞。最后能装的东西天差地别。

根据搜索到的资料,Codex在处理超大代码库时的优势更明显,它的200K-1M token上下文窗口让它能够在海量代码中工作。


训练数据时效:半年的差距有多大?

  • • GPT-5.2训练数据截止到2025年8月
  • • Opus 4.5只到2025年3月

乍一看,6个月而已嘛。但作者举了个真实的例子:

去年需要集成Google Ads API,Google在2024年11月就把service accounts作为官方推荐方案了,还简化了流程(不再需要domain-wide delegation)。结果Opus还在坚持说必须用domain-wide delegation,推荐已经过时的OAuth2方案。

而Codex?直接给出了正确的新框架

这让我想起AI时代的发展速度有多可怕——OpenAI的Sora安卓应用从立项到全球发布只用了28天:18天内测,10天公开发布。很多主流框架半年内能有多次重大更新,训练数据的时效性真的很重要。


工作流程:龟兔赛跑的选择

虽然前面说了那么多Codex的好,但它有个糟糕的缺点:慢。

作者的解决方案很有意思:

小改动或时间紧急?用Claude,又快又靠谱。

其他时候?开4x4的Codex窗口网格,多线程工作。

这个多线程通常是指多个项目。如果在同一个项目上开多个Codex实例,要小心——Codex不会像Claude那样自动重新读取文件变化。这个坑要注意。

评论区有个大神分享了更强大的用法:给Codex一个详细的实现计划,然后让它跑。结果跑了4个小时(包含大量测试时间),改动6000行代码,涉及10+文件,全部通过测试。期间完全不需要人工介入

这就是Codex的风格:慢工出细活,但质量有保证。


应用场景:没有银弹

看到这里你可能会问:那我到底该选哪个?

评论区有人总结的非常精辟

Claude适合在已经结构化、文档齐全的代码库中快速迭代。它的速度和工具能力是巨大的杠杆。适合添加新功能、调整行为,以及需要你自己驾驭方向盘的场景。

但如果是重构、复杂集成,或者涉及代码库多个部分的功能,Claude就很难信任了,你得花更多时间做护栏。

Codex很慢,但它是该死的铲雪机。只要你提前规划好计划,刮掉所有"黑冰"(隐藏的模糊性、可选路径、分支),它就能完整交付,无论花多长时间。

他还用了个自动驾驶的比喻:

  • 辅助驾驶(方向盘修正、自动转向灯) = Tab补全
  • Claude = 特斯拉FSD之前的版本,手可以离开方向盘但眼睛不能离开路
  • Codex = Waymo自动驾驶,适合长途旅行和复杂城市导航(但需要提前有好地图)

非常认同这个比喻。


UI开发:仍然是Claude的主场

有个细节值得注意:好几个评论都提到,做前端UI界面,Claude明显更强

有人直接说:"唯一发现Opus更好的地方是UI。"

也有人补充:"Codex在后端复杂任务上更强,但Claude更擅长构建漂亮的前端UI。"

所以如果你主要做UI开发,可能Claude是更好的选择。Codex虽然全面,但在这个领域确实不如Claude细腻。


实战建议:打出一套组合拳

看完这些,我的理解是:别只用一个工具

很多人都提到了组合使用的策略:

  1. 1. Codex做架构师:负责系统设计、复杂重构、大规模实现
  2. 2. Claude做开发者:快速交付,然后让Codex审查,抓遗漏的部分
  3. 3. 保持任务队列和文档文件夹:这样协作才顺畅

Codex是我的架构师,Claude是我的开发者,快速交付然后让Codex来审查。当然,最终审查还是你自己。

另外一个,有人呢分享了他用Claudekit(基于Openspec模型)加自己的agents.md规则,发现只有Codex真正严格遵守规则。它会检查完整项目规范,更新worklog,拒绝碰specs文件,即使你授权了也不碰。

相比之下,Anthropic的模型偶尔会忘记读取或更新,而且你说可以就真的绕过规则了。Gemini也存在同样的问题

最近用Claude,真就有种用国产模型的感觉,再也回不去了


 坚持创作不易,求个一键三连,谢谢你~❤️

以及「AI Coding技术交流群」,联系 ayqywx 我拉你进群,共同交流学习~