大家好,我是孟健。
16 个 AI,2 周时间,10 万行代码,从零写出了一个能编译 Linux 内核的 C 编译器。
不是人写的。是 Claude 自己写的。
昨天 Anthropic 发了一篇博客,标题很朴素——"We tasked Opus 4.6 using agent teams to build a C Compiler"。
翻译过来就是:我们让一群 Claude 自己去写了个 C 编译器,然后我们走开了。
读完这篇博客,我整个人是懵的。不是因为"AI 又进步了"这种空话,而是因为这件事背后的含义,可能比大多数人想到的要深得多。
01 到底发生了什么?
Anthropic 的研究员 Nicholas Carlini 做了个实验:
16 个 Claude Opus 4.6 实例,同时工作,用 Rust 从零开始写一个 C 编译器。
没有人手把手带。没有人逐行 review。没有架构师画设计图。
Carlini 只做了一件事:搭好 Docker 容器、Git 仓库、测试套件,然后按下启动键,走开了。
两周后回来,这些 AI Agent 交出了成果:
-
📦 10 万行 Rust 代码
-
✅ GCC torture test 通过率 99%
-
🐧 能编译 Linux 6.9 内核(x86、ARM、RISC-V 三个架构)
-
🎮 能编译 Doom、 PostgreSQL 、Redis、FFmpeg、 SQLite 、QEMU
-
💰 总花费:$20,000(约 14 万人民币)
-
⏱️ 总耗时:2 周,近 2000 个 Claude Code session
一个在 Google 花了近十年才搞定的事情(让 Clang 编译 Linux 内核),AI 用两周做到了。一位 HN 网友的原话是:"This LLM did it in (checks notes)... 2,000 sessions."
02 它们是怎么协作的?
这是最让我震撼的部分——没有"老板 Agent"。
16 个 Claude 各自独立运行在 Docker 容器里,共享一个 Git 仓库。每个 Agent 的工作流程是:
-
从仓库拉代码
-
自己找"下一个最明显要修的问题"
-
创建 lock 文件占坑
-
写代码、跑测试
-
推代码回主干
-
遇到 merge 冲突?自己解决
有的 Agent 专门清理重复代码,有的专注优化性能,有的像 Rust 专家一样做 code review,还有的负责更新文档。
没有人分配任务,没有 project manager ,没有 Jira。
它们自己形成了分工。
如果你做过团队管理,你应该能感受到这有多离谱——16 个"人"协作两周,没有一次 standup 会议,没有一个需求文档,产出 10 万行能跑的代码。
03 它的局限在哪?
先别急着恐慌。这个编译器厉害,但不是完美的:
1)生成的代码效率很低。 即使开了所有优化,输出的机器码还不如 GCC 关掉优化的效果。换句话说——能用,但性能拉胯。
2)16 位 x86 不行。 Linux 内核启动需要 16 位实模式代码,Claude 搞不定这块,最后"作弊"调用了 GCC 来处理。
3)没有自己的 汇编器 和链接器。 还是依赖 GNU 的工具链。
4)代码质量"够用但不精"。 Carlini 原话:"The resulting compiler has nearly reached the limits of Opus's abilities。"——已经接近这个模型能力的天花板了。
这些局限很重要,但不影响核心结论:AI 已经能独立完成一个极其复杂的系统级软件项目。
04 为什么这事比你想的更重要?
有人会说:"编译器规范很成熟,测试套件很完整,这是 AI 擅长的类型啊。"
没错。Ars Technica 的报道也指出——C 编译器是"near-ideal task for semi-autonomous AI coding",因为规范清晰、测试套件现成、有参考实现可以对照。
但问题是:去年 AI 还做不到这件事。
Carlini 自己说了一句让我印象很深的话:
"I did not expect this to be anywhere near possible so early in 2026."
他没有预料到 2026 年初就能走到这一步。
进步的速度才是最值得关注的信号。
而且这次实验真正验证的不是"AI 能写代码"——这个我们早就知道了。它验证的是:多个 AI Agent 可以像一个团队一样协作,完成需要架构设计、模块分工、冲突解决的大型工程。
一个 Agent 写函数,大家都见过。16 个 Agent 协作写编译器,这是质变。
05 对我们意味着什么?
如果你是程序员——
这不是"AI 要取代你"的故事。编译器是最适合 AI 做的任务类型:规范确定、测试完善、有参考实现。大部分真实项目不具备这些条件。真实的软件开发难的不是写代码,是搞清楚需求到底是什么。
但你应该开始认真学习如何管理 AI Agent 团队了。未来的编程可能不是"你写代码",而是"你定义目标、准备测试、让 Agent 干活、你做 review"。
如果你是创业者——
$20,000 写 10 万行编译器级代码。这个成本还在快速下降。想想半年后、一年后会是什么价格。独立开发者做复杂项目的门槛正在被彻底重新定义。
如果你是技术管理者——
多 Agent 协作的范式已经被验证了。不是 PPT 里的概念,是能编译 Linux 内核的真实产出。你需要开始思考:团队里哪些工作可以用 Agent 团队来做?
Carlini 在博客结尾说了一段很真诚的话。他说自己做过渗透测试,深知没有人工验证的代码有多危险。面对 10 万行从未亲眼看过的代码,他既兴奋又不安。
这大概就是 2026 年做技术的人共同的心情。
兴奋的是,工具就摆在那里,比想象中强太多。不安的是,我们还不完全知道该怎么用好它。
但有一件事是确定的——AI 编程的范式已经从"一个人+一个 Copilot",进化到了"一个人+一支 AI 团队"。
这不是未来。这是正在发生的事情。
🔗 相关链接:
-
Anthropic 博客原文:www.anthropic.com/engineering…
-
编译器 GitHub 源码:github.com/anthropics/…
-
Hacker News 讨论(400+评论):news.ycombinator.com/item?id=469…
如果这篇对你有帮助,欢迎点赞、收藏、关注,你的支持是我持续输出的动力 ✨
我的其他平台账号和开源项目在个人主页中,欢迎交流 🤝