AI "洗代码":一场价值百亿的忒修斯之船实验
2026 年 4 月 1 日,Claude Code 的 51 万行源码因人为失误被意外公开。几小时内,无数开发者 clone 了代码,Anthropic 立刻拿起 DMCA 大棒逐一下架。
这事到这里,还只是个普通的代码泄露事故。
真正让我觉得值得写一篇长文的,是接下来发生的事:一个叫 Sigrid Jin 的哥们,在凌晨 4 点被消息震醒后,用 AI 把整个 Claude Code 从 TypeScript 用 Python 重写了一遍。架构逻辑完全一样,但找不出一行原始代码。
这个叫 Claw Code 的项目,两小时破 5 万星,一天破 10 万星。Anthropic 至今没有联系过作者。
为什么?因为按照现行的版权判定标准,他们可能真的拿这事没办法。
"洗"这门手艺,比你想的历史悠久
法律问题稍后再说,先看一个事实:用 AI "洗"内容,已经是一条成熟的产业链了。
自媒体圈的"洗稿"从 2023 年就开始工业化。一篇原创文章丢给大模型,换词、换句式、换结构,出来的东西查重率可以压到个位数。视觉领域更夸张,"洗图"工具可以把一张摄影作品在保留构图和色调的前提下重新生成,Exif 信息干干净净,像素级找不到重合。
这些操作有一个共同特点:产出物和原作之间,在技术指标上不存在直接复制关系。
Claw Code 做的事情跟洗稿洗图一模一样,只不过这次"洗"的对象是代码,工具是另一家 AI 公司的产品,而且事情闹得足够大,大到可能推动一个判例出来。
三周前的预演:chardet 换协议风波
Claw Code 并不是第一个引爆这类争议的代码项目。就在三周前,Python 生态中的经典编码检测库 chardet 已经上演过一出几乎一样的戏[8]。
chardet 年下载量超过 8 亿次,原作者 Mark Pilgrim 2011 年退网后,维护者 Dan Blanchard 独自撑了十多年,贡献近 700 次提交。上个月,Blanchard 用 Claude Code 花 5 天时间把 chardet 从头重写,发布了 7.0 版本,并把许可证从 LGPL 改成了 MIT。
他的理由和 Claw Code 的逻辑如出一辙:新代码是 AI 从零生成的,与旧代码没有继承关系。他还用代码相似度检测工具 JPlag 给出数据,chardet 7.0 与 6.0 的最大文件相似度仅 1.29%。
然后消失了 15 年的原作者 Mark Pilgrim 突然现身,在 GitHub issue 里发了一份声明:维护者无权对 LGPL 代码重新授权,因为这不是 clean room 实现。Blanchard 长期接触过原始代码库,不满足洁净室的隔离要求,AI 生成的代码仍然应当被视为衍生作品。
自由软件基金会执行董事 Zoë Kooyman 的评论更直接:"AI 模型吸收了要重新实现的代码,根本不存在真正的'洁净'。"
Blanchard 的反驳也有道理:如果曾经接触过原始代码就永远无法在不同许可下重新实现相同功能,那任何 LGPL 项目的维护者都将被锁死。他认为 clean room 只是手段,目的是证明新代码不是衍生作品,而他可以通过相似度数据直接证明这一点。
chardet 的争议至今悬而未决。但它给 Claw Code 事件提供了一个现成的参照系:同样是 AI 重写、同样是相似度极低、同样是"洗"完之后宣称独立。区别在于 chardet 涉及的是开源许可证的 copyleft 义务,而 Claw Code 涉及的是闭源软件的版权保护。两件事打的是同一个法律灰色地带的两面。
忒修斯之船撞上了版权法
古希腊人提过一个思想实验:忒修斯的船在航行中逐块更换木板,等所有木板都换完了,它还是原来那条船吗?
Claw Code 就是一条换完了所有木板的船。
从版权法的角度看,著作权保护的是"表达"(expression),而非"思想"(idea)[1]。一段代码的具体写法是表达,但它实现的功能、采用的架构设计,通常被归为思想的范畴。Claw Code 换了语言、换了变量名、换了代码结构,"表达"层面确实找不到实质性相似。但任何开发者看一眼就知道,这就是 Claude Code 的镜像。
问题在于,"一看就知道"并不是法律标准。但反过来,"找不到一行重复代码"也不是清白的证明。
这是很多技术人容易踩的一个误区:把抄袭检测等同于版权侵权判定[2]。目前 CS 领域做代码抄袭检测的工作,大多从字符级、token 级的相似度出发,但这和版权法的判定标准之间差得很远。字符级的相似可以构成侵权证据,但字符级的完全不相似并不等于没有侵权。版权判定关心的是"核心功能代码"是否被复制,这个"复制"不是 diff 工具能给出答案的。
一个可以参照的判例是 Oracle 诉 Google 的 Java API 案[3]。这场打了十年的官司,核心问题是 Google 在 Android 中使用 Java API 的声明代码是否构成侵权,2021 年最高法院裁定 Google 构成合理使用。但这个判例和 Claw Code 的情况差别不小:Oracle 案争论的是 API 声明这种具有高度功能性的"接口代码"是否属于受保护的核心代码[4],而 Claw Code 重写的是整个应用,包括大量的业务逻辑和核心功能实现。API 声明可以被归为功能性接口,但一个完整应用的核心逻辑代码?那就是另一回事了。
Oracle v. Google 的判例未必能给 Claw Code 提供多少掩护。争议的焦点落在一个更基础的问题上:软件著作权保护的到底是"功能"还是"实现"?
"功能"还是"实现":一个软件工程的日常困境
这个问题在日常的软件工程实践中其实天天都在发生,只不过没人觉得有争议。
做过系统重构的人都知道,用 AI 辅助把一个系统从一种语言迁移到另一种语言,底层的实现逻辑几乎一定是不一样的。Python 和 TypeScript 的并发模型不同,惯用模式不同,生态库不同,写出来的代码在结构上自然会有显著差异。但有一样东西必须严格保持一致:测试用例。所有的输入输出行为、边界条件处理、异常返回,重构前后必须完全对齐。
换句话说,在正常的重构工作中,"实现完全不同但功能完全相同"是预期结果,甚至是质量标准。
Claw Code 干的事情跟这有什么区别?如果我们自己的团队可以合法地用 AI 将自有系统从 Java 重构为 Go,保持功能一致,测试全绿,那另一个人拿到泄露的源码做同样的事情,区别到底在哪?
区别在于那份源码不是他的。
但版权法保护的是代码的"表达",新写出来的代码确实是全新的表达。如果法律只看表达层面,那重构和"洗码"在形式上几乎没有区别。如果法律要穿透表达去看功能层面的同源性,那整个软件行业的重构实践、兼容性开发、乃至 clean room 反向工程的合法性边界都要重新划。
所以这件事棘手就棘手在这里。
版权和专利,是两把完全不同的刀
讨论这件事的时候,我群里有朋友提了一个很好的切入点:如果 Anthropic 对 Claude Code 的某些技术方案申请了专利,情况就完全不同了。
专利保护的是技术方案本身,跟你用什么语言实现、代码长什么样没有关系。你换十种语言重写,只要技术方案落在专利权利要求的范围内,就是侵权。这就是为什么专利在软件领域的保护力度往往比著作权更强。
但 Anthropic 的尴尬之处在于:Claude Code 本身就不是开源的。它的源码是意外泄露的。在泄露之前,这些技术方案对外是保密的,Anthropic 可能根本没想过需要通过专利来保护。一般来说,商业秘密和专利是两种互斥的保护策略,选了保密就意味着放弃了公开换保护期的专利路径。
现在代码泄露了,商业秘密的保护基础已经动摇,专利又没有提前布局,剩下能用的武器就只有版权。而版权在面对忒修斯之船式的重写时,恰恰是最弱的一把刀。
判还是不判,都是新游戏规则
回到这件事本身,无论结果如何,游戏规则都要变。
如果法院判定 Claw Code 不构成侵权,那等于官方认证了"AI 重写"是一种合法的去版权化手段。任何闭源软件都可以被这样处理:先逆向理解架构和逻辑,再用 AI 换一种语言重写,一夜之间就能产出一个"合法的克隆体"。对于开源社区来说,copyleft 许可证(比如 GPL)的约束力也会受到巨大冲击,因为"衍生作品"的认定标准被刷新了。
如果法院判定构成侵权,那就需要建立一套新的相似性判定框架,不再局限于代码层面的文本比对,而是要考察更深层的架构同源性。这对整个软件行业的冲击很大,因为独立开发者实现相似功能的空间会被大幅压缩。你怎么证明自己的架构设计是独立想出来的,而不是看了别人的代码之后"洗"出来的?
两条路都很难走。
讽刺的对称性
最后说一层讽刺。
AI 公司用海量的公开内容训练模型,包括代码、文章、图片。当创作者质疑这是否侵犯了他们的版权时,AI 公司的标准回应是:模型学习的是模式和知识,输出的是全新的内容,不构成复制。
现在,有人用 AI 公司自己的产品,"学习"了另一家 AI 公司的代码的模式和知识,用全新的语言输出了全新的代码。
你说这侵权吗?
如果侵权,那模型训练时使用受版权保护的数据,是不是也该重新讨论了?如果不侵权,那 AI 公司自己的闭源代码,就要接受同样的逻辑。
这可能是 AI 时代一个绕不过去的自我指涉悖论。
Anthropic 目前没有起诉。他们可能在等一个合适的时机和案例来推动立法,而不是仓促起诉后拿到一个对行业不利的判例。也可能他们已经算过了,发现以现有法律框架起诉的胜算并不高。
不管怎样,当 AI 可以在几小时内完成一次完美的"忒修斯换板",代码的版权保护体系就需要一次根本性的升级。
技术上这事已经没有门槛了。真正悬而未决的是法律和伦理层面的追问:在 AI 时代,什么才算"原创"?
参考文献
[1] 思想/表达二分法(idea–expression dichotomy)是版权法的基础原则,源自美国最高法院 Baker v. Selden, 101 U.S. 99 (1879) 案,并在 17 U.S.C. § 102(b) 中成文化。参见 Wikipedia: Idea–expression distinction
[2] 关于 CS 领域代码抄袭检测与版权法判定标准之间的差异,参见 Shou et al., "Copyright-Aligned Plagiarism Detection," OpenReview, openreview.net/forum?id=sW…
[3] Google LLC v. Oracle America, Inc., 593 U.S. 1 (2021). 最高法院判决书全文: Supreme Court Opinion (PDF); 案件综述参见 Wikipedia: Google LLC v. Oracle America, Inc.
[4] 判决书中 Breyer 大法官指出,API 声明代码的功能类似于图书馆的杜威十进分类法,具有"组织性功能"(organizing function),因此适用合理使用原则。参见判决书第一项合理使用要素分析。
[5] 事件原始报道: "封不住!Claude Code 爆改 Python 版加冕最快 10 万星,且 clone 且珍惜",量子位,2026-04-02,微信公众号链接
[6] Business Insider 对 Sigrid Jin 的采访报道: www.businessinsider.com/claude-code…
[7] WSJ 报道: "Anthropic Races to Contain Leak of Code Behind Claude AI Agent," www.wsj.com/tech/ai/ant…
[8] chardet 换协议事件相关报道及讨论: CSDN 中文报道 news.qq.com/rain/a/2026…; GitHub issue 原帖 github.com/chardet/cha…; The Register 分析 "AI kills software licensing" www.theregister.com/2026/03/06/…; Ars Technica "AI can rewrite open source code, but can it rewrite the license too?" arstechnica.com/ai/2026/03/…