Anthropic造了个顶级黑客,但他们不敢发布

247 阅读8分钟

几周前,Anthropic 做了一件让整个科技圈震惊的事。

他们训练了一个叫 Mythos 的 AI 模型,这个模型在短短几周内找到的安全漏洞,比大多数安全研究员一辈子找到的还多。

它找到了 OpenBSD 里藏了 27 年的漏洞。它找到了 FFmpeg 里躲过 500 万次自动化测试的漏洞。

然后,他们决定不公开发布这个模型。

听起来很奇怪对吧?但我觉得这恰恰是最正确的决定。

世界上最好的锁匠,也是最危险的小偷

Mythos 不是被训练成黑客的。

Anthropic 只是想让它变得非常非常擅长写代码。结果没想到,擅长写代码自动就意味着擅长破解代码。

这就像训练一个人成为世界上最好的锁匠。你没教他怎么撬锁,但因为他太懂锁了,他自然就知道怎么打开任何一把锁。

这个能力是免费附赠的。

我们来看看数字。

在 SWE 基准测试上,这是业界用来衡量 AI 修复真实软件漏洞能力的标准测试,Opus 的得分是 80.8%,已经很不错了。但 Mythos 的得分是 93.9%。

这不是小幅提升,这是代际跨越。

在网络安全基准测试上,也就是测试 AI 发现和利用漏洞的能力,Opus 得分 66.6%,Mythos 得分 83.1%。

但数字只是数字,真正可怕的是它在现实世界里做了什么。

它找到了人类永远不会发现的漏洞

OpenBSD 的那个漏洞藏了 27 年。27 年里,无数安全研究员看过那段代码,但没人发现问题。Mythos 找到了,而且这个漏洞可以远程让任何 OpenBSD 服务器崩溃。

FFmpeg 的那个漏洞更离谱。FFmpeg 是处理视频的底层软件,基本上整个互联网的视频都靠它。这个漏洞躲过了 500 万次自动化测试,藏了 16 年。

还有 Linux 里的几个漏洞,能让一个零权限的普通用户直接变成管理员。

但最可怕的不是这些单个漏洞。

最可怕的是,Mythos 能把多个小漏洞串起来,组成一套完整的攻击链。它能找到三四个看起来无害的小问题,然后把它们连在一起,变成一次致命的攻击。

这是顶级人类黑客才会做的事。那种电影里坐在老旧电脑前,用整个手臂敲键盘的那种。

一个两难的选择

现在 Anthropic 手里有个模型,它能拯救互联网,但如果落到坏人手里,也能摧毁互联网。

想象一下,如果他们明天就公开发布 Mythos。每一个有恶意的人都能拿到一个比大多数专业安全团队还强的工具。

这不是假设,这是基准测试数据明明白白告诉我们的事实。

而且这不会是最后一个这么强的模型。每个 AI 实验室现在都在训练更好的编程模型。如果擅长编程自动意味着擅长黑客,那每一个正在训练的前沿模型都会变成更好的黑客,不管它们想不想。

有些在这个领域干了十几年的 AI 研究员说,如果现在有个按钮能停止不受控制的超级智能,让一切重新开始,他们会毫不犹豫地按下去。

因为现在感觉就像一场竞赛,看谁能造出最强的模型,而能力正在指数级增长。

Mythos 今天能做的事,小型开源模型可能 12 到 24 个月后就能做到。精灵永远回不到瓶子里。

那怎么办?你不能假装它不存在,你不能永远保密,总有人会造出同样强的东西。你也不能销毁这些知识,它终究会出现。

这就是 Project Glasswing 的由来。

第三条路:先给防御者

Anthropic 没有公开发布,也没有把它锁在保险柜里。他们选择了第三条路,先给防御者。

他们和 AWS、苹果、谷歌、微软、英伟达、思科、CrowdStrike、摩根大通等公司合作。基本上就是那些构建整个互联网基础设施的公司。

这些合作伙伴能直接用 Mythos 扫描自己的系统,在攻击者发现之前找到漏洞,在任何人知道之前就把漏洞补上。

Anthropic 还向 40 多个维护关键软件基础设施的组织开放了访问权限。他们承诺提供 1 亿美元的使用额度,直接捐赠 400 万美元给开源安全组织。

而且他们在和美国政府讨论。

最重要的是,他们承诺在 90 天内公开分享学到的东西。

说实话,这可能是第一次有大型 AI 实验室说,我们造了个太强大的东西不能发布,但这是我们的计划。

这是一个先例。其他实验室会不会跟进,将决定 AI 的未来几年甚至几十年。

这对你意味着什么

我知道大多数人不是在财富 500 强公司做安全。你可能就是个普通人,用手机、用电脑、用 Claude Code 写代码。

我也是。

那这件事对我们意味着什么?

你的软件会变得更安全

如果你用手机、浏览器或者任何应用,你的软件马上就会变得更安全。

Mythos 找到的漏洞就在你操作系统、视频播放器、网络浏览器的代码里。这些补丁已经在推送了。

你不会看到它发生,但某一天你会收到一个软件更新。那个更新背后,是一个 AI 找到了一个人类可能永远不会发现的漏洞,然后把它修好了。

这是第一次,AI 会直接让你的数字生活更安全,而你什么都不用做。

小公司也能有大公司的安全

如果你是小企业主,这就更有意思了。

安全一直是大公司的特权。大公司雇红队,做渗透测试,花几百万做安全审计。小公司可能就装个杀毒软件,然后祈祷别出事。

Glasswing 做的事情,本质上是把财富 500 强级别的安全下放给所有人。

当 Mythos 在 Linux 或者你网站用的 Web 框架里找到漏洞,那个修复也会到达你这里。你会受益于保护苹果和谷歌基础设施的同一个 AI 扫描。

你不用付钱,你甚至不知道它在发生,但你被保护了。

随着这项技术成熟,这些工具最终会直接提供给小公司。想象一下,你能用找到 27 年老漏洞的同一个 AI 扫描你自己的代码库。

我们正在走向那个未来。

这是正确的选择

我觉得 Anthropic 做对了,他们值得所有的赞誉。

他们手里有个能赚很多钱的模型。如果明天发布,会引发巨大的轰动,整个 AI 圈都会疯狂讨论。

但他们放慢了脚步。他们制定了部署计划,给了防御者一个领先的机会。

这不是容易的选择,但这是正确的选择。

就在我写这篇文章的时候,Claude Code 的创始人 Boris Churney 发了条推特,我们为 Mythos 的强大感到自豪,但也应该感到恐惧。我们很自豪能负责任地将它预览给网络防御者,而不是直接发布到野外。

完全同意。

真正的问题是,这会成为标准吗

我真正关注的是,这会不会成为新的行业标准,还是只是一个实验室做的一次性事件。

因为不舒服的真相是,这不是一次性事件。每一代 AI 模型都会更擅长找漏洞。指数曲线不会变平,只会更陡。

所以问题是,OpenAI 会这么做吗?谷歌会吗?Meta 会吗?

那些认真对待这件事,在需要之前就建立安全计划的实验室,会是我们信任下一代 AI 的对象。

那些不这么做的,会成为我们都害怕的头条新闻。

更难的消息是,这是一场军备竞赛,可能永远不会结束。

但第一次,防御者真正获得了领先优势。这比大多数人意识到的更重要。

写在最后

AI 的发展速度太快了。每天都有新的突破,每天都有新的担忧。

但 Anthropic 的这个决定让我看到了希望。

不是所有的 AI 公司都在盲目追求更强的能力。至少有一家公司在说,我们造了个很强的东西,但我们要负责任地使用它。

这个先例很重要。

如果其他公司跟进,如果这成为行业标准,那我们就能相信 AI 不会失控。

但如果只有 Anthropic 一家这么做,那我们的担忧就不是多余的。

现在的关键是,其他 AI 实验室会怎么做。

他们会选择快速发布获得关注,还是会选择负责任地部署?

时间会给我们答案。

但至少现在,防御者领先了一步。这一步,可能会决定未来的走向。