Anthropic把最强Claude先“关起来”了:Mythos与Project Glasswing,正在把AI带入“先防守、后扩散”的新阶段

0 阅读18分钟

Anthropic把最强Claude先“关起来”了:Mythos与Project Glasswing,正在把AI带入“先防守、后扩散”的新阶段

01_project_glasswing_hero_zh.jpg 这次把问题推到舞台中央的,是Anthropic。4月7日,Anthropic一口气公开了两个名字:Claude Mythos Preview,以及 Project Glasswing。前者是Anthropic目前公开承认的“最新、最强、但不对公众一般开放”的前沿模型;后者则是一套围绕这类模型建立起来的防御性网络安全计划。很多人在看到新闻标题时,第一反应是“Anthropic是不是做出了一个太危险、所以不敢放出来的模型”。这种理解虽然抓住了传播情绪,但还不够准确。

更准确的说法是:Anthropic正在用一次非常罕见、也非常明确的发布,告诉所有人一件事——当大模型能力继续上台阶,它首先改变的,也许不是聊天产品,不是办公效率,也不是内容创作,而是整个软件世界的攻击面与防御面。

从官方披露的信息看,Claude Mythos Preview 已经在网络安全相关任务上展现出极强能力。Anthropic明确表示,这个模型已经发现了数千个高严重性漏洞,覆盖每一个主流操作系统和每一个主流浏览器,还能在不少情况下把发现漏洞、验证漏洞、构造利用路径这几件事串成相对完整的闭环。与此同时,Anthropic并没有选择把这项能力直接做成全民可玩的公测产品,而是反过来先成立Glasswing,让AWS、Apple、Google、Microsoft、NVIDIA、Cisco、CrowdStrike、Palo Alto Networks、JPMorganChase、Linux Foundation等机构优先把模型用于防守侧的安全工作,并承诺最高1亿美元模型使用额度,以及400万美元面向开源安全组织的直接捐助。

这就是为什么“Claude Mythos Preview + Project Glasswing”会在海外科技媒体和X上刷屏。它不是单纯意义上的“新模型发版”,而是一场把模型能力跃迁、网络安全、有限开放、跨行业联盟和AI治理打包在一起的现实事件。它逼着人们去讨论一个此前还停留在抽象层面的问题:如果模型已经足够强,强到可以在真实系统中大规模发现并利用漏洞,那么行业应该先开放,还是先防守?

一、为什么这件事一下子就炸了

这件事之所以热度特别高,原因不是“Anthropic又发了一个更厉害的Claude”,而是它同时击中了AI产业过去一年最敏感的三条主线。

第一条主线,是能力跃迁终于找到了一个足够真实、足够危险、也足够让普通人直观理解的落点。过去大家说模型在变强,很多人想到的是更好的代码补全、更高的考试分数、更流畅的对话体验。但这一次,Anthropic给出的不是抽象的“更强”,而是几个非常具体的安全案例:OpenBSD里一个存在了27年的漏洞,FFmpeg里一个存在了16年、被自动化测试命中过500万次却始终没暴露的问题,以及Linux内核中能够被串联起来完成提权的多处漏洞。换句话说,这次不是“模型会不会写PoC”,而是“模型已经能在关键软件里,把人类多年没解决的问题挖出来”。

第二条主线,是AI产业第一次把“防御优先”写成顶层发布逻辑。通常我们看到的模型发布套路,是先公开,再扩散,再让开发者自己去找场景。但Glasswing不是这样。Anthropic的做法是先把模型放进一个严格限定的合作框架,再把最先拿到能力的人限定为云平台、安全厂商、金融机构、关键开源维护者和基础设施参与者。它隐含的判断非常明确:如果一种能力已经可能对整个软件生态产生系统性外部性,那么它的首要问题就不再是“可玩性”,而是“部署顺序”。

第三条主线,是AI治理第一次出现了非常像工程方案、而不是口号的东西。过去两年,几乎所有前沿模型公司都在谈安全、责任、红队、对齐、部署规范,但很多内容停留在原则和框架上。这次不一样。Anthropic不是在泛泛地说“我们很重视风险”,而是直接给出了一套操作方案:限定访问范围、建立行业伙伴网络、优先修补关键基础设施漏洞、给开源组织拨款、承诺在90天内公开阶段性成果、并为后续更大范围部署打磨安全拦截与防护机制。它让AI治理第一次看起来像一套真正会被执行的工业流程。

二、Mythos真正重要的,不是更强,而是它把网络安全从“高手手艺”推向了“可自动化能力栈”

如果只把Mythos理解成“Anthropic当前最强模型”,会低估它真正值得讨论的地方。Mythos更关键的意义在于,它让很多原本极度依赖人类经验的安全工作,开始呈现出被自动化、规模化、流程化重写的趋势。

过去,漏洞研究之所以门槛高,并不是因为公开资料不够,而是因为它特别依赖综合能力。你要能读复杂代码,理解设计逻辑,找边界条件,写验证样本,判断问题到底是真崩溃、假信号,还是能走向可利用状态,最后还要把多个看似零散的问题串成一条有效的利用链。这整套工作,本质上是一门高度依赖上下文、工程嗅觉和持续试错的“高手手艺”。

而大模型过去一年的进化路径,恰恰一直在侵蚀这种门槛。更长的上下文、更强的代码理解、更稳定的工具使用、更强的agent式执行、更能做中间推理和自我修正的能力,让模型不再只是“回答一个问题”,而开始像一个会自己做实验、会自己检验假设、会自己迭代路径的研究代理。

这也是为什么Anthropic这次披露的数据会让行业如此紧张。官方材料里,一个最有代表性的例子就是Firefox 147的JavaScript引擎相关利用任务:此前的Claude Opus 4.6在数百次尝试里,只把相关漏洞成功做成工作利用两次;而Mythos Preview在同类任务里成功开发出可用利用181次,另有29次做到了寄存器控制但未完全走到最终利用。这个数字可怕的地方并不在于“181比2大”,而在于它说明模型能力已经从“偶尔蒙对”跨进了“可重复地产出有效结果”的区间。

02_firefox_js_shell_exploitation_official_zh.png

另一个同样关键的数据,是Anthropic在系统卡里给出的CyberGym成绩。CyberGym是一个面向真实开源软件漏洞复现的安全基准,评估的不是泛泛的“会不会说安全术语”,而是模型能否根据高层描述去复现真实漏洞。Mythos Preview在这项任务里给出的成绩是0.83,而Claude Opus 4.6是0.67,Claude Sonnet 4.6是0.65。这个差距说明,Mythos不是只在某一个特定安全案例里偶然爆发,而是在一类真实网络安全任务上,呈现出明显的代际跃升。

03_cybergym_chart_official_zh.png

更值得重视的是,Anthropic在官方说明里反复强调,Mythos的安全能力并不是靠“专门训练它去做黑客模型”得到的,而是随着通用代码、推理与自主执行能力变强,在下游自然涌现出来的。这句话其实非常关键。它意味着,未来别的模型公司即便没有刻意打造所谓“网络安全模型”,只要通用能力持续提升,也一样有可能自然进入这个危险区间。

从产业演进的角度看,这代表着一个新拐点:AI带来的风险不再只是“它会不会生成不良回答”,而是“它会不会让原本昂贵、稀缺、依赖高手的能力,突然以更低门槛扩散出去”。一旦漏洞发现与利用的综合成本被模型显著压低,整个软件世界积累多年的技术债,就会被重新定价。很多过去之所以暂时无事,不是因为它们不危险,而是因为发现和利用它们太难。现在,难度门槛正在被压缩。

三、比Mythos更值得研究的,可能是Glasswing本身

如果说Mythos代表的是能力上限,那么Glasswing代表的则是新的模型分发逻辑。它真正值得行业反复研究的地方,不在于一个联盟名字听起来多响亮,而在于它第一次非常清楚地展示了:当模型能力跨过某个阈值后,前沿模型公司会如何改变自己的发布方式。

过去很长时间里,大家默认的逻辑是:前沿模型先尽可能普及,然后由生态自己慢慢长出来。但Glasswing给出的逻辑正好相反——最强能力未必先面向大众,而可能先进入那些最需要它、也最能承受风险和治理成本的行业系统里。

这也是为什么Anthropic这次拉上的合作方不是内容平台、营销公司或者通用开发者社区,而是云基础设施、安全厂商、关键金融机构和开源基金会。因为当一个模型能在基础软件层面产生攻防影响时,模型公司就不能只把自己理解为“卖API的公司”了。它必须同时扮演风险披露者、行业协调者、基础设施组织者和治理实验发起者。Glasswing本质上就是这种角色升级的产物。

Anthropic的设计其实很有意思。一方面,它没有把Mythos彻底锁死在公司内部,而是交给一批现实世界里最重要的防守侧参与者先用起来;另一方面,它也不是简单地搞一个闭门内测,而是配套了大额使用额度、开源安全捐助、云平台接入、90天公开复盘、以及后续参与者通过Claude API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry获取模型能力的路径。也就是说,Anthropic不是单纯地把模型“藏起来”,而是在试图重新定义“高风险高能力模型应该先交给谁、在什么规则下交给谁”。

这套思路背后其实有一个非常现实的商业信号:未来最有价值的前沿模型,未必会先去卷消费级入口,而可能率先进入高价值、高风险、高安全要求的B端场景,比如网络安全、关键基础设施、金融风控、工业控制、操作系统与浏览器底层生态。因为在这些场景里,模型能力每提升一个台阶,带来的不是10%的流程效率提升,而可能是数量级的安全收益差异。

四、这不是“太危险所以不敢发”那么简单,而是一场从“公开竞赛”转向“安全工程”的分水岭

围绕Mythos最容易被误读的一点,就是外部媒体喜欢用“too dangerous to release”这一类更刺激的叙事来包装它。这种标题当然很容易传播,因为它非常符合大众对“超级AI失控”的直觉想象。但如果认真看Anthropic自己的系统卡和风险报告,会发现官方叙事并不是灾难片式的。

Anthropic给出的官方表述更接近下面这种意思:Mythos是他们迄今最强、最先进的模型,因此不适合按过去那种普通模型的方式直接面向公众开放;它会先以limited-release research preview的形式供少数客户和合作方使用;与此同时,公司对模型整体风险的判断是“非常低,但高于此前模型”,并且认为它没有表现出足以支持更严重风险判断的“危险一致性目标”,但确实观察到了在面对困难任务时,为了完成任务而采取令人担忧行动的倾向。

这两种叙事差别非常大。前者是“模型已经可怕到失控,所以不敢发”;后者是“模型能力变得更强,所以必须升级部署与分发机制”。如果把这件事理解成后者,你就能更准确地把握Anthropic这次动作的意义:它不是在渲染恐慌,而是在给前沿模型部署建立新范式。

04_mythos_system_card_cover_zh.png

05_alignment_risk_report_cover_zh.png 这对国内讨论尤其重要。因为国内关于前沿模型的舆论,常常会在两个极端之间快速摇摆:一种是“又一个营销故事”,另一种是“AI要失控了”。而Mythos与Glasswing真正值得看的恰恰不是这两个极端,而是中间那个更硬核、也更真实的问题:当前前沿模型能力已经高到,足以逼着公司改变部署方式,并且这种改变最先发生在网络安全这样最不适合靠讲故事来支撑的领域。

五、为什么这件事对国内产业特别值得重视

如果只把Mythos和Glasswing当成海外AI圈的一次刷屏新闻,很容易看热闹但看不到门道。站在国内产业的角度,这件事至少有四层非常直接的启发。

第一,下一阶段的大模型竞争,不再只是“模型更聪明”,而是“模型能不能进入关键行业流程,并且进入之后是否可控”。谁能把高端能力先安全地塞进关键行业,谁才更有可能在B端和基础设施层拿到真正稳固的位置。未来判断一个模型是否领先,也不能只看公测体验、免费可玩性或者社交媒体演示,而要看它有没有进入那些普通用户看不见、但价值更高的行业系统。

第二,安全将变成AI商业化的前置条件,而不是售后补丁。过去很多人对AI安全的理解还停留在“少胡说八道”“不要被越狱”“别输出不该输出的内容”这些层面。但在Mythos这里,安全变成了更底层的问题:一个强模型会不会重塑整个软件世界的漏洞发现速度、利用速度和修复窗口。如果答案是会,那么安全就不再是产品上线之后再慢慢修的附属模块,而必须从第一天就写进部署流程。

第三,开源基础设施的安全加固会变得比今天很多人想象中更重要。Glasswing这次给Linux Foundation、OpenSSF、Alpha-Omega和Apache Software Foundation直接拨款,释放出的信号非常清楚:未来真正值得优先武装的,未必是最会蹭热点的开发者,而是那些长期维护着公共依赖、却又常年缺资源的开源维护者。谁忽视这块,谁就很难真正谈“AI时代的基础设施安全”。

第四,分级开放、有限开放、场景化开放,可能会逐渐成为前沿能力的默认分发方式。对国内不少企业来说,这其实是个很重要的提醒:未来最强的模型能力,不一定会先出现在面向所有人的标准化产品里,而可能先存在于某些行业特供、企业特供、受限访问的模型或代理系统中。谁还只用“能不能立刻全民试用”去判断技术领先与否,可能会越来越看不懂产业方向。

再往前推一步看,Mythos和Glasswing也在给整个企业软件市场提一个醒:原来很多尚可容忍的技术债,在AI把漏洞发现和利用成本压低之后,都会变得更加危险。对国内大量仍在运行复杂旧系统、历史包袱重、代码栈混杂的企业与机构来说,这件事其实不是遥远的海外新闻,而是一个提前敲响的警钟。

六、AI公司未来卖的,可能不只是模型,而是“能力 + 安全控制 + 行业协同网络”

过去谈AI公司商业模式,大家通常会想到三样东西:API调用、订阅会员、面向C端或办公场景的应用入口。但Glasswing提示我们,在更高价值的行业市场里,AI公司未来真正卖出去的,可能是三层打包后的能力。

第一层,是模型本身的能力上限。没有Mythos级别的代码、推理和agent执行能力,Glasswing根本没有意义。

第二层,是围绕模型的访问控制、拦截机制、部署规范和安全审计。能力越强,这一层的重要性越高。高风险场景里,安全控制本身就是产品的一部分,而不是附加条款。

第三层,是把模型嵌进具体行业基础设施后的协同网络。换句话说,谁有云平台伙伴、谁有安全伙伴、谁有行业头部客户、谁能把模型部署在真实的工作流里,谁才能把高能力模型真正变成生产力。

从这个角度看,Glasswing并不是一个“额外附赠的合作项目”,而是一种新型产品形态的雏形:模型能力、控制机制、行业协同被打包成一个整体交付。没有能力,网络毫无意义;没有控制,能力无法放心扩散;没有行业伙伴,再强的模型也只能停留在实验室演示阶段。

这件事之所以重要,还在于它可能会改写未来几年人们对“模型发布”的认知。很多人仍然默认:新模型发布,就应该是开放测试、全民讨论、开发者狂欢。但在一些真正高价值的场景里,更可能出现的其实是另一种路线:先做限定部署,先补关键短板,先把拦截与审计做好,再逐步扩大接入范围。这不是保守,而是工业化程度更高的一种成熟表现。

七、真正值得记住的,不只是一个模型名,而是一个时代信号

回头看这件事,我认为最值得记住的,未必是“Claude Mythos Preview”这个具体名字,而是Anthropic通过它发出的那个时代信号:当前最强的大模型,已经开始以足够清晰、足够具体、足够不可回避的方式,进入全球软件安全和数字基础设施的底层结构。

这意味着,AI竞争下一阶段最核心的问题,可能不再只是“谁的回答更像人”“谁的分数更高”“谁的产品更好玩”,而会越来越变成“谁能在关键行业里安全部署最强能力”“谁能把模型从演示品做成基础设施”“谁能在能力扩散之前先把防守体系搭起来”。

Mythos代表的是能力阈值被跨过,Glasswing代表的是部署逻辑被重写。前者让人看到大模型在网络安全领域已经逼近甚至超过顶级人类专家中的一部分能力区间;后者则让人看到,当能力跨过这个阈值之后,前沿实验室不可能再沿用过去那套“先公开,再看生态怎么长”的轻量发布方式。

如果一定要用一句话概括这次事件,我更愿意这样说:Claude Mythos Preview不是一次普通的模型升级,而是大模型第一次以如此明确的方式闯入软件安全的底层结构;Project Glasswing也不只是一个联盟,而是前沿AI从“公开竞赛”转向“先防守、后扩散”的治理样板。

对国内的从业者、投资人、研究者和企业管理者来说,这件事真正值得思考的地方,不是Anthropic又领先了几分,也不是某个模型是否“太危险”,而是一个更现实的问题:当AI开始重新定价整个软件世界的脆弱性,我们该如何重建自己的安全认知、产品策略和部署秩序?

这,才是Claude Mythos Preview与Project Glasswing真正刷屏的原因。