4月7日,AI圈炸了。
Anthropic发布了一个新模型——Claude Mythos Preview,代号Capybara。SWE-bench 93.9%,GPQA 94.6%,代码和推理能力断层领先。
但Anthropic说:这个模型不给你用。
苹果、谷歌、微软、亚马逊,12家科技巨头,联合搞了个Project Glasswing防御计划。Anthropic承诺提供最高1亿美元计算额度,加上400万美元捐赠给开源安全组织。原因是Mythos在测试中自主发现了数千个零日漏洞,其中包含OpenBSD沉寂27年的老洞,还有FFmpeg被500万次fuzzer都没触发的暗门。
Anthropic的系统卡片有244页。读完之后的感受就一句话:
这玩意儿确实强。强到开发它的公司自己都不敢放开。
7年前,OpenAI发布GPT-2的时候,说过同样的话:"太危险了,不公开。"
7年后,同样的话又来了一遍。
只不过这次,局面比7年前复杂一万倍。
Mythos到底有多强?三个数字说明一切
先看数据。
93.9%——SWE-bench Verified成绩。这个基准测试衡量的是AI独立修复真实GitHub Issue的能力。目前市面上能公开用的最强模型,成绩在80%出头。Mythos直接拉到93.9%,不是领先一点,是断层领先。
94.6%——GPQA Diamond,研究生级别的推理测试。物理学、化学、生物学,跨学科的专家级问题。人类博士水平的答题准确率大约在65%左右。Mythos干到94.6%。
83.1%——CyberGym漏洞复现测试得分。给它一个已知漏洞的描述,它能自主找到并复现这个漏洞。27年前藏在OpenBSD里的安全缺陷,500万次fuzzer都没碰到的FFmpeg暗门,Mythos全翻出来了。
说白了,这东西能做的事情已经超出了"写代码"的范畴。它能在代码库自主导航,跨文件理解架构,找到连人类安全专家都忽略了几十年的漏洞。
这就是Anthropic不敢放出来的原因。
不是技术不行。是太行了,行到不可控。
大多数人对"AI越来越强"这件事的认知是错的
看到Mythos的数据,朋友圈和群里炸锅。焦虑的有,兴奋的有,恐慌的也有。
但我觉得大多数人讨论的方向,从根上就错了。
他们在聊什么?"AI越来越强了,我要被淘汰了。""Claude这么牛,是不是不用学编程了。""最强模型用不了,普通人怎么办。"
这些问题本身就有问题。
你见过谁因为知道有一辆法拉利比自己的车快10倍,就开始焦虑自己不会开车了吗?
AI工具说白了就是放大器。它放大你的能力,而不是替代你的能力。
Mythos的代码能力是93.9%。你用不用Mythos,跟你会不会用AI编程,是两回事。
Claude Code一个月$100。Claude Mythos根本不卖给你。Cursor一个月$20起步。还有一堆免费工具——Trae、Gemini CLI、Copilot Free。
工具从$0到$100,选择很多。但你选哪个工具,取决于你想用AI做什么。
这才是关键。
大多数人聊AI,聊的全是"哪个模型最强"。Claude Mythos强不强?强。GPT-4o行不行?行。DeepSeek V4好不好?好。
这个问题就像在问:"哪把锤子最好?"
你见过谁因为换了一把锤子,就变成好木匠的吗?
AI编程工具要解决的,不是帮你写代码这件事。而是让AI理解你的意图,按工程化的方式,从需求到交付,完整地完成工作。
工具在进化。做事的方法不会过时。
Mythos真正可怕的地方:能力是涌现的
Anthropic的技术报告里有一个细节,比那些吓人的数字更值得关注。
Mythos的安全审计能力——发现零日漏洞、复现攻击路径、评估防御方案——这些能力不是专门训练出来的。
Anthropic没有给它做过"网络安全专项训练"。它的安全能力,是从代码能力和推理能力里自然冒出来的。
这意味着什么?
意味着任何足够强的AI模型,只要代码能力和推理能力够高,都会自动获得类似的安全能力。
Anthropic自己在系统卡片里也承认了:这些能力不是Mythos独有的。多位安全专家的判断是,竞品模型在半年到一年半内会追上来。
半年到一年半。
你品品这个时间窗口。
现在Mythos关着门不给用。但半年后呢?一年后呢?当这些能力变得人人可用的时候,世界会变成什么样?
我没有答案。但我知道一件事:
等最强模型开放的那天再开始学AI,就像等5G全覆盖了再买第一部智能手机。
不是效率提高了。是做事的方式变了。
$0的一人公司,已经有人在赚了
说回现实。
Mythos离普通人确实远。但用AI赚钱这件事,一点都不远。
昨天36氪发了一篇报道——"AI催生的一人公司爆火"。里面有个案例我印象特别深。
塔塔,前设计师,被裁员后一度找不到工作。后来转型做AI自媒体,一个人,一台电脑,月AI工具费300-400块,现在月入2万+。
她的工具有多强?Claude Code?不。Cursor?也不全是。
她用的是一套组合:Claude做内容策划,Midjourney做配图,剪映自动剪辑。没有一个是最强模型。但拼在一起,就是一套完整的生产线。
36氪的报道里还有一组数据:一人公司年收入从500万到2000万的区间,已经有人做到了。AI漫剧的制作成本降到传统的1/10到1/100。独立创始人创立公司的比例,从2019年的23.7%涨到了2025年上半年的36.3%。
一人公司的关键不是"一个人干所有事"。是让AI帮你干掉所有不需要你亲自做的事。
你想想看,这个逻辑其实很简单。
以前做内容创业,你需要策划、写稿、设计、剪辑、运营,至少5个人。现在呢?AI帮你写初稿,AI帮你做配图,AI帮你剪视频,AI帮你排版发布。你只需要做一件事——判断。
判断选题值不值得写。判断内容方向对不对。判断这个产品该卖给谁。
判断力,才是AI时代最值钱的能力。
不追最强模型,追方法
我跟你说句实话。
Claude Code一个月$100,我用。Anthropic Mythos免费,如果开放了我也会用。但这些工具在我的工作流里,占比不超过20%。
剩下80%是什么?是方法。
怎么跟AI沟通需求。怎么把一个大任务拆成AI能理解的小步骤。怎么审查AI的输出,确保质量过关。怎么把AI生成的素材组合成完整的产品。
这套方法,我摸索了3个月。
后来我把完整流程做进了AI全能班里——AI编程实战模块教的是"怎么让AI理解你的意图并完整交付",公众号全自动运营模块教的是"怎么用AI搭建内容生产线",被动收入模块教的是"怎么把AI能力变成钱"。
4期300+学员在用。有人用这套方法做自媒体月入过万,有人用它搭建了自己的自动化运营系统,有人用它从零学会了AI编程接单赚钱。
他们用的工具五花八门。Claude Code、Cursor、WorkBuddy、Trae、甚至免费的Gemini CLI。工具不同,方法一样。
工具会过时。模型会更新换代。平台会改规则。方法不会。
这不是什么高深的道理。
就像做正确的事,比把事情做正确重要一万倍。
Claude Mythos很强。但它不给你用。你焦虑也没用。
与其等Anthropic开门,不如现在就把手上能用的工具玩明白。$0的工具能不能赚钱?能。能不能做出80%的效果?能。关键是你有没有那套方法。
比"越早开始越好"更实在的答案——现在就开始。