实测 Claude 3.7:3200 行代码一口气输出,物理规律手拿把掐,弱智吧已失守

1,422 阅读8分钟

Claude 3.7 新鲜出炉全网热议,到底有多强?

第一波实测来了!简单粗暴总结,它在编程、现实世界任务上,能力爆表。

只需一个样本,就能一下子吐出 3200 多行代码,做出一个可玩性很高的游戏。

像什么跳跃、打怪、回血、吃金币…… 一系列复杂的游戏机制都完美呈现了出来。

有意思的是,这个游戏还和 Meta Quest 里的 VR 游戏《霓虹奥德赛(Neon Odyssey)》同名。

物理规律也能准确把握,有人仅用 3 个提示,就用 C 语言模拟了真实物理情景下的流体运动:

并且量子位实测发现,Claude 3.7 Sonnet 能够识破很多的逻辑陷阱,一些弱智吧名场面也能秒懂:

而在 Claude 官方看来,其最大的优势就是 “更擅长现实世界中的任务”,并且在更新公告中还不忘内涵一波隔壁 OpenAI。

另外趁着模型上新,Claude 背后的 Anthropic 新一轮融资曝光:35 亿美元(约 254 亿人民币)。比预先目标 20 亿翻了近一倍。

由此,包括正在筹集的现金在内,Anthropic 估值已经达到了 615 亿美元(约 4462 亿人民币)。

一句话生成《我的世界》,新模型编程能力嘎嘎乱杀

从更多网友鲜测来看,Claude 3.7 Sonnet 尤为擅长编程和 Web 开发

一上手,他们就把目光放在了考验 AI 理解真实世界能力的物理模拟上。

更懂物理规律

比如一位日本小哥就用它生成了精致的 “太阳系运行图”,太阳、八大行星还有被开除行星籍的冥王星都包含在内,给小哥带来了亿点点震撼:

1374 行代码,Claude 3.7 Sonnet 唰一下就完成了!

不仅生成速度快,还实现了实时交互。点击某个行星,右上角还会显示一些小科普。

要知道,哪怕不制作成动画,单纯地完整厘清这些天体的运行规律,就已经难倒了绝大部分人。

而 Claude 的作品,虽然美观性可能还有提升空间,但至少它不仅对行星运行的规则有清晰的把握,还能把它们变成代码。

另外,对于每一个新模型都要被拉出来遛一遛的 “空间内弹小球” 挑战,Claude 3.7 Sonnet 当然也没逃过:

编写一个 Python 脚本,实现球在四维体内部弹跳。

本月初的 o3-mini 在这一挑战中表现出色,斩获 “可能是最懂现实物理的 LLM”:

而相比于慢悠悠的 o3-mini,Claude 3.7 Sonnet 则另辟蹊径主打一个 “天下武功,唯快不破”。

小小四维空间内,小球弹跳速度快出残影,真滴很需要一个眼尖的裁判来决出胜者 (doge)。

与此同时,除了物理模拟,用 Claude 3.7 Sonnet 编写各种小游戏竟默契成为一众网友最佳选择。

游戏成最热场景

挑战生成爆火游戏《Flappy bird》,Claude 3.7 Sonnet 一眼完胜 o3 mini-high。

游戏中,玩家必须控制一只小鸟,跨越由各种不同长度水管所组成的障碍。

先看 Claude 3.7 Sonnet,一次性生成的代码就高度还原了游戏理念:

而高档位推理模式下的 o3 mini,只有一个小方块在画面中原地鬼畜,基本看不出游戏的亚子。

一时间,这一惨烈对比直接将 Claude 3.7 Sonnet 推上了新的高度:

同时,随着难度进一步升级,这句评价的含金量还在上升。

除了简单还原游戏理念,生成更精致甚至可以上下左右交互的 “大制作” 也是不在话下。

在早期测试中,知名博主 Rowan Cheung 就用它一句话创建了克隆版《我的世界》,而且能立即在 Artifacts 中玩。

类似的还有下面这个,也是一句话生成一个完整游戏:

使用 Phaser.js 制作一个横版平台游戏,仅使用箭头键进行游戏操作。(左上角还会实时更新得分情况)

这还不算完,更有脑洞大开的网友仅用 5 个提示,就为 Apple Watch 制作了一个与心率绑定的贪吃蛇游戏。

你越紧张,蛇移动得越快,你越冷静,就越容易。

笑死,知名博主 Pietro Schirano 借机又调侃了 Anthropic 一波:

而除了各种游戏,将 Claude 3.7 Sonnet 应用于实际开发场景的例子也是精彩纷呈。

生产力提效 Max

目前,Claude 平台已提供 GitHub 集成,开发人员可以将其代码存储库直接连接到 Claude。

设置完成后,它会显示特定项目的容量百分比,这样用户就知道自己使用了多少容量。

知名博主 elvis 特意 cue 到了 “Artifacts” 功能,直连后这对于今后修改代码非常方便。

在实际体验中,有人用它来生成动画天气卡,移动的云彩、飘落的雨滴等全都栩栩如生,还支持自主调节移动快慢。

当然,创建网页这种活儿,单看可能没感觉,那我们直接请出几位选手挑战扒同一个 HTML 网页。

要完成的目标是这样婶儿的:

Claude 3.7 Sonnet 堪称还原度最高,而且在没有图标素材的情况下用 emoji 填充了左侧边栏的按钮:

而其他几位选手 o1-mini-high、Grok 3 以及 Gemini 2.0 Pro 依次作答如下,有的只简单地列举了数据,甚至还有的干脆只给了个表格:



鉴于编写程序的能力确实很强,还有人激动表示自己在 cursor 里尝试了一番,效果嘛:

添加了 15 个以上的文件,并且看起来很好,看上去一次可以处理的内容更多了。

“数字母” 问题埋下小彩蛋

而且 Claude 团队也非常 “时髦”,在 3.7 Sonnet 当中埋下了关于 strawberry 数 r 的彩蛋。

不过虽然这种幽默的态度十分可嘉,但是换了个词可能还是会掉链子。

虽然数错了,Claude 还不忘纠正拼写错误,耿直地指出你这个 “密西西比” 拼的不对啊,正确的拼写里就是有 4 个 s。

实测:识破逻辑陷阱,弱智吧也能招架

Claude 3.7 Sonnet 的推理能力除了体现在编程上,还包括在存在误导信息的情况下准确推理。

而且即使不开启推理模式,Claude 3.7 Sonnet 依然能够在有误导信息推理测试当中取得和 o3-mini 一样的成绩。

这项测试,使用的 GitHub 上一个名为 Misguided Attention 的 Benchmark。

其中包含了很多经典谜题…… 的改编版本,考验的就是大模型能不能做到不被表象迷惑。

举个例子,电车难题我们都很熟悉:

假设在一个电车轨道上被绑了 5 个人,而它的备用轨道上被绑了 1 个人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。

但在这套 Benchmark 里,这道题被改编成了这个样子:

假设在一个电车轨道上被绑了 5 个死了的人,而它的备用轨道上被绑了 1 个活着的人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。

o3-mini-high 毫不犹豫地就选择了让电车冲向活人,还言之凿凿地解释说这样会减少受害者数量。

而 Claude 3.7(未开启拓展思考)就能够发现这其中的门道,表示这是一个变体,并选择了不伤害还活着的人。

再比如物理学当中的名场面——薛定谔的猫,在这套基准当中,这只猫的 “猫设” 被改成了一只死去的猫。

一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射,它将释放毒药。一天后,盒子打开。猫还活着吗?

Claude 3.7 也是准确把握了关键点,正确回答了猫的存活概率为 0。

也是有一些弱智吧的味道了,既然如此,那我们就加试几个弱智吧问题看看。(doge)

还是没有开启思考模式,Claude 3.7 就识破了我们问题当中的逻辑缺陷。

像这类因果倒置的弱智吧场面,Claude 3.7 也能及时发现,相比之下 o3-mini-high 的回答就好像是成功被诱骗。

最后,我们让 Claude 3.7 解释了一些中文中有趣的语言现象。

结果,“咖啡因不存在于成品咖啡” 这句出了错误,但是瑕不掩瑜,整体的解释还是比较靠谱的。

One More Thing

关于 Claude 3.7 Sonnet 的命名,Anthropic 首席产品官 Mike Krieger 揭秘了这当中的过程。

由于之前 Claude 3.5 Sonnet 发布过一次更新,所以团队一开始是考虑叫 3.5 Sonnet newer 或者 newest,又或者 3.5 Sonnet v3。

也许是觉得还叫 3.5 体现不出这版模型的强大,后来又改成了 3.6,最终敲定在了处于 3.5 和 4 中间的 3.7。

参考链接:
[1]x.com/rowancheung…
[2]x.com/mckaywrigle…
[3]x.com/omarsar0/st…
[4]www.reddit.com/r/singulari…
[5]www.reddit.com/r/singulari…
[6[www.wsj.com/tech/ai/ai-…