Claude 3.7 应该已经达到了专家级程序员的水准

17,836 阅读12分钟

大家好,我是 ConardLi

就在前天凌晨,Claude 推出了目前市场上首个的混合推理模型 Claude 3.7 Sonnet

Claude 3.7 Sonnet 的核心优势在于其独特的双重模式。它既是一个普通的大型语言模型,也是一个强大的推理模型。用户可以根据需求选择模型是快速给出答案,还是经过深思熟虑后再作回应。在标准模式下,Claude 3.7 SonnetClaude 3.5 Sonnet 的升级版,表现更为出色;而在扩展思考模式下,它会先进行自我反思,从而在数学、物理、指令执行、编程等任务上展现出更强的性能。

另外 Claude 还同时发布了一个专门用于 AI 辅助编程的命令行工具 Claude Code,这个后面我专门出一期来给大家介绍。

众所周知,正是因为 Claude 3.5 Sonnet 出色的编程能力,让诸如 Cursor、Windsurf 这样的编程工具大放异彩,而 Claude 3.7 Sonnet 的出现,应该能让 AI 编程领域的天花板更上一层了。

下面这张图是官方在 SWE-bench Verified(一个用于评估 AI 模型解决实际软件开发问题能力的测试)上,和 Claude 3.5、OpenAI o1、DeepSeek R1 上的对比测试结果:

Claude 3.7 Sonnet 的编程能力断层式领先。

然而事实真如测试这样吗,我们还是得在实际编码场景来测试一下。

就在昨天 Windsurf 也及时发布了对 Claude 3.7 Sonnet 的适配支持:

打开编辑器更新后,果然能选择了:

这里我们注意,这次更新之后,Claude 3.7(Thingking) 的收费标准和 Claude 3.5 并不是一样的,而是贵了 1.5 倍,比 DeepSeek R1 的收费要贵了 3 倍,我们按最基础的 10💲 付费会员来算,原本每月能调用 500 次 Claude 3.5,现在只能调用 333 次 Claude 3.7(Thingking)

不过在后续的实际测试中,我发现这个收费也是值的,因为以前往往需要多轮对话完成的内容,现在调用一次 Claude 3.7(Thingking) 就可以完成。

测试标准

下面我会从四个角度来对 Claude 3.7 Sonnet 的编程能力进行测试:

  • UI还原能力:我们让模型帮我们还原一个具备一定复杂度的后台系统,观测不同模型的还原程度,来对比结果。
  • 项目理解能力:我们让模型在一个具备一定规模的项目下分析整个项目的架构和实现,并给出具体优化措施,观测优化措施的完善程度,来对比结果。
  • 架构设计能力:我们让模型独立完成一个具备一定技术复杂度的全栈项目的设计和编写,观测项目搭建的完善程度,来对比结果。
  • 物理规律理解:这个是模型编程能力必做的一项测试,很多模型在对物理规律相关的编程上都会存在问题。

UI 还原能力:还原复杂后台管理系统

首先我们来测试一下 UI 设计图的还原度,我在网上找到一个 UI 设计相对比较复杂的网站,让它来帮我们还原一下 UI ,原始网站截图:

为了更全面的测试模型的还原能力,我们使用两张设计稿。

提示词如下:

Claude 3.5 还原效果

首先,第一次的任务执行后网站报错,没有运行起来,经过额外两次调试后网站才运行起来

最终的还原效果:

整体的配色、布局和关键的元素是在的,但是功能差的就比较多了,而且路由不能点击,我输入给它的是两张图片,这里只实现了一个路由。想要达到比较高的还原效果,估计得进行多轮对话才行。

V0 的还原度

还原设计稿应该是 V0(v0.dev)目前的主打卖点,也是它的优势,我们再来对比一下 V0 的 UI 还原度(默认也是用的 Claude3.5):

比 Windsurf 的 Claude3.5 稍微好一点,但是明显距离真实的设计稿还是有差距的

Claude 3.7 还原效果

Claude 3.7 一次对话就成功的完成了任务,中间没有任何报错,而且在我没有给定额外图片资源的情况下,它自己通过 SVG 模拟了网站上的图标。

还原效果:

其他路由点击后也能访问:

虽然没能做到完全一比一还原,但是这个还原度已经非常不错了,而且中间过程没有报错,对比其他模型的还原度还是很高的。

对比结论

✅ Claude 3.7 胜出。

项目理解能力:大型项目优化分析

下面我们来测试 Claude 3.5 、Claude 3.7 分别在一个大型项目的架构理解上的能力表现。

问题:理解当前项目架构,并告诉我本项目还有哪些需要改进的地方?(无需改动代码,先输出)

Claude 3.5 输出结果

Claude 3.7 输出结果

对比结论

下面我们让 DeepSeek 来给出对比结论:

通过对两个版本的输出进行对比分析,可以看出 Claude 3.7 在项目上下文理解能力上有显著提升,以下是具体对比结论(由 DeepSeek 输出):

  1. 上下文感知深度
  • 3.5 版本:提供通用型改进建议(测试/性能/安全等),但未体现对项目具体结构的理解
  • 3.7 版本:展现出对项目细节的深度分析能力,具体体现在:发现实际代码问题(models目录的文件重复)、识别技术栈冲突(React Router 与 Next.js 路由混用)、发现文档与实现不一致的情况、分析实际依赖项问题(重复的TS类型定义)
  1. 问题定位精度
  • 3.5 版本:建议范围广泛但较泛泛(如"添加缓存策略")
  • 3.7 版本:提出更具体的改进方向,例如:构建优化(代码分割/动态导入)、环境变量管理策略、路由系统统一方案、图片加载策略的层次化优化
  1. 架构思维差异
  • 3.5 版本:呈现标准化的 checklist 模式
  • 3.7 版本:展现出架构师级别的思考:、提出扩展性方案(插件系统/主题系统)、关注代码可维护性(依赖项审查/代码规范统一)、考虑技术演进方向(现代化更新建议)
  1. 诊断维度对比
分析维度3.5 版本3.7 版本
项目结构诊断无具体发现发现文档与实际结构差异
代码质量问题仅规范建议发现文件重复/命名问题
技术栈合理性未涉及识别路由系统冲突
演进路线规划通用建议包含现代化升级路径
风险识别能力基础安全建议发现机密信息管理漏洞

结论:Claude 3.7 展现出质的飞跃:

  1. 上下文理解:能基于项目实际结构提出诊断建议
  2. 问题发现:具备代码级别的分析能力
  3. 方案深度:给出可落地的分层改进策略
  4. 架构思维:体现技术决策的权衡意识

架构设计能力:全栈项目编写

下面,我们再来测试一下综合的架构设计和编码能力,让它帮我们生成一个完整的全栈项目,既要兼顾某一个具体的技术设计,又要兼顾前后端的协作,需求如下:

  • 设计并实现一个 Node.js 的 JWT 认证中间件,考虑安全性和易用性
  • 设计对应的前端页面、业务接口来演示中间件的调用效果
  • 创建 Readme 文档,并编写此中间件的架构设计、使用方式等

Claude 3.7 编写结果

首先任务还是一次成功,生成了一个非常完善的全栈项目,数了下一共有 29 个文件,这个是真牛逼:

写了一个脚本统计了一下一次生成的代码行数,一共生成了 3563 行,单从一次性编写的代码行数来讲,目前应该没有其他模型能做到这一点了:

我们再来看看具体的技术实现,下面是模型生成的 jwtAuth 函数的主要参数,可以说考虑非常全面了:

在生成的 Web 界面上,包含了几种 JWT 鉴权主要的测试场景:

甚至还实现了完整的登陆登出和注册功能:

单单看某一个功能可能觉得还好,但是这些功能是一句提示词就能直接完成的,可以说相当牛逼了。

Claude 3.5 编写结果

我们再来看下 Claude 3.5 的编写结果:首先从目录上看,生成的项目就简单很多了:

然后再来看 JWT 鉴权函数的设计:

也是比较简单,在 Web 页面上,只展示了一个基本的登陆验证功能:

对比结论

从工程的生成的完整性来讲我们就不用多说了,很直观,Claude 3.7 完胜,下面我们让 DeepSeek 帮我们对比下核心功能 JWT 鉴权函数的设计:

对比结论:

Claude 3.7 vs 3.5 JWT鉴权函数对比

  1. 代码结构

    • 3.7:函数式模块化设计,导出多个中间件(主鉴权+角色/权限验证)
    • 3.5:面向对象实现(类封装),集成生成/验证功能于一体
  2. 核心特性

    • 自动刷新:3.7支持过期前阈值自动刷新Token(更新Cookie/Header),3.5无
    • 鉴权方式:3.7支持Header/Cookie/Query三通道,3.5缺少显式开关控制
  3. 错误处理

    • 3.7:区分Token过期/无效/未生效等错误类型,支持自定义回调函数(onError/onSuccess)
    • 3.5:仅返回统一错误信息,无细分错误类型
  4. 权限控制

    • 3.7:提供hasRole/hasPermission链式鉴权中间件
    • 3.5:无内置权限控制,需外部实现
  5. 配置灵活度

    • 3.7:支持16+配置项(提取来源/刷新阈值/Token类型等),强可定制性
    • 3.5:仅基础配置(密钥/有效期/排除路径)
  6. 扩展性

    • 3.7:开放Payload保留机制(刷新时自动保留原始声明),开发友好
    • 3.5:Token生成/验证耦合在类中,扩展需继承修改\

对比结果依然很明显:✅ Claude 3.7 完胜。

物理规律理解:弹力小球游戏

题目:实现一个弹力小球游戏:

  • 环境设置:创建一个旋转的六边形作为小球的活动区域。
  • 物理规律:小球需要受到重力和摩擦力的影响。
  • 碰撞检测:小球与六边形墙壁碰撞时,需要按照物理规律反弹。

Claude 3.7 编写效果

效果非常完美,它甚至还实现了我每次点击鼠标让小球跳跃起来,根据点击的时长决定跳跃的力度,我觉得这个模型在物理规律的理解上应该进行过专门的调优了。

Claude 3.5 编写结果

这个结果就稍微有点拉跨了,虽然最开始有点重力效果,但是后面明显穿模了。

DeepSeek R1 编写结果

直接翻车。

对比结论

Claude 3.7 胜出。

总结

  • UI还原能力:Claude 3.7 胜出 ✅
  • 项目理解能力:Claude 3.7 胜出 ✅
  • 架构设计能力:Claude 3.7 胜出 ✅
  • 物理规律理解:Claude 3.7 胜出 ✅

实际测试结果摆在这里,这没啥好说的,Claude 3.7 确实提升了 AI 编程的天花板。

在本次发布的最后,Claude 还给出了 Claude 模型的演进路线图

  1. 2024年 - Claude assists(Claude 协助):帮助个人更好地完成他们当前的工作,使每个人都能成为最好的自己。

  2. 2025年 - Claude collaborates(Claude 协作):能够独立完成数小时的工作,并与专家并行工作,扩展每个人或团队的能力。

  3. 2027年 - Claude pioneers(Claude 开拓):能够找到突破性的解决方案来解决那些需要团队多年才能解决的挑战性问题。

当前阶段,这个编程能力能称得上承担一个 “专家” 的工作已经毫不夸张了,相信到 2027 年,Claude 说能够替代一个团队也没那么夸张了...

最后

抖音前端架构团队目前放出不少新的 HC ,有看机会的小伙伴可以看看这篇文章:抖音前端架构团队正在寻找人才! FE/Client/Server/QA,25 届校招同学可以直接用内推码:DRZUM5Z,或者加我微信联系。

如果你想加入高质量技术交流群,或者你有任何其他事情想和我交流也可以添加我的个人微信 ConardLi 。(加前端交流群请备注前端,加 AI 交流群请备注 AI;)

点赞转发关注 是最大的支持 ⬇️❤️⬇️