前言
2025年5月23日,Anthropic在刚刚召开的Code with Claude开发者大会上,发布了最新版的Claude4模型。大模型编程领域永远的王Claude继续维持着它独一无二的统治地位。不同于此前的Claude3.5到Claude3.7的小幅度升级,本次Claude4是真正意义上跨纬度的大版本迭代。毫不夸张地说,Claude4就是现在编程性能最强也是Agent性能最强的大模型没有之一。
Claude4发布后,网络上涌现出各种关于Claude4的新闻文章。秉持着大模型研究者的严谨性,笔者通宵总结了Claude4模型性能测试报告,分析Claude4模型的核心特点,同时也整理了Claude4国内访问的最佳指南!感兴趣大家可关注笔者同名微信公众号:大模型真好玩, 并输入Claude4使用指南获取免费的接入使用资料!
这次实测Claude4大模型强劲的性能表现不禁让我感叹:AI时代的飞速发展距离程序员“失业”还有多远!
一、Claude4 核心特性
1.1 旗舰模型发布策略
本次Claude4发布了两款模型分别是大杯的Claude4 Opus和中杯的Claude4 Sonnet。这里提一下Claude的命名规则,Claude模型命名规则是小杯为Haiku, 中杯为Sonnet, 大杯为Opus, 而上次Claude旗舰模型的出现还是在24年3月,当时Claude3刚刚发布,此后的Claude3.5和Claude3.7都只发布了中杯的Sonnet模型,本次Opus模型的再次出现也足以可见Anthropic对于本次新模型的表现信心十足呀!
1.2 丰富模型功能设置
从模型功能来看,Claude4跟Claude3.7一样,都是混合推理模型。相比于Qwen3开源模型控制是否输出思考摘要的模式,Claude4和Gemini2.5 Pro 0520模型功能相同,新增了用于控制推理长度的选型以及允许输出思考摘要。Claude4和Gemini2.5 Pro 0520同样也代表着目前混合推理模型最强大的功能特性。
1.3 相对低廉的价格
“价格战”目前是各大公司的大模型核心战略,本次Claude 4 Sonnet加量不加价,和3.7 Sonnet相同。不过旗舰模型Opus则贵了5-6倍,百万token输入为15$,百万token输出为18.75$。
1.4 超强编程和AI Agent性能
Claude4模型保持了200K的上下文窗口长度,大于目前通用的128K上下文窗口长度。在模型性能方面,Claude4定位非常明确,主打AI编程和AI Agent 开发两大应用场景。Claude4发布前很长时间,Claude3.7就是性能最好且Agent性能最好的模型没有之一。
根据Cursor官方统计,80%以上的开发者会更倾向于使用Claude3.7进行编程,而像Manus、Suna等智能体项目也首推Claude3.7作为基座模型。
同时大家别忘了Anthropic可不止有Claude唯一杀器,在过去半年时间里AI圈最火的技术除了基座大模型就是Anthropic旗下的MCP技术,一跃成为Agent开发的核心技术,笔者也发布过MCP学习的系列文章,大家可以阅读:
- 理论+代码一文带你深入浅出MCP:人工智能大模型与外部世界交互的革命性突破
- 基于 MCP Http SSE模式的天气助手智能体开发实战(一文带你了解MCP两种开发模式)
- 理论+代码讲解Streamable HTTP MCP服务器原理
- 使用 MCP 官方 SDK 快速开发流式 HTTP MCP 服务器
- Qwen3+Qwen Agent 智能体开发实战,打开大模型MCP工具新方式!(一)
- Qwen3+Qwen Agent +MCP智能体开发实战(二)—10分钟打造"MiniManus"
- VsCode+Cline+高德地图MCP Server 帮你搞定和女友的出行规划(附原理解析)
言归正传,虽然MCP是开源技术,但毕竟和Claude隶属同一家公司,Claude也一直探索如何真正和MCP技术完美融合,而Claude4的出现让这种完美融合成为现实。
从模型编程和AI Agent性能上看,Claude4都是当前世界上最强的大模型没有之一。
大家如果和笔者一样对本身官方发布的报告不相信,可以查阅Cursor在Claude4发布后对其Opus 4和Sonnet 4在编程、推理、成本效益等维度全方位的深度测评文档,同样揭示了Claude4获得令人惊叹的性能,因此Claude4的强大性能毋庸置疑。
Claude4 Agent能力断崖式领先其他模型,这不仅要归功于模型底层强大的指令跟随能力,同时也要归功于Claude4模型首次提出的基于拓展思考的工具的调用流程,简单来说就是一边思考一边调用外部工具,并根据调用结果反馈重新调整思考的过程,最终借助模型底层的思考能力来提升工具调用的准确率。本次Claude4发布会最令人惊叹就是Claude4能执行7个小时的编程和Agent的任务,性能属实可怕。
二、Claude4详细评测
2.1 公司评测
各大公司的用户的实测对Claude4的反馈好评如潮,Manus称Claude4能够更好地完成复杂指令, 并输出美观前端。英国AI 公司 iGent表示Claude4能将其代码导航的错误率由20%下降到几乎0%,而argmented code和sourcegraph则表示Claude4代码质量有了质的飞跃是其首选的编程模型。
2.2 用户实测
不止是各大科技公司对Claude4赞不绝口,从Claude4发布后的用户评测结果来看也是一边倒的好评。无论是一句话完成前端页面的设计,还是一句话完成俄罗斯方块小游戏的开发还是围绕复杂的3D场景来进行场景设计,Claude4编程结果的运行效果都非常惊艳!
三、Claude4生态完善
3.1 编程生态
为了进一步提高Claude4的编程开发效率, Anthropic也是正式发布了历经两个多月内测的编程AI Agent——Claude Code, 这是一款对标OpenAI Codex的基于命令行的开源编程Agent。能够自动读取本地完整的项目代码并在本地测试运行,同时也和github连通,可以一键提交完整的用户代码。此外也可以接入到本地自定义的Agent开发页面中进行对话。
最关键的是此前微软发布的Copilot Coding Agent也全面集成了Claude4,同时我们可以在任何Github项目的任何issue或PR页面中直接@Claude4的方式调用模型完成任务,这是目前编程大模型的唯一待遇,由此可以感受到Github对于Claude4编程性能的高度认可。
3.2 AI Agent生态
要快速完成AI Agent开发,开发工具和基座模型同等重要。本次开发者大会Anthropic重磅升级了Claude4的调用API——Anthropic API, 就和之前OpenAI的chat compilations API升级为response API类似,Anthropic API由之前用于聊天机器人开发的API进一步升级为AI Agent开发的API, 只是名称没有变。
这次升级的Anthropic API 额外增加了四项功能:
- Code Execution代码解释器:不同于OpenAI代码解释器,Claude4代码解释器可以实时观察运行结果并随时手动调整代码。
- RAG文档检索功能:能够对本地文档进行高精度的缓存检索
- 拓展缓存工具:开发者可以使用该工具为Agent提供最多1小时的持续记忆时间,如下图Claude4在玩 宝可梦 游戏时的持久的记忆演示示例
- MCP Connector: 仅需写入MCP的配置就能够让Claude模型无缝接入海量MCP工具,从实际代码量看Anthropic公司接入MCP的代码量应该是最简洁的(made, 我出的那么多分享还有何用,哭~)没有之一。
考虑到Anthropic公司原本就有computer use和web search等功能以及一整套用户可自定义的前端页面,现在Anthropic API就是为Claude4量身定制的开发工具了
四、结语
本期分享从不同角度详细介绍了Claude4大模型令人惊叹的核心功能!一直以来,Claude都是一个非常务实的团队,很少宣传花里胡哨的噱头,更加聚焦于大模型切实的性能提升和落地应用。看到这里大家是不是也迫不及待想体验Claude4的卓越性能,笔者这里也是花费大量时间整理了Claude4的国内使用指南,大家可关注笔者同名微信公众号:大模型真好玩, 并私信Claude4使用指南获取免费的接入使用资料!